L'échantillonnage aléatoire dans pyspark avec remplacement

J'ai un dataframe df avec 9000 identifiants uniques.

comme

| id |
  1 
  2 

Je veux générer un échantillon aléatoire avec le remplacement de ces 9000 id 100000 fois.
Comment puis-je le faire dans pyspark

J'ai essayé
df.de l'échantillon(True,0.5,100)

Mais je ne sais pas comment arriver à 100000 le nombre exact

Pour être clair, vous avez besoin de prendre un échantillon aléatoire de 9000 id, où chaque échantillon est de 4 500 identifiants (qui pourrait se répéter depuis que nous avons échantillon avec remplacement), et vous avez besoin de 100 000 de ces échantillons?
9000 est la population de distinctes id que j'ai, je veux suréchantillonnage à la population de 100000 avec remplacement et de façon aléatoire. donc en clair, je veux ramasser un id aléatoire 100000 fois à partir d'un pot de 9000 id d'une façon aléatoire. J'espère que cette aide.
Il l'a fait, merci. Je vais essayer de travailler à travers maintenant.

OriginalL'auteur Shweta Kamble | 2016-06-07