Comment prendre une ligne au hasard à partir d'un PySpark DataFrame?

Comment puis-je obtenir une ligne au hasard à partir d'un PySpark DataFrame? Je ne vois que la méthode sample() qui ne prend qu'une fraction comme paramètre. La définition de cette fraction de 1/numberOfRows conduit à des résultats aléatoires, où, parfois, je ne vais pas entrer n'importe quelle ligne.

Sur RRD il existe une méthode takeSample() qui prend comme paramètre le nombre d'éléments que vous voulez l'échantillon à contenir. Je comprends que cela peut être lente, comme vous l'avez de compter chaque partition, mais est-il un moyen d'obtenir quelque chose comme ceci sur un DataFrame?

OriginalL'auteur DanT | 2015-11-30

33

Vous pouvez simplement appeler takeSample sur un RDD:
```
df = sqlContext.createDataFrame(
    [(1, "a"), (2, "b"), (3, "c"), (4, "d")], ("k", "v"))
df.rdd.takeSample(False, 1, seed=0)
## [Row(k=3, v='c')]
```
Si vous ne voulez pas venir vous pouvez simplement prendre une fraction plus importante et limite:
```
df.sample(False, 0.1, seed=0).limit(1)
```
Est-il un moyen d'obtenir des valeurs aléatoires. Dans le cas ci-dessus le même dataframe de produit à chaque fois que je lance la requête.
Ne pas passer une seed, et vous devriez obtenir un autre DataFrame à chaque fois.
Astuce sympa, @LateCoder! (Spark 2.3.1, en gardant les graines=Aucun ne semble fonctionner pour df.rdd.takeSample, pas de df.de l'échantillon.)

OriginalL'auteur zero323

Vous devez vous connecter pour publier un commentaire.