Obtenir le nombre d'enregistrements dans un bloc de données rapidement
J'ai un dataframe avec autant d'en tant que 10 millions de documents. Comment puis-je obtenir un compte rapidement? df.count
est de prendre un temps très long.
Qu'est-ce que 'est un très long time"? Pouvez-vous nous en dire plus sur ce que vous êtes en train de compter?
Voir stackoverflow.com/questions/28413423/... et aussi le
Je suis comme ça. df.count()
Double Possible de Compter le nombre de lignes dans un CA
Voir stackoverflow.com/questions/28413423/... et aussi le
countApprox
méthode spark si vous n'avez pas besoin d'une réponse exacte.Je suis comme ça. df.count()
Double Possible de Compter le nombre de lignes dans un CA
OriginalL'auteur HEMANTH KUMAR | 2016-09-06
Vous devez vous connecter pour publier un commentaire.
Il va prendre beaucoup de temps de toute façon. Au moins la première fois.
Est une façon de mettre en cache le dataframe, de sorte que vous serez en mesure de plus avec elle, d'autres que de les compter.
E. g
Les opérations ultérieures ne prennent pas beaucoup de temps.
OriginalL'auteur Ravi R
Il a travaillé pour moi
OriginalL'auteur saad