PySpark 2.0, La taille ou la forme d'un DataFrame
Je suis en train d'essayer de trouver la taille/forme d'un DataFrame dans PySpark. Je ne vois pas une seule fonction qui peut faire cela.
En Python je peux faire
data.shape()
Est-il une fonction similaire dans PySpark. C'est ma solution actuelle, mais je suis à la recherche d'un élément on
row_number = data.count()
column_number = len(data.dtypes)
Le calcul du nombre de colonnes n'est pas l'idéal...
Mettre cela dans une fonction ?
OriginalL'auteur Xi Liang | 2016-09-23
Vous devez vous connecter pour publier un commentaire.
OriginalL'auteur George Fisher
Utilisation
df.count()
pour obtenir le nombre de lignes.OriginalL'auteur Learner
Je pense qu'il n'y a pas de fonction similaire comme
data.shape
dans Spark. Mais je vais utiliserlen(data.columns)
plutôt quelen(data.dtypes)
OriginalL'auteur Y.C.
Ajouter à votre code:
Ensuite, vous pouvez faire
Mais juste vous rappeler que
.count()
peut être très lent pour les jeux de données très volumineux.OriginalL'auteur Louis Yang