Pyspark la Suppression des valeurs nulles à partir d'une colonne dans dataframe
Mon Dataframe ressemble à ci-dessous
ID,FirstName,LastName
1,Navee,Srikanth
2,,Srikanth
3,Naveen,
Maintenant Mon Problème est que je dois supprimer le numéro de ligne 2 depuis le Premier Nom est null.
Je suis aide-dessous pyspark script
join_Df1= Name.filter(Name.col(FirstName).isnotnull()).show()
J'obtiens l'erreur comme
File "D: File "D:\0\NameValidation.py", line 13, in <module>
join_Df1= filter(Name.FirstName.isnotnull()).show()
\NameValidation.py", line 13, in <module>
join_Df1= filter(Name.FirstName.isnotnull()).show()
TypeError: 'Colonne' objet n'est pas appelable
Quelqu'un peut-il m'aider à résoudre
- Découvrez la réponse stackoverflow.com/questions/37262762/...
- Double Possible de Filtre Pyspark dataframe de la colonne avec la valeur None
Vous devez vous connecter pour publier un commentaire.
Il ressemble à votre DataFrame Prénom ont une valeur vide à la place
Null
. Ci-dessous sont quelques options à essayer:-Que vous devriez faire comme ci-dessous
Espérons que cette aide!
Je pense que ce que vous pourriez avoir est ce
notnull()
.Alors c'est votre entrée dans le fichier csv
my_test.csv
:Le code:
de sortie:
C'est ce que vous voulez!
df[df['FirstName'].notnull()]
sortie de
df['FirstName'].notnull()
:Cela crée un dataframe
df
oùdf['FirstName'].notnull()
retourneTrue
Comment c'est-elle vérifiée?
df['FirstName'].notnull()
Si la valeur deFirstName
colonne est notnull retourTrue
d'autre siNaN
est présent de retourFalse
.