Pyspark la Suppression des valeurs nulles à partir d'une colonne dans dataframe

Mon Dataframe ressemble à ci-dessous

ID,FirstName,LastName

1,Navee,Srikanth

2,,Srikanth 

3,Naveen,

Maintenant Mon Problème est que je dois supprimer le numéro de ligne 2 depuis le Premier Nom est null.

Je suis aide-dessous pyspark script

join_Df1= Name.filter(Name.col(FirstName).isnotnull()).show()

J'obtiens l'erreur comme

  File "D:  File "D:\0\NameValidation.py", line 13, in <module>
join_Df1= filter(Name.FirstName.isnotnull()).show()
\NameValidation.py", line 13, in <module>
join_Df1= filter(Name.FirstName.isnotnull()).show()

TypeError: 'Colonne' objet n'est pas appelable

Quelqu'un peut-il m'aider à résoudre

Découvrez la réponse stackoverflow.com/questions/37262762/...
Double Possible de Filtre Pyspark dataframe de la colonne avec la valeur None

InformationsquelleAutor Naveen Srikanth | 2017-06-23

Il ressemble à votre DataFrame Prénom ont une valeur vide à la place Null. Ci-dessous sont quelques options à essayer:-

df = sqlContext.createDataFrame([[1,'Navee','Srikanth'], [2,'','Srikanth'] , [3,'Naveen','']], ['ID','FirstName','LastName'])
df.show()
+---+---------+--------+
| ID|FirstName|LastName|
+---+---------+--------+
|  1|    Navee|Srikanth|
|  2|         |Srikanth|
|  3|   Naveen|        |
+---+---------+--------+
df.where(df.FirstName.isNotNull()).show() #This doen't remove null because df have empty value
+---+---------+--------+
| ID|FirstName|LastName|
+---+---------+--------+
|  1|    Navee|Srikanth|
|  2|         |Srikanth|
|  3|   Naveen|        |
+---+---------+--------+
df.where(df.FirstName != '').show()
+---+---------+--------+
| ID|FirstName|LastName|
+---+---------+--------+
|  1|    Navee|Srikanth|
|  3|   Naveen|        |
+---+---------+--------+
df.filter(df.FirstName != '').show()
+---+---------+--------+
| ID|FirstName|LastName|
+---+---------+--------+
|  1|    Navee|Srikanth|
|  3|   Naveen|        |
+---+---------+--------+
df.where("FirstName != ''").show()
+---+---------+--------+
| ID|FirstName|LastName|
+---+---------+--------+
|  1|    Navee|Srikanth|
|  3|   Naveen|        |
+---+---------+--------+

Parfait Rakesh, Il a travaillé. Bien dit . Merci aton

InformationsquelleAutor Rakesh Kumar

3

Que vous devriez faire comme ci-dessous
```
join_Df1.filter(join_Df1.FirstName.isNotNull()).show
```
Espérons que cette aide!

InformationsquelleAutor Shankar Koirala
0

Je pense que ce que vous pourriez avoir est ce notnull().

Alors c'est votre entrée dans le fichier csv my_test.csv:
```
ID,FirstName,LastName
1,Navee,Srikanth
2,,Srikanth
3,Naveen
```
Le code:
```
import pandas as pd
df = pd.read_csv("my_test.csv")
print(df[df['FirstName'].notnull()])
```
de sortie:
```
  ID FirstName  LastName
0   1     Navee  Srikanth
2   3    Naveen       NaN
```
C'est ce que vous voulez! df[df['FirstName'].notnull()]

sortie de df['FirstName'].notnull():
```
0     True
1    False
2     True
```
Cela crée un dataframe df où df['FirstName'].notnull() retourne True

Comment c'est-elle vérifiée? df['FirstName'].notnull() Si la valeur de FirstName colonne est notnull retour True d'autre si NaN est présent de retour False.

InformationsquelleAutor void

Vous devez vous connecter pour publier un commentaire.