Garniture colonne de chaîne dans PySpark dataframe
Je suis débutant en Python et d'Étincelles. Après la création d'un DataFrame
de CSV
fichier, je voudrais savoir comment je peux découper une colonne. J'ai essayer:
df = df.withColumn("Product", df.Product.strip())
df
est mon bloc de données, Product
est une colonne dans ma table
Mais je vois toujours l'erreur:
Column object is not callable
Avez-vous des suggestions?
N'a la solution???
OriginalL'auteur minh-hieu.pham | 2016-02-02
Vous devez vous connecter pour publier un commentaire.
À partir de la version 1.5, Spark SQL fournit deux fonctions spécifiques pour la coupe d'espace blanc,
ltrim
etrtrim
(de la recherche pour "couper" dans le DataFrame de la documentation); vous en aurez besoin pour importerpyspark.sql.functions
premier. Voici un exemple:OriginalL'auteur desertnaut
La pyspark version de la bande de fonction est appelée garniture.
Garniture va "couper dans les espaces à partir des deux extrémités de la chaîne spécifiée dans la colonne".
Assurez-vous d'importer la fonction, et de placer la colonne de rognage à l'intérieur de votre fonction.
La suivante devrait fonctionner:
OriginalL'auteur jdhaen
OriginalL'auteur novice
Je l'ai fait avec l'udf comme ceci:
de sortie ressemble à ceci:
OriginalL'auteur Babu