Comment ajouter une nouvelle colonne à une Étincelle RDD?
J'ai un RDD avec de NOMBREUX colonnes (par exemple, des centaines), comment puis-je ajouter une colonne à la fin de cette RDD?
Par exemple, si mon CA est comme ci-dessous:
123, 523, 534, ..., 893
536, 98, 1623, ..., 98472
537, 89, 83640, ..., 9265
7297, 98364, 9, ..., 735
......
29, 94, 956, ..., 758
comment puis-je ajouter une colonne, dont la valeur est la somme de la deuxième et la troisième colonnes?
Merci beaucoup.
Notez que dataframes sont immuables. Vous ne pouvez pas modifier, mais vous pouvez en faire une nouvelle à partir d'une ancienne... voir stackoverflow.com/questions/29109916/...
OriginalL'auteur Carter | 2015-04-30
Vous devez vous connecter pour publier un commentaire.
Vous n'avez pas à utiliser
Tuple
* objets à tous pour l'ajout d'une nouvelle colonne à uneRDD
.Il peut être fait par la cartographie de chaque ligne, la prise de son contenu d'origine, plus les éléments que vous souhaitez ajouter, par exemple:
OriginalL'auteur Antot
vous avez RDD de tuple 4, s'appliquent de la carte et de le convertir à tuple5
OriginalL'auteur banjara