PySpark - Convertir un RDD en valeur de la clé de la paire de RDD, avec les valeurs dans une Liste
J'ai un EDR avec les tuples de la forme:
[("a1","b1","c1","d1","e1"), ("a2","b2","c2","d2","e2"), ...
Ce que je veux, c'est de les transformer en une paire clé-valeur RDD, où le premier champ est la première chaîne (clé) et le deuxième champ d'une liste de chaînes de caractères (valeur), c'est à dire je veux me tourner vers le formulaire:
[("a1",["b1","c1","d1","e1"]), ("a2",["b2","c2","d2","e2"]), ...
OriginalL'auteur nikos | 2015-10-16
Vous devez vous connecter pour publier un commentaire.
Explication de
lambda x: (x[0], list(x[1:]))
:x[0]
fera le premier élément à être le premier élément de lasortie
x[1:]
fera tous les éléments sauf le premierdans le deuxième élément
list(x[1:])
force que d'être une listeparce que la valeur par défaut sera un tuple
OriginalL'auteur B.Mr.W.