L'exécution de la somme sur un rdd tableau int
Est-il intégré dans la transformation d'avoir la somme sur les Ints de suite ca
org.apache.spark.rdd.RDD[(String, (Int, Int))]
chaîne est la clé et Int tableau de la Valeur, ce dont j'ai besoin c'est d'avoir la somme de tous les Entiers comme RDD[(String, Int)]
. J'ai essayé groupByKey sans succès...
Aussi - Le résultat doit être encore un rdd.
Merci d'avance
OriginalL'auteur Adam Right | 2015-04-08
Vous devez vous connecter pour publier un commentaire.
Si l'objectif est de faire la somme des éléments de valeur (Int, Int), puis une carte de transformation peut l'atteindre:
Plutôt si le type de valeur est un Tableau, Tableau.cette somme peut être utilisée.
Edit:
map
transformation ne pas garder l'original de partitionnement, comme @Justin suggérémapValues
peut être plus approprié ici:mapValues
de garder le hachage de la partition qui sera très probablement être mis en placeest-il un moyen de le faire en Java?
Note supplémentaire ) requis
OriginalL'auteur Shyamendra Solanki
Voici quelques façons d'pyspark.
Ou
Ou
Ou
OriginalL'auteur Shiva