Comment ajouter des colonnes dans org.apache.spark.sql.Ligne à l'intérieur de mapPartitions

Je suis un newbie à la scala et de la bougie, veuillez garder cela à l'esprit 🙂

En fait, j'ai trois questions

  1. Comment dois-je définir la fonction de la passer dans df.rdd.mapPartitions, si je veux créer une nouvelle Ligne, avec quelques colonnes supplémentaires
  2. Comment puis-je ajouter quelques colonnes dans la Ligne d'objet(ou en créer un nouveau)
  3. Comment créer DataFrame de créé RDD

Vous remercie à l'avance

Puis-je vous demander pourquoi vous en avez besoin? Peut-être un exemple de code / d'entrée / sortie. Il est possible, mais généralement, il y a de meilleurs moyens.
Bien sûr j'ai deux différents ensembles d'éléments, l'un est énorme(en forme de dataframe) et un autre est assez petite, et j'ai trouver quelques min de valeur entre ces deux ensembles. Mon idée, c'est que j'ai un peu de jeu dans certaines tout à fait optimale de la structure, de la passer dans mapPartitions, calculer des valeurs pour chaque élément et de les mettre "à proximité" à d'autres valeurs.
Il ne devrait pas être nécessaire pour mapPartitions .

OriginalL'auteur Azat Fazulzyanov | 2015-11-23