Spark RDD - Cartographie avec des arguments supplémentaires

Est-il possible de passer des arguments supplémentaires à la fonction de mappage dans pySpark?
Plus précisément, j'ai le code suivant recette:

raw_data_rdd = sc.textFile("data.json", use_unicode=True)
json_data_rdd = raw_data_rdd.map(lambda line: json.loads(line))
mapped_rdd = json_data_rdd.flatMap(processDataLine)

La fonction processDataLine prend des arguments supplémentaires en plus de l'objet JSON, comme:

def processDataLine(dataline, arg1, arg2)

Comment puis-je passer les arguments supplémentaires arg1 et arg2 à la flaMap fonction?

Pensez à lire this
Merci @AvihooMamka. Comme je l'ai compris-je besoin pour utiliser la fonction partielle. Mais je n'ai pas comment l'appliquer à mon cas?
Pourquoi ne pas envoyer à la fonction partielle de la processDataLine fonction et les arguments que vous voulez après sa diffusion?

InformationsquelleAutor Stan | 2015-10-08

39
1. Vous pouvez utiliser une fonction anonyme, soit directement dans un flatMap
```
json_data_rdd.flatMap(lambda j: processDataLine(j, arg1, arg2))
```
  ou de curry processDataLine
```
f = lambda j: processDataLine(dataline, arg1, arg2)
json_data_rdd.flatMap(f)
```
2. Vous pouvez générer processDataLine comme ceci:
```
def processDataLine(arg1, arg2):
    def _processDataLine(dataline):
        return ... # Do something with dataline, arg1, arg2
    return _processDataLine

json_data_rdd.flatMap(processDataLine(arg1, arg2))
```
3. toolz bibliothèque fournit utile curry décorateur:
```
from toolz.functoolz import curry

@curry
def processDataLine(arg1, arg2, dataline): 
    return ... # Do something with dataline, arg1, arg2

json_data_rdd.flatMap(processDataLine(arg1, arg2))
```
  Remarque que j'ai poussé à dataline argument à la dernière position. Il n'est pas nécessaire, mais de cette façon, nous n'avons pas à utiliser le mot clé args.
4. Enfin, il y a functools.partielle déjà mentionné par Avihoo Mamka dans les commentaires.
- performancewise, qui est la meilleure solution?
- Vous pouvez indice de référence présente sur les collections, mais explicite de nidification (2.) devrait être le plus efficace, suivi par l'aide de fonction anonyme (1.) Nourrissage / partiels pourraient être légèrement plus lent, car le mécanisme est beaucoup plus sophistiqué que les deux précédents. Non pas que je voudrais vraiment vous inquiéter à ce sujet ici.
InformationsquelleAutor zero323

Vous devez vous connecter pour publier un commentaire.