Comment Effectuer groupBy dans PySpark?

auto = sc.textFile("temp/auto_data.csv")
auto = auto.map(lambda x: x.split(","))
header = auto.first()
autoData = auto.filter(lambda a: a!=header)

maintenant j'ai des données dans autoData

[[u'', u'ETZ', u'AS1', u'CUT000021', u'THE TU-WHEEL SPARES', u'DIBRUGARH', u'201505', u'LCK   ', u'2WH   ', u'KIT', u'KT-2069CZ', u'18', u'8484'], [u'', u'ETZ', u'AS1', u'CUT000021', u'THE TU-WHEEL SPARES', u'DIBRUGARH', u'201505', u'LCK   ', u'2WH   ', u'KIT', u'KT-2069SZ', u'9', u'5211']]

maintenant, je veux effectuer groupBy() sur les 2ème et 12ème(la dernière) de valeurs. Comment faire cela?

OriginalL'auteur Ashutosh Sonaliya | 2015-08-04

2

groupBy prend comme argument une fonction qui génère des clés de sorte que vous pouvez faire quelque chose comme ceci:
```
autoData.groupBy(lambda row: (row[2], row[12]))
```
Modifier:

Concernant la tâche vous avez décrit dans les commentaires. groupBy seulement recueille des données dans des groupes, mais il n'a pas d'agrégation.
```
from operator import add

def int_or_zero(s):
    try:
        return int(s)
    except ValueError:
        return 0

autoData.map(lambda row: (row[2], int_or_zero(row[12]))).reduceByKey(add)
```
Très inefficace version à l'aide de groupBy pourrait ressembler à ceci:
```
(autoData.map(lambda row: (row[2], int_or_zero(row[12])))
     .groupByKey()
     .mapValues(sum))
```
si j'ai utilisé autoData.groupBy(lambda ligne: (ligne[2], int(ligne[12]))) maintenant la deuxième valeur est de type int ,mais il me donner le même résultat que la précédente . je veux somme de la dernière colonne selon la seconde à l'aide de groupBy(). je suis déjà à archiver ce résultat à l'aide de map-reduce. mais je veux utiliser cette fonction.

OriginalL'auteur zero323

Vous devez vous connecter pour publier un commentaire.