Comment Effectuer groupBy dans PySpark?
auto = sc.textFile("temp/auto_data.csv")
auto = auto.map(lambda x: x.split(","))
header = auto.first()
autoData = auto.filter(lambda a: a!=header)
maintenant j'ai des données dans autoData
[[u'', u'ETZ', u'AS1', u'CUT000021', u'THE TU-WHEEL SPARES', u'DIBRUGARH', u'201505', u'LCK ', u'2WH ', u'KIT', u'KT-2069CZ', u'18', u'8484'], [u'', u'ETZ', u'AS1', u'CUT000021', u'THE TU-WHEEL SPARES', u'DIBRUGARH', u'201505', u'LCK ', u'2WH ', u'KIT', u'KT-2069SZ', u'9', u'5211']]
maintenant, je veux effectuer groupBy()
sur les 2ème et 12ème(la dernière) de valeurs. Comment faire cela?
OriginalL'auteur Ashutosh Sonaliya | 2015-08-04
Vous devez vous connecter pour publier un commentaire.
groupBy
prend comme argument une fonction qui génère des clés de sorte que vous pouvez faire quelque chose comme ceci:Modifier:
Concernant la tâche vous avez décrit dans les commentaires.
groupBy
seulement recueille des données dans des groupes, mais il n'a pas d'agrégation.Très inefficace version à l'aide de
groupBy
pourrait ressembler à ceci:OriginalL'auteur zero323