Ajouter une somme de colonnes en tant que nouvelle colonne dans la structure de données PySpark

Je suis en utilisant PySpark et j'ai une Étincelle dataframe avec un tas de colonnes numériques. Je veux ajouter une colonne qui est la somme de toutes les autres colonnes.

Suppose que mon dataframe avait les colonnes "a", "b" et "c". Je sais que je peux le faire:

df.withColumn('total_col', df.a + df.b + df.c)

Le problème est que je ne veux pas le type de chaque colonne individuellement et de les ajouter, surtout si j'ai beaucoup de colonnes. Je veux être capable de faire cela automatiquement ou en spécifiant une liste de noms de colonnes que je veux ajouter. Est-il une autre façon de le faire?

source d'informationauteur plam

26

Ce n'était pas évident. Je ne vois pas de ligne de base de la somme des colonnes définies dans l'étincelle Dataframes API.

Version 2

Cela peut être fait d'une manière assez simple:
```
newdf = df.withColumn('total', sum(df[col] for col in df.columns))
```
df.columns est fourni par pyspark comme une liste de chaînes de caractères donnant tous les noms de colonne dans l'Étincelle Dataframe. Pour un montant différent, vous pouvez fournir toute autre liste de noms de colonne de la place.

Je n'ai pas essayer ce que ma première solution parce que je n'étais pas certaine de comment il allait se comporter. Mais il fonctionne.

Version 1

C'est trop compliqué, mais fonctionne aussi bien.

Vous pouvez faire ceci:
1. utilisation df.columns pour obtenir une liste des noms des colonnes
2. utiliser que des noms de la liste pour créer une liste de colonnes
3. transmettre cette liste à quelque chose qui invoque la colonne surchargé ajouter une fonction dans un pliez-type de manière fonctionnelle
Avec python réduireune certaine connaissance de la façon dont la surcharge d'opérateur fonctionne, et la pyspark code pour les colonnes ici qui devient:
```
def column_add(a,b):
     return  a.__add__(b)

newdf = df.withColumn('total_col', 
         reduce(column_add, ( df[col] for col in df.columns ) ))
```
Note c'est un python de réduire, et non une étincelle RDD réduire, et la parenthèse terme dans le second paramètre pour réduire nécessite la parenthèse parce que c'est un générateur de liste d'expression.

Testé, Fonctionne!
```
$ pyspark
>>> df = sc.parallelize([{'a': 1, 'b':2, 'c':3}, {'a':8, 'b':5, 'c':6}, {'a':3, 'b':1, 'c':0}]).toDF().cache()
>>> df
DataFrame[a: bigint, b: bigint, c: bigint]
>>> df.columns
['a', 'b', 'c']
>>> def column_add(a,b):
...     return a.__add__(b)
...
>>> df.withColumn('total', reduce(column_add, ( df[col] for col in df.columns ) )).collect()
[Row(a=1, b=2, c=3, total=6), Row(a=8, b=5, c=6, total=19), Row(a=3, b=1, c=0, total=4)]
```

Mon problème était similaire à celle ci-dessus (peu plus complexe) que j'ai dû ajouter consécutives colonne sommes que de nouvelles colonnes dans PySpark dataframe. Cette approche utilise un code de Paul Version 1 ci-dessus:

import pyspark
from pyspark.sql import SparkSession
import pandas as pd

spark = SparkSession.builder.appName('addColAsCumulativeSUM').getOrCreate()
df=spark.createDataFrame(data=[(1,2,3),(4,5,6),(3,2,1)\
                              ,(6,1,-4),(0,2,-2),(6,4,1)\
                              ,(4,5,2),(5,-3,-5),(6,4,-1)]\
                              ,schema=['x1','x2','x3'])
df.show()

+---+---+---+
| x1| x2| x3|
+---+---+---+
|  1|  2|  3|
|  4|  5|  6|
|  3|  2|  1|
|  6|  1| -4|
|  0|  2| -2|
|  6|  4|  1|
|  4|  5|  2|
|  5| -3| -5|
|  6|  4| -1|
+---+---+---+

colnames=df.columns

ajouter de nouvelles colonnes qui sont des sommes cumulées (consécutifs):

for i in range(0,len(colnames)):
    colnameLst= colnames[0:i+1]
    colname = 'cm'+ str(i+1)
    df = df.withColumn(colname, sum(df[col] for col in colnameLst))

df.show()

+---+---+---+---+---+---+
| x1| x2| x3|cm1|cm2|cm3|
+---+---+---+---+---+---+
|  1|  2|  3|  1|  3|  6|
|  4|  5|  6|  4|  9| 15|
|  3|  2|  1|  3|  5|  6|
|  6|  1| -4|  6|  7|  3|
|  0|  2| -2|  0|  2|  0|
|  6|  4|  1|  6| 10| 11|
|  4|  5|  2|  4|  9| 11|
|  5| -3| -5|  5|  2| -3|
|  6|  4| -1|  6| 10|  9|
+---+---+---+---+---+---+

de "montant cumulatif des" colonnes ajoutées sont comme suit:

cm1 = x1
cm2 = x1 + x2
cm3 = x1 + x2 + x3

Vous devez vous connecter pour publier un commentaire.

Version 2

Version 1