Spark unionAll plusieurs dataframes

Pour un ensemble de dataframes

val df1 = sc.parallelize(1 to 4).map(i => (i,i*10)).toDF("id","x")
val df2 = sc.parallelize(1 to 4).map(i => (i,i*100)).toDF("id","y")
val df3 = sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")

à l'union de tous, je ne

df1.unionAll(df2).unionAll(df3)

Est-il plus élégant et évolutive, la façon de faire cela pour un certain nombre de dataframes, par exemple à partir de

Seq(df1, df2, df3)

OriginalL'auteur echo | 2016-06-03

27

La solution la plus simple est de reduce avec union (unionAll Spark < 2.0):
```
val dfs = Seq(df1, df2, df3)
dfs.reduce(_ union _)
```
C'est relativement concis et de ne pas déplacer les données de segment de mémoire de stockage ~~mais s'étend de la lignée avec chaque union~~ nécessite un temps non linéaire pour effectuer l'analyse des plans. ce qui peut être un problème si vous essayez de fusionner un grand nombre de DataFrames.

Vous pouvez également convertir à RDDs et l'utilisation SparkContext.union:
```
dfs match {
  case h :: Nil => Some(h)
  case h :: _   => Some(h.sqlContext.createDataFrame(
                     h.sqlContext.sparkContext.union(dfs.map(_.rdd)),
                     h.schema
                   ))
  case Nil  => None
}
```
Il garde ~~de la lignée court~~ analyse des coûts bas, mais sinon, il est moins efficace que la fusion DataFrames directement.

Merci pour toutes ces démarches!
Est-ce aussi simple dans scala ? Quel serait-il ?
Comment serait l'équivalent de ce code dans pySpark?

OriginalL'auteur zero323
3

Pour pyspark vous pouvez effectuer les opérations suivantes:
```
from functools import reduce
from pyspark.sql import DataFrame

dfs = [df1,df2,df3]
df = reduce(DataFrame.unionAll, dfs)
```
Il est également intéressant de noter que l'ordre des colonnes dans la dataframes doit être le même pour que cela fonctionne. Cela peut silencieusement donner des résultats inattendus si vous n'avez pas la bonne colonne commandes!!

Si vous utilisez pyspark 2.3 ou supérieur, vous pouvez utiliser unionByName de sorte que vous n'avez pas à modifier l'ordre des colonnes.

OriginalL'auteur TH22

Vous devez vous connecter pour publier un commentaire.