Aplatir automatiquement et élégamment DataFrame dans Spark SQL

Tous,

Est-il un élégant et accepté pour aplatir une Étincelle table SQL (Parquet) avec des colonnes qui sont emboîtés StructType

Par exemple

Si mon schéma est:

foo
 |_bar
 |_baz
x
y
z

Comment sélectionnez-le dans un aplatie forme de tableaux, sans recourir à l'exécution manuelle

df.select("foo.bar","foo.baz","x","y","z")

En d'autres termes, comment puis-je obtenir le résultat le code ci-dessus par programme, dans une StructType et un DataFrame

source d'informationauteur echen

38

La réponse est courte, il n'y a pas "accepté" la façon de le faire, mais vous pouvez le faire très élégante avec une fonction récursive qui génère de votre select(...) déclaration de la marche à travers les DataFrame.schema.

La fonction récursive doit retourner un Array[Column]. Chaque fois que la fonction atteint un StructTypeil appelle lui-même et ajouter le retour de l' Array[Column] à ses propres Array[Column].

Quelque chose comme:
```
def flattenSchema(schema: StructType, prefix: String = null) : Array[Column] = {
  schema.fields.flatMap(f => {
    val colName = if (prefix == null) f.name else (prefix + "." + f.name)

    f.dataType match {
      case st: StructType => flattenSchema(st, colName)
      case _ => Array(col(colName))
    }
  })
}
```
Vous pouvez alors l'utiliser comme ceci:
```
df.select(flattenSchema(df.schema):_*)
```
16

Que j'améliore ma réponse précédente et en offrant une solution à mon problème indiqué dans les commentaires de la accepté de répondre.

Accepté cette solution crée un tableau de la Colonne des objets et l'utilise pour sélectionner ces colonnes. Dans Spark, si vous avez un imbriquée DataFrame, vous pouvez sélectionner l'enfant de la colonne comme ceci: df.select("Parent.Child") et cela renvoie d'un DataFrame avec les valeurs de l'enfant de la colonne et est nommé Enfant. Mais si vous avez des noms identiques pour les attributs de parents différents structures, vous perdez l'info sur le parent et peuvent se retrouver avec les mêmes noms de colonnes et ne peut pas y accéder par le nom de plus comme ils sont sans équivoque.

C'était mon problème.

J'ai trouvé une solution à mon problème, peut-être que ça peut aider quelqu'un d'autre. J'ai appelé le flattenSchema séparément:
```
val flattenedSchema = flattenSchema(df.schema)
```
et cette retourné un Tableau de la Colonne objets. Au lieu d'utiliser ce dans le select()qui permettrait le retour d'un DataFrame avec des colonnes nommées par l'enfant de la dernier niveau, je l'ai associé l'origine des noms de colonne à eux-mêmes comme des chaînes, puis, après la sélection Parent.Child colonne, il la renomme Parent.Child au lieu de Child (j'ai aussi remplacé les points avec des traits de soulignement pour ma convenance):
```
val renamedCols = flattenedSchema.map(name => col(name.toString()).as(name.toString().replace(".","_")))
```
Et puis vous pouvez utiliser la fonction de sélection, comme indiqué dans la réponse originale à cette question:
```
var newDf = df.select(renamedCols:_*)
```

Voulais juste partager ma solution pour Pyspark - c'est plus ou moins une traduction de @David Griffin solution, donc il prend en charge n'importe quel niveau d'objets imbriqués.

from pyspark.sql.types import StructType, ArrayType  

def flatten(schema, prefix=None):
    fields = []
    for field in schema.fields:
        name = prefix + '.' + field.name if prefix else field.name
        dtype = field.dataType
        if isinstance(dtype, ArrayType):
            dtype = dtype.elementType

        if isinstance(dtype, StructType):
            fields += flatten(dtype, prefix=name)
        else:
            fields.append(name)

    return fields


df.select(flattenSchema(df.schema)).show()

1

Vous pouvez également utiliser SQL pour sélectionner les colonnes que la télévision.
1. Obtenir des données d'origine-cadre du schéma
2. Générer de la chaîne SQL, en naviguant sur le schéma
3. Requête vos données d'origine-cadre
J'ai fait une implémentation en Java: https://gist.github.com/ebuildy/3de0e2855498e5358e4eed1a4f72ea48

(utiliser la méthode récursive ainsi, je préfère SQL façon, de sorte que vous pouvez tester facilement via Spark-shell).
0

J'ai été en utilisant l'un des paquebots qui entraîne une stagnation de schéma avec 5 colonnes de bar, baz, x, y, z:
```
df.select("foo.*", "x", "y", "z")
```
Comme pour explode: en général, je réserve explode pour l'aplatissement d'une liste. Par exemple, si vous avez une colonne idList qui est une liste de Chaînes, vous pouvez faire:
```
df.withColumn("flattenedId", functions.explode(col("idList")))
  .drop("idList")
```
Qui aboutira à une nouvelle Dataframe avec une colonne nommée flattenedId (qui n'est plus une liste)

Voici une fonction qui est en train de faire ce que vous voulez et qui peut faire face à de multiples imbriquées les colonnes contenant les colonnes du même nom, avec un préfixe:

from pyspark.sql import functions as F

def flatten_df(nested_df):
    flat_cols = [c[0] for c in nested_df.dtypes if c[1][:6] != 'struct']
    nested_cols = [c[0] for c in nested_df.dtypes if c[1][:6] == 'struct']

    flat_df = nested_df.select(flat_cols +
                               [F.col(nc+'.'+c).alias(nc+'_'+c)
                                for nc in nested_cols
                                for c in nested_df.select(nc+'.*').columns])
    return flat_df

Avant:

root
 |-- x: string (nullable = true)
 |-- y: string (nullable = true)
 |-- foo: struct (nullable = true)
 |    |-- a: float (nullable = true)
 |    |-- b: float (nullable = true)
 |    |-- c: integer (nullable = true)
 |-- bar: struct (nullable = true)
 |    |-- a: float (nullable = true)
 |    |-- b: float (nullable = true)
 |    |-- c: integer (nullable = true)

Après:

root
 |-- x: string (nullable = true)
 |-- y: string (nullable = true)
 |-- foo_a: float (nullable = true)
 |-- foo_b: float (nullable = true)
 |-- foo_c: integer (nullable = true)
 |-- bar_a: float (nullable = true)
 |-- bar_b: float (nullable = true)
 |-- bar_c: integer (nullable = true)

J'ai ajouté un DataFrame#flattenSchema méthode de l'open source spark-daria projet.

Voici comment vous pouvez utiliser la fonction avec votre code.

import com.github.mrpowers.spark.daria.sql.DataFrameExt._
df.flattenSchema().show()

+-------+-------+---------+----+---+
|foo.bar|foo.baz|        x|   y|  z|
+-------+-------+---------+----+---+
|   this|     is|something|cool| ;)|
+-------+-------+---------+----+---+

Vous pouvez également spécifier le nom de colonne différent des délimiteurs avec le flattenSchema() méthode.

df.flattenSchema(delimiter = "_").show()
+-------+-------+---------+----+---+
|foo_bar|foo_baz|        x|   y|  z|
+-------+-------+---------+----+---+
|   this|     is|something|cool| ;)|
+-------+-------+---------+----+---+

Ce paramètre de délimiteur est étonnamment importante. Si vous aplatissez votre schéma de chargement de la table dans le Redshift, vous ne serez pas en mesure d'utiliser des périodes comme délimiteur.

Voici le code complet extrait de code pour générer cette sortie.

val data = Seq(
  Row(Row("this", "is"), "something", "cool", ";)")
)

val schema = StructType(
  Seq(
    StructField(
      "foo",
      StructType(
        Seq(
          StructField("bar", StringType, true),
          StructField("baz", StringType, true)
        )
      ),
      true
    ),
    StructField("x", StringType, true),
    StructField("y", StringType, true),
    StructField("z", StringType, true)
  )
)

val df = spark.createDataFrame(
  spark.sparkContext.parallelize(data),
  StructType(schema)
)

df.flattenSchema().show()

Le code sous-jacent est similaire à David Griffin code (dans le cas où vous ne voulez pas ajouter de l'étincelle-daria dépendance à votre projet).

object StructTypeHelpers {

  def flattenSchema(schema: StructType, delimiter: String = ".", prefix: String = null): Array[Column] = {
    schema.fields.flatMap(structField => {
      val codeColName = if (prefix == null) structField.name else prefix + "." + structField.name
      val colName = if (prefix == null) structField.name else prefix + delimiter + structField.name

      structField.dataType match {
        case st: StructType => flattenSchema(schema = st, delimiter = delimiter, prefix = colName)
        case _ => Array(col(codeColName).alias(colName))
      }
    })
  }

}

object DataFrameExt {

  implicit class DataFrameMethods(df: DataFrame) {

    def flattenSchema(delimiter: String = ".", prefix: String = null): DataFrame = {
      df.select(
        StructTypeHelpers.flattenSchema(df.schema, delimiter, prefix): _*
      )
    }

  }

}

Vous devez vous connecter pour publier un commentaire.