La transposition de la colonne à la ligne avec Spark

Je suis en train de transposer certaines colonnes de mon tableau à la ligne.
Je suis à l'aide de Python et de la bougie 1.5.0. Voici mon premier tableau:

+-----+-----+-----+-------+
|  A  |col_1|col_2|col_...|
+-----+-------------------+
|  1  |  0.0|  0.6|  ...  |
|  2  |  0.6|  0.7|  ...  |
|  3  |  0.5|  0.9|  ...  |
|  ...|  ...|  ...|  ...  |

Je voudrais avoir quelque chose comme ceci:

+-----+--------+-----------+
|  A  | col_id | col_value |
+-----+--------+-----------+
|  1  |   col_1|        0.0|
|  1  |   col_2|        0.6|   
|  ...|     ...|        ...|    
|  2  |   col_1|        0.6|
|  2  |   col_2|        0.7| 
|  ...|     ...|        ...|  
|  3  |   col_1|        0.5|
|  3  |   col_2|        0.9|
|  ...|     ...|        ...|

Ce que quelqu'un sait comment je peux faire? Je vous remercie pour votre aide.

Voir aussi unpivot spark-sql/pyspark et Comment faire fondre Étincelle DataFrame?

OriginalL'auteur Raouf | 2016-06-16

Il est relativement simple de le faire avec base Spark SQL fonctions.

Python

from pyspark.sql.functions import array, col, explode, struct, lit

df = sc.parallelize([(1, 0.0, 0.6), (1, 0.6, 0.7)]).toDF(["A", "col_1", "col_2"])

def to_long(df, by):

    # Filter dtypes and split into column names and type description
    cols, dtypes = zip(*((c, t) for (c, t) in df.dtypes if c not in by))
    # Spark SQL supports only homogeneous columns
    assert len(set(dtypes)) == 1, "All columns have to be of the same type"

    # Create and explode an array of (column_name, column_value) structs
    kvs = explode(array([
      struct(lit(c).alias("key"), col(c).alias("val")) for c in cols
    ])).alias("kvs")

    return df.select(by + [kvs]).select(by + ["kvs.key", "kvs.val"])

to_long(df, ["A"])

Scala:

import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.functions.{array, col, explode, lit, struct}

val df = Seq((1, 0.0, 0.6), (1, 0.6, 0.7)).toDF("A", "col_1", "col_2")

def toLong(df: DataFrame, by: Seq[String]): DataFrame = {
  val (cols, types) = df.dtypes.filter{ case (c, _) => !by.contains(c)}.unzip
  require(types.distinct.size == 1, s"${types.distinct.toString}.length != 1")      

  val kvs = explode(array(
    cols.map(c => struct(lit(c).alias("key"), col(c).alias("val"))): _*
  ))

  val byExprs = by.map(col(_))

  df
    .select(byExprs :+ kvs.alias("_kvs"): _*)
    .select(byExprs ++ Seq($"_kvs.key", $"_kvs.val"): _*)
}

toLong(df, Seq("A"))

Je ne pense pas que c'est "relativement" simple 🙂
je reçois le message d'erreur AssertionError: All columns have to be of the same type

OriginalL'auteur zero323

3

L'Étincelle local de l'algèbre linéaire, les bibliothèques sont actuellement très faible et ils ne comprennent pas les opérations de base comme ci-dessus.

Il y a un JIRA pour la fixation de cette pour Spark 2.1 - mais ce ne sera pas vous aider à aujourd'hui.

Quelque chose à considérer: l'exécution d'une transposition nécessitera probablement complètement brouiller les données.

De maintenant, vous aurez besoin d'écrire RDD code directement. J'ai écrit transpose en scala - mais pas en python. Voici la scala version:
```
 def transpose(mat: DMatrix) = {
    val nCols = mat(0).length
    val matT = mat
      .flatten
      .zipWithIndex
      .groupBy {
      _._2 % nCols
    }
      .toSeq.sortBy {
      _._1
    }
      .map(_._2)
      .map(_.map(_._1))
      .toArray
    matT
  }
```
De sorte que vous pouvez convertir en python pour votre utilisation. Je n'ai pas de bande passante d'écrire/de test à ce moment-là: laissez-moi savoir si vous avez été incapable de faire la conversion.

Au moins les éléments suivants sont facilement convertis à python.
- zipWithIndex --> enumerate() (python équivalent - crédit @zero323)
- map --> [someOperation(x) for x in ..]
- groupBy --> itertools.groupBy()
Ici est la mise en œuvre de flatten qui n'ont pas d'équivalent python:
```
  def flatten(L):
        for item in L:
            try:
                for i in flatten(item):
                    yield i
            except TypeError:
                yield item
```
De sorte que vous devriez être capable de mettre ensemble pour trouver une solution.

Je vous remercie pour votre réponse. Je ne sais pas scala, mais je vais essayer de comprendre ton code. Je vous tiendrai informé.
Le code ci-dessus a tous les équivalents en python. Si vous connaissez python eh bien, il ne devrait pas être un problème. J'ai montré la flatten qui est le seul manquant à partir de python. Laissez-moi savoir 😉
zipWithIndex --> enumerate() (Python équivalent)?
De bons yeux! Je vais upvote votre v belle réponse btw.
Merci. Il est un peu plus détaillé, mais ne déplace pas données.

OriginalL'auteur javadba

Utilisation flatmap. Quelque chose comme ci-dessous devrait fonctionner

from pyspark.sql import Row

def rowExpander(row):
    rowDict = row.asDict()
    valA = rowDict.pop('A')
    for k in rowDict:
        yield Row(**{'A': valA , 'colID': k, 'colValue': row[k]})

newDf = sqlContext.createDataFrame(df.rdd.flatMap(rowExpander))

Je vous remercie pour votre réponse. Mais il ne fonctionne pas. Voici le message d'erreur que j'obtiens: TypeError: tuple indices doivent être des entiers, pas de str

OriginalL'auteur David

J'ai pris la Scala réponse @javadba a écrit et créé une version de Python pour la transposition de toutes les colonnes dans une DataFrame. Cela pourrait être un peu différent de ce que l'OP a demander...

from itertools import chain
from pyspark.sql import DataFrame


def _sort_transpose_tuple(tup):
    x, y = tup
    return x, tuple(zip(*sorted(y, key=lambda v_k: v_k[1], reverse=False)))[0]


def transpose(X):
    """Transpose a PySpark DataFrame.

    Parameters
    ----------
    X : PySpark ``DataFrame``
        The ``DataFrame`` that should be tranposed.
    """
    # validate
    if not isinstance(X, DataFrame):
        raise TypeError('X should be a DataFrame, not a %s' 
                        % type(X))

    cols = X.columns
    n_features = len(cols)

    # Sorry for this unreadability...
    return X.rdd.flatMap( # make into an RDD
        lambda xs: chain(xs)).zipWithIndex().groupBy( # zip index
        lambda val_idx: val_idx[1] % n_features).sortBy( # group by index % n_features as key
        lambda grp_res: grp_res[0]).map( # sort by index % n_features key
        lambda grp_res: _sort_transpose_tuple(grp_res)).map( # maintain order
        lambda key_col: key_col[1]).toDF() # return to DF

Par exemple:

>>> X = sc.parallelize([(1,2,3), (4,5,6), (7,8,9)]).toDF()
>>> X.show()
+---+---+---+
| _1| _2| _3|
+---+---+---+
|  1|  2|  3|
|  4|  5|  6|
|  7|  8|  9|
+---+---+---+

>>> transpose(X).show()
+---+---+---+
| _1| _2| _3|
+---+---+---+
|  1|  4|  7|
|  2|  5|  8|
|  3|  6|  9|
+---+---+---+

OriginalL'auteur Tgsmith61591

Une manière très pratique à mettre en œuvre:

from pyspark.sql import Row

def rowExpander(row):
    rowDict = row.asDict()
    valA = rowDict.pop('A')
    for k in rowDict:
        yield Row(**{'A': valA , 'colID' : k, 'colValue' : row[k]})

    newDf = sqlContext.createDataFrame(df.rdd.flatMap(rowExpander)

OriginalL'auteur Parul Singh

Une façon de résoudre avec pyspark sql à l'aide de fonctions create_map et explode.

from pyspark.sql import functions as func
#Use `create_map` to create the map of columns with constant 
df = df.withColumn('mapCol', \
                    func.create_map(func.lit('col_1'),df.col_1,
                                    func.lit('col_2'),df.col_2,
                                    func.lit('col_3'),df.col_3
                                   ) 
                  )
#Use explode function to explode the map 
res = df.select('*',func.explode(df.mapCol).alias('col_id','col_value'))
res.show()

OriginalL'auteur Vamsi Prabhala

Vous devez vous connecter pour publier un commentaire.