Comment puis-je ajouter un persistante de la colonne d'id de ligne à Étincelle DataFrame?

Cette question n'est pas nouvelle, mais je viens de trouver du comportement surprenant dans Spark. J'ai besoin d'ajouter une colonne d'Id de ligne à un DataFrame. J'ai utilisé le DataFrame méthode monotonically_increasing_id() et Il me donne un supplément de col de uniques Id de ligne (qui ne sont PAS consécutives, par la manière, mais unique).

Le problème, je vais avoir, c'est que lorsque je filtre le DataFrame l'Id de ligne dans le DataFrame sont ré-attribués. Les deux DataFrames sont présentés ci-dessous.

la première est l'initiale DataFrame avec Id de ligne ajouté comme suit:
```
df.withColumn("rowId", monotonically_increasing_id()) 
```
la deuxième DataFrame est celui obtenu après filtrage sur le col P via df.filter(col("P")).

Le problème est illustré par le rowId pour custId 169, qui était de 5 dans la première DataFrame, mais après filtrage rowId (5), a été attribué à custmId 773 quand custId 169 a été filtré! Je ne sais pas pourquoi c'est le comportement par défaut.

Je voudrais que la rowIds être "collante"; si je supprimer des lignes de la DataFrame je ne veux pas leur Id "ré-utilisé", je veux allé trop avec leurs lignes. Est-il possible de faire cela? Je ne vois pas de drapeaux à la demande de ce comportement de monotonically_increasing_id méthode.

+---------+--------------------+-------+
| custId  |    features|    P  |rowId|
+---------+--------------------+-------+
|806      |[50,5074,...|   true|    0|
|832      |[45,120,1...|   true|    1|
|216      |[6691,272...|   true|    2|
|926      |[120,1788...|   true|    3|
|875      |[54,120,1...|   true|    4|
|169      |[19406,21...|  false|    5|

after filtering on P:
+---------+--------------------+-------+
|   custId|    features|    P  |rowId|
+---------+--------------------+-------+
|      806|[50,5074,...|   true|    0|
|      832|[45,120,1...|   true|    1|
|      216|[6691,272...|   true|    2|
|      926|[120,1788...|   true|    3|
|      875|[54,120,1...|   true|    4|
|      773|[3136,317...|   true|    5|

Pourriez-vous partager votre code complet pour générer les deux exemples de DataFrames? Pour ce que ça vaut, c'est probablement dû à la requête SQL d'optimisation qui prend lieu dans lequel "indépendant" la carte des étapes peut être modifié.
Hamel, il n'y a vraiment pas d'autres transformations ou de l'action que j'ai posté. Les trames de données indiquées sont le résultat de df.show(). Vous pouvez très facilement recréer ce problème, créez un bloc de données et ajouter un numéro de rangée de colonnes comme ci-dessus, puis ajouter un booléen aléatoire colonne à elle. Puis on le filtre sur la colonne et de voir comment l'Id de ligne, vous obtenez de plus en plus monotone sont "re-utilisé" comme je l'ai décrit.
En fait, je peux ajouter que la façon la plus simple de le reproduire est de n'utiliser qu'une seule partition.
Question sur l'Étincelle tracker pour ceci: SPARK-14241
Merci Nick pour la prise de cette place.
Ce problème est d'obtenir fixe Spark 2.1.0. Voir SPARK-14393 et le lien de la Srp.
Nice. Merci pour la mise à jour du thread.

InformationsquelleAutor Kai | 2016-02-29

13

Spark 2.0
- Ce problème a été résolu dans Spark 2.0 avec SPARK-14241.
- Une autre question similaire a été résolu dans Spark 2.1 avec SPARK-14393
Étincelle 1.x

Problème que vous rencontrez est assez subtil, mais peut être réduite à un simple fait monotonically_increasing_id est extrêmement laide de la fonction. Il n'est clairement pas pur, et sa valeur dépend de quelque chose qui est complètement hors de votre contrôle.

Il ne prend pas tous les paramètres afin de un optimiseur de point de vue, il n'a pas d'importance quand il est appelé, et peut être poussé après tous les autres opérations. D'où le comportement que vous voyez.

Si vous prenez regarder le code que vous trouverez ce qui est explicitement marquée par l'extension de MonotonicallyIncreasingID expression avec Nondeterministic.

Je ne pense pas qu'il existe une solution élégante mais d'une façon que vous pouvez gérer cela est d'ajouter une dépendance artificielle sur la valeur filtrée. Par exemple avec un UDF comme ceci:

from pyspark.sql.types import LongType from pyspark.sql.functions import udf bound = udf(lambda _, v: v, LongType()) (df .withColumn("rn", monotonically_increasing_id()) # Due to nondeterministic behavior it has to be a separate step .withColumn("rn", bound("P", "rn")) .where("P"))

En général, il pourrait être plus propre pour ajouter des indices à l'aide de zipWithIndex sur un RDD puis convertir un DataFrame.

* Solution de contournement ci-dessus n'est plus une solution valable (ni) dans Spark 2.x où Python Udf sont l'objet de l'exécution du plan d'optimisations.

InformationsquelleAutor zero323

Je n'arrivais pas à reproduire cela. Je suis l'aide de Spark 2.0 mais peut-être que le comportement a changé, ou je ne fais pas la même chose que vous.

val df = Seq(("one", 1,true),("two", 2,false),("three", 3,true),("four", 4,true))
.toDF("name", "value","flag")
.withColumn("rowd", monotonically_increasing_id())

df.show

val df2 = df.filter(col("flag")=== true)

df2.show

df: org.apache.spark.sql.DataFrame = [name: string, value: int ... 2 more fields]
+-----+-----+-----+----+
| name|value| flag|rowd|
+-----+-----+-----+----+
|  one|    1| true|   0|
|  two|    2|false|   1|
|three|    3| true|   2|
| four|    4| true|   3|
+-----+-----+-----+----+
df2: org.apache.spark.sql.Dataset[org.apache.spark.sql.Row] = [name: string, value: int ... 2 more fields]
+-----+-----+----+----+
| name|value|flag|rowd|
+-----+-----+----+----+
|  one|    1|true|   0|
|three|    3|true|   2|
| four|    4|true|   3|
+-----+-----+----+----+

Je ne trouve pas de problème non plus avec le code ci-dessus
quel est l'équivalent de monotonically_increasing_id() en java
org.apache.spark.sql.les fonctions du package est disponible dans l'API Java spark.apache.org/docs/latest/api/java/org/apache/spark/sql/...

InformationsquelleAutor Davos

3

J'ai été récemment travaillé sur un problème similaire. Bien que monotonically_increasing_id() est très rapide, il n'est pas fiable et ne va pas vous donner consécutive, les numéros de ligne, seulement une augmentation unique des entiers.

La création d'une partition windows et ensuite à l'aide de row_number().over(some_windows_partition) est très coûteux en temps.

La meilleure solution pour l'instant est à l'aide de zippée avec l'index, puis convertir le fichier zippé en arrière à l'original dataframe, avec le nouveau schéma, y compris l'indice de colonne.

Essayez ceci:
```
from pyspark.sql import Row
from pyspark.sql.types import StructType, StructField, LongType

new_schema = StructType(**original_dataframe**.schema.fields[:] + [StructField("index", LongType(), False)])
zipped_rdd = **original_dataframe**.rdd.zipWithIndex()
indexed = (zipped_rdd.map(lambda ri: row_with_index(*list(ri[0]) + [ri[1]])).toDF(new_schema))
```
Où original_dataframe est le dataframe vous devez ajouter un index sur et row_with_index est le nouveau schéma avec l'index de colonne que vous pouvez écrire comme
```
row_with_index = Row(
"calendar_date"
,"year_week_number"
,"year_period_number"
,"realization"
,"index"
)
```
Ici, calendar_date, year_week_number, year_period_number, et realization ont été les colonnes de mon origine dataframe. Vous pouvez remplacer les noms avec les noms de vos colonnes. L'indice est le nouveau nom de la colonne que vous deviez ajouter pour les numéros de ligne.

De ce processus est largement plus efficace et plus facile en comparaison avec row_number().over(some_windows_partition) méthode.

Espère que cette aide.

InformationsquelleAutor Shantanu Sharma
1

Pour contourner le déplacement de l'évaluation de monotonically_increasing_id(), vous pourriez essayer d'écrire le dataframe sur le disque, et la re-lecture. Puis la colonne id est maintenant tout simplement un champ de données qui est en cours de lecture, plutôt que calculée dynamiquement à un certain point dans le pipeline. Même si c'est assez laid solution, il a travaillé quand j'ai fait un test rapide.

InformationsquelleAutor Chris T
1

Cela a fonctionné pour moi. Créé une autre colonne d'identité et utilisé la fenêtre de la fonction row_number
```
import org.apache.spark.sql.functions.{row_number}
import org.apache.spark.sql.expressions.Window

val df1: DataFrame = df.withColumn("Id",lit(1))

df1
.select(
...,
row_number()
.over(Window
.partitionBy("Id"
.orderBy(col("...").desc))
)
.alias("Row_Nbr")
)
```
- Ce serait le travail, mais obligerait les données en 1 partition retrait de la distribution et, éventuellement, conduire à la mémoire des exceptions sur de grands ensembles de données
InformationsquelleAutor Sampad Desai
0

Afin d'obtenir de meilleures performances wrt Chris T solution, vous pouvez essayer d'écrire à un apache enflammer partagé bloc de données au lieu d'écrire sur le disque.
https://ignite.apache.org/use-cases/spark/shared-memory-layer.html

InformationsquelleAutor Julien Laurenceau

Vous devez vous connecter pour publier un commentaire.