PySpark DataFrames - façon d'énumérer sans convertir en Pandas?

J'ai un très gros pyspark.sql.dataframe.DataFrame nommé df.
J'ai besoin d'une certaine manière de l'énumération des enregistrements, ainsi, être en mesure d'accéder à l'enregistrement avec certains index. (ou sélectionner un groupe d'enregistrements avec des indices de gamme)

Dans les pandas, j'ai pu faire juste

indexes=[2,3,6,7] 
df[indexes]

Ici, je veux quelque chose de similaire, (et sans les convertir dataframe de pandas)

Le plus proche que je peux obtenir à l'est:

L'énumération de tous les objets dans l'original dataframe par:
```
indexes=np.arange(df.count())
df_indexed=df.withColumn('index', indexes)
```
- À la recherche pour les valeurs que j'ai besoin d'aide, où() fonction.

QUESTIONS:

Pourquoi il ne fonctionne pas et comment le faire fonctionner? Comment ajouter une ligne à un dataframe?

Serait-il travailler plus tard pour faire quelque chose comme:

 indexes=[2,3,6,7] 
 df1.where("index in indexes").collect()

Importe quel plus rapide et la plus simple façon de traiter avec elle?

source d'informationauteur Maria Koroliuk

Cela ne fonctionne pas car:

le deuxième argument pour withColumn devrait être un Column n'est pas une collection. np.array ne marchera pas ici
lorsque vous passez "index in indexes" comme une expression SQL à where indexes est hors de portée et il n'est pas résolu comme un identificateur valide

PySpark >= 1.4.0

~~Vous pouvez ajouter des numéros de ligne à l'aide de fenêtre correspondante de la fonction et de la requête à l'aide de Column.isin méthode ou un formatage de chaîne de requête:~~

from pyspark.sql.functions import col, rowNumber from pyspark.sql.window import Window w = Window.orderBy() indexed = df.withColumn("index", rowNumber().over(w)) # Using DSL indexed.where(col("index").isin(set(indexes))) # Using SQL expression indexed.where("index in ({0})".format(",".join(str(x) for x in indexes)))

On dirait les fonctions de la fenêtre appelée sans PARTITION BY clause de déplacer toutes les données de la partition unique, ce qui est en haut est peut-être pas la meilleure solution, après tout.

Importe quel plus rapide et la plus simple façon de traiter avec elle?

Pas vraiment. Spark DataFrames ne prennent pas en charge aléatoire de l'accès aux lignes.

PairedRDD peut être consulté à l'aide de lookup méthode qui est relativement rapide si les données sont partitionnées en utilisant HashPartitioner. Il est également indexées ca projet qui contribue à l'efficacité des recherches.

Modifier:

Indépendant de PySpark version, vous pouvez essayer quelque chose comme cela:

from pyspark.sql import Row
from pyspark.sql.types import StructType, StructField, LongType

row = Row("char")
row_with_index = Row("char", "index")

df = sc.parallelize(row(chr(x)) for x in range(97, 112)).toDF()
df.show(5)

## +----+
## |char|
## +----+
## |   a|
## |   b|
## |   c|
## |   d|
## |   e|
## +----+
## only showing top 5 rows

# This part is not tested but should work and save some work later
schema  = StructType(
    df.schema.fields[:] + [StructField("index", LongType(), False)])

indexed = (df.rdd # Extract rdd
    .zipWithIndex() # Add index
    .map(lambda ri: row_with_index(*list(ri[0]) + [ri[1]])) # Map to rows
    .toDF(schema)) # It will work without schema but will be more expensive

# inSet in Spark < 1.3
indexed.where(col("index").isin(indexes))

8

Si vous voulez un numéro de série, c'est la garantie de ne pas entrer en collision, mais ne nécessite pas un .over(partitionBy()) ensuite, vous pouvez utiliser monotonicallyIncreasingId().
```
from pyspark.sql.functions import monotonicallyIncreasingId
df.select(monotonicallyIncreasingId().alias("rowId"),"*")
```
Noter cependant que les valeurs ne sont pas particulièrement "propres". Chaque partition est donné une fourchette de valeur et la sortie ne sera pas contigus. E. g. 0, 1, 2, 8589934592, 8589934593, 8589934594.

Cela a été ajouté à Étincelle Avr 28, 2015 ici: https://github.com/apache/spark/commit/d94cd1a733d5715792e6c4eac87f0d5c81aebbe2
1

Vous pouvez certainement ajouter un tableau pour l'indexation, un tableau de votre choix en effet:
En Scala, nous devons d'abord créer une indexation de Tableau:
```
val index_array=(1 to df.count.toInt).toArray

index_array: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
```
Vous pouvez maintenant ajouter cet article à votre DF. Tout d'abord, Pour cela, vous devez ouvrir nos DF et l'obtenir comme un tableau, puis zip avec votre index_array et puis nous convertir le nouveau tableau et RDD. La dernière étape consiste à obtenir que d'un DF:
```
final_df = sc.parallelize((df.collect.map(
    x=>(x(0),x(1))) zip index_array).map(
    x=>(x._1._1.toString,x._1._2.toString,x._2))).
    toDF("column_name")
```
L'indexation serait plus clair après.
0

monotonicallyIncreasingId() - ce qui va affecter les numéros de ligne dans incresing l'ordre, mais non pas dans l'ordre.

exemple de sortie avec 2 colonnes:

|--------------------- | ------------------| | RowNo | Heading 2 | |--------------------- | ------------------| | 1 | xy | |--------------------- | ------------------| | 12 | xz | |--------------------- | ------------------|

Si vous voulez attribuer des numéros de ligne utiliser l'astuce suivante.

Testé spark-2.0.1 et versions supérieures.

df.createOrReplaceTempView("df") dfRowId = spark.sql("select *, row_number() over (partition by 0) as rowNo from df")

exemple de sortie avec 2 colonnes:

|--------------------- | ------------------| | RowNo | Heading 2 | |--------------------- | ------------------| | 1 | xy | |--------------------- | ------------------| | 2 | xz | |--------------------- | ------------------|

Espère que cette aide.

Vous devez vous connecter pour publier un commentaire.