Comment faire pour extraire un élément d'un tableau dans pyspark

J'ai un bloc de données suivant le type de

col1|col2|col3|col4
xxxx|yyyy|zzzz|[1111],[2222]

Je veux ma sortie de type

col1|col2|col3|col4|col5
xxxx|yyyy|zzzz|1111|2222

Mon col4 est un tableau et je voudrais la convertir en une colonne séparée. Ce qui doit être fait?

J'ai vu beaucoup de réponses avec flatmap, mais ils sont de plus d'une ligne, je veux juste le n-uplet d'être mis dans une autre colonne, mais dans la même ligne

Voici mon schéma:

root
 |-- PRIVATE_IP: string (nullable = true)
 |-- PRIVATE_PORT: integer (nullable = true)
 |-- DESTINATION_IP: string (nullable = true)
 |-- DESTINATION_PORT: integer (nullable = true)
 |-- collect_set(TIMESTAMP): array (nullable = true)
 |    |-- element: string (containsNull = true)

Aussi qui peut plaire à quelqu'un de m'aider avec des explications sur les deux dataframes et RDD est

Quel est le schéma de votre bloc de données? Pouvez-vous montrer df.printSchema()?
Salut, j'ai édité la question avec mon schéma
Ne toutes les cellules dans la matrice colonne ont le même nombre d'éléments? Toujours 2? Que faire si une autre ligne ont trois éléments dans le tableau?
Pas de tous les éléments ont exactement 2 éléments. Parce que l'élément de la matrice est une date de début et date de fin.
Aussi c'est mon exigence si vous pouvez m'aider avec elle. stackoverflow.com/questions/45252906/...

InformationsquelleAutor AnmolDave | 2017-07-22

Créer un échantillon de données:

from pyspark.sql import Row
x = [Row(col1="xx", col2="yy", col3="zz", col4=[123,234])]
rdd = sc.parallelize([Row(col1="xx", col2="yy", col3="zz", col4=[123,234])])
df = spark.createDataFrame(rdd)
df.show()
#+----+----+----+----------+
#|col1|col2|col3|      col4|
#+----+----+----+----------+
#|  xx|  yy|  zz|[123, 234]|
#+----+----+----+----------+

Utilisation getItem pour extraire l'élément de la colonne de tableau comme cela, dans votre cas, remplacez col4 avec collect_set(TIMESTAMP):

df = df.withColumn("col5", df["col4"].getItem(1)).withColumn("col4", df["col4"].getItem(0))
df.show()
#+----+----+----+----+----+
#|col1|col2|col3|col4|col5|
#+----+----+----+----+----+
#|  xx|  yy|  zz| 123| 234|
#+----+----+----+----+----+

s'il vous plaît être extrêmement prudent et assurez-vous que vous savez ce que vous faites lors de la modification de code: votre édition avait ruiné une bonne réponse, et le conduit à lancer une exception (restitué à l'OP d'origine)...

InformationsquelleAutor Psidom

Vous devez vous connecter pour publier un commentaire.