Comment faire pour extraire un élément d'un tableau dans pyspark

J'ai un bloc de données suivant le type de

col1|col2|col3|col4
xxxx|yyyy|zzzz|[1111],[2222]

Je veux ma sortie de type

col1|col2|col3|col4|col5
xxxx|yyyy|zzzz|1111|2222

Mon col4 est un tableau et je voudrais la convertir en une colonne séparée. Ce qui doit être fait?

J'ai vu beaucoup de réponses avec flatmap, mais ils sont de plus d'une ligne, je veux juste le n-uplet d'être mis dans une autre colonne, mais dans la même ligne

Voici mon schéma:

root
 |-- PRIVATE_IP: string (nullable = true)
 |-- PRIVATE_PORT: integer (nullable = true)
 |-- DESTINATION_IP: string (nullable = true)
 |-- DESTINATION_PORT: integer (nullable = true)
 |-- collect_set(TIMESTAMP): array (nullable = true)
 |    |-- element: string (containsNull = true)

Aussi qui peut plaire à quelqu'un de m'aider avec des explications sur les deux dataframes et RDD est

  • Quel est le schéma de votre bloc de données? Pouvez-vous montrer df.printSchema()?
  • Salut, j'ai édité la question avec mon schéma
  • Ne toutes les cellules dans la matrice colonne ont le même nombre d'éléments? Toujours 2? Que faire si une autre ligne ont trois éléments dans le tableau?
  • Pas de tous les éléments ont exactement 2 éléments. Parce que l'élément de la matrice est une date de début et date de fin.
  • Aussi c'est mon exigence si vous pouvez m'aider avec elle. stackoverflow.com/questions/45252906/...
InformationsquelleAutor AnmolDave | 2017-07-22