Comment faire pour extraire un élément d'un tableau dans pyspark
J'ai un bloc de données suivant le type de
col1|col2|col3|col4
xxxx|yyyy|zzzz|[1111],[2222]
Je veux ma sortie de type
col1|col2|col3|col4|col5
xxxx|yyyy|zzzz|1111|2222
Mon col4 est un tableau et je voudrais la convertir en une colonne séparée. Ce qui doit être fait?
J'ai vu beaucoup de réponses avec flatmap, mais ils sont de plus d'une ligne, je veux juste le n-uplet d'être mis dans une autre colonne, mais dans la même ligne
Voici mon schéma:
root
|-- PRIVATE_IP: string (nullable = true)
|-- PRIVATE_PORT: integer (nullable = true)
|-- DESTINATION_IP: string (nullable = true)
|-- DESTINATION_PORT: integer (nullable = true)
|-- collect_set(TIMESTAMP): array (nullable = true)
| |-- element: string (containsNull = true)
Aussi qui peut plaire à quelqu'un de m'aider avec des explications sur les deux dataframes et RDD est
- Quel est le schéma de votre bloc de données? Pouvez-vous montrer df.printSchema()?
- Salut, j'ai édité la question avec mon schéma
- Ne toutes les cellules dans la matrice colonne ont le même nombre d'éléments? Toujours 2? Que faire si une autre ligne ont trois éléments dans le tableau?
- Pas de tous les éléments ont exactement 2 éléments. Parce que l'élément de la matrice est une date de début et date de fin.
- Aussi c'est mon exigence si vous pouvez m'aider avec elle. stackoverflow.com/questions/45252906/...
Vous devez vous connecter pour publier un commentaire.
Créer un échantillon de données:
Utilisation
getItem
pour extraire l'élément de la colonne de tableau comme cela, dans votre cas, remplacezcol4
aveccollect_set(TIMESTAMP)
: