Convertir pyspark.sql.dataframe.DataFrame type Dataframe de Dictionnaire

J'ai un pyspark Dataframe et j'ai besoin de le convertir en python dictionnaire.

Code ci-dessous est reproductible:

from pyspark.sql import Row
rdd = sc.parallelize([Row(name='Alice', age=5, height=80),Row(name='Alice', age=5, height=80),Row(name='Alice', age=10, height=80)])
df = rdd.toDF()

Une fois que j'ai ce dataframe, j'ai besoin de le convertir dans le dictionnaire.

J'ai essayé comme ceci

df.set_index('name').to_dict()

Mais il donne une erreur. Comment puis-je réaliser cette

InformationsquelleAutor Hardik gupta | 2016-12-18

9

Vous devez d'abord les convertir à un pandas.DataFrame à l'aide de toPandas(), vous pouvez utiliser le to_dict() méthode sur la transposée dataframe avec orient='list':
```
df.toPandas().set_index('name').T.to_dict('list')
# Out[1]: {u'Alice': [10, 80]}
```
- Mais votre sortie n'est pas correcte? Je veux la sortie, comme cette {name: [age, height]}
- si la sortie doit être {Alice: [5,80]}, avec n 'u'
- Je ne conseille pas à l'aide de Panda ici. Panda est une grande dépendance, et n'est pas nécessaire pour une telle opération simple.
- C'est pourquoi vous devez partager les résultats attendus dans votre question, et pourquoi est-âge 5 au lieu de 10? Vous devriez avoir des documents uniques et si vous avez l'intention de créer un dictionnaire.
InformationsquelleAutor mtoto
8

Veuillez voir l'exemple ci-dessous:
```
>>> from pyspark.sql.functions import col
>>> df = (sc.textFile('data.txt')
            .map(lambda line: line.split(","))
            .toDF(['name','age','height'])
            .select(col('name'), col('age').cast('int'), col('height').cast('int')))

+-----+---+------+
| name|age|height|
+-----+---+------+
|Alice|  5|    80|
|  Bob|  5|    80|
|Alice| 10|    80|
+-----+---+------+

>>> list_persons = map(lambda row: row.asDict(), df.collect())
>>> list_persons
[
    {'age': 5, 'name': u'Alice', 'height': 80}, 
    {'age': 5, 'name': u'Bob', 'height': 80}, 
    {'age': 10, 'name': u'Alice', 'height': 80}
]

>>> dict_persons = {person['name']: person for person in list_persons}
>>> dict_persons
{u'Bob': {'age': 5, 'name': u'Bob', 'height': 80}, u'Alice': {'age': 10, 'name': u'Alice', 'height': 80}}
```
L'entrée que j'utilise pour tester data.txt:
```
Alice,5,80
Bob,5,80
Alice,10,80
```
Nous avons d'abord faire le chargement en utilisant pyspark en lisant ces lignes. Puis nous convertir les lignes, les colonnes de la division de la virgule. Puis nous convertir le natif de RDD à une DF et ajouter des noms à la colume. Enfin, nous convertir à colonnes au format approprié.

Puis nous recueillons tout pour le pilote, et à l'aide de python compréhension de liste nous convertir les données de la forme préférée. Nous convertir la Row objet d'un dictionnaire à l'aide de la asDict() méthode. Dans la sortie, nous pouvons observer que Alice est apparaissant qu'une seule fois, mais c'est bien sûr parce que la clé d'Alice est écrasée.

Veuillez garder à l'esprit que vous voulez faire tout le traitement et le filtrage à l'intérieur de pypspark avant de retourner le résultat pour le pilote.

Espère que cette aide, a bientôt.
- Salut Fokko, l'impression de list_persons rend "<map objet au 0x7f09000baf28>" pour moi. Toute aide?
InformationsquelleAutor Fokko Driesprong
-2

Si vous avez de ligne intégrées à l'intérieur des lignes, vous pouvez le faire
df.asDict(recursive=True)
- asDict n'est pas une méthode valable pour Pyspark DataFrames.
InformationsquelleAutor James

Vous devez vous connecter pour publier un commentaire.