Quel est le moyen le plus efficace pour créer un dictionnaire des deux pandas Dataframe colonnes?

Quel est le moyen le plus efficace pour organiser la suite de pandas Dataframe:

de données =

Position    Letter
1           a
2           b
3           c
4           d
5           e

dans un dictionnaire comme alphabet[1 : 'a', 2 : 'b', 3 : 'c', 4 : 'd', 5 : 'e']?

InformationsquelleAutor user1083734 | 2013-07-02

145
```
In [9]: pd.Series(df.Letter.values,index=df.Position).to_dict()
Out[9]: {1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e'}
```
Vitesse comparion (à l'aide de Wouter de la méthode)
```
In [6]: df = pd.DataFrame(randint(0,10,10000).reshape(5000,2),columns=list('AB'))

In [7]: %timeit dict(zip(df.A,df.B))
1000 loops, best of 3: 1.27 ms per loop

In [8]: %timeit pd.Series(df.A.values,index=df.B).to_dict()
1000 loops, best of 3: 987 us per loop
```
- Dois-je comprends bien, que votre df est la même que mes données (les deux premières commandes en cours juste à entrer les données que je l'ai)? Si non, pourquoi voulez-vous entrer dans les valeurs de données sous forme de chaîne manuellement?
- oui, ils sont les mêmes, j'ai juste copier et coller vos données (cette étape n'est nécessaire que pour la reproductibilité)
- Sans la création d'une Série de première ... dict(zip(df.Position, df.Lettre))
- ils sont surprenants proche de la vitesse, de la pensée vôtre serait beaucoup plus rapide
- Pour info.....ma méthode est très proche sous le capot de ce que Wouter fait, la différence est de sa mise en œuvre à l'aide de izip, plutôt que de zip; générateur qui fait la différence je pense
- Merci @Jeff, cela répond à ma question, mais ne fonctionne pas dans mon application réelle. Je reçois KeyError: 0L
- cela fonctionne dans mon application parfaitement, je vous remercie pour votre contribution
- la méthode la plus rapide?
- dict(zip...) plus rapide
- Sur un DataFrame avec la forme=(100,2), Wouter de la méthode avec des dict(zip...) était 3x plus rapide que Jeff - j'ai utilisé %timeit
- Est-il un moyen d'avoir une autre Série ajoutée plutôt que de simplement la Lettre?
InformationsquelleAutor Jeff

J'ai trouvé un moyen plus rapide pour résoudre le problème, au moins de façon réaliste les grands ensembles de données en utilisant:
df.set_index(KEY).to_dict()[VALUE]

Preuve sur 50 000 lignes:

df = pd.DataFrame(np.random.randint(32, 120, 100000).reshape(50000,2),columns=list('AB'))
df['A'] = df['A'].apply(chr)

%timeit dict(zip(df.A,df.B))
%timeit pd.Series(df.A.values,index=df.B).to_dict()
%timeit df.set_index('A').to_dict()['B']

De sortie:

100 loops, best of 3: 7.04 ms per loop  # WouterOvermeire
100 loops, best of 3: 9.83 ms per loop  # Jeff
100 loops, best of 3: 4.28 ms per loop  # Kikohs (me)

Toujours faites défiler vers le bas pour d'éventuelles réponses plus rapide!

InformationsquelleAutor Kikohs

TL;DR

>>> import pandas as pd
>>> df = pd.DataFrame({'Position':[1,2,3,4,5], 'Letter':['a', 'b', 'c', 'd', 'e']})
>>> dict(sorted(df.values.tolist())) # Sort of sorted... 
{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
>>> from collections import OrderedDict
>>> OrderedDict(df.values.tolist())
OrderedDict([('a', 1), ('b', 2), ('c', 3), ('d', 4), ('e', 5)])

À Long

Expliquant solution: dict(sorted(df.values.tolist()))

Donné:

df = pd.DataFrame({'Position':[1,2,3,4,5], 'Letter':['a', 'b', 'c', 'd', 'e']})

[out]:

 Letter Position
0   a   1
1   b   2
2   c   3
3   d   4
4   e   5

Essayer:

# Get the values out to a 2-D numpy array, 
df.values

[out]:

array([['a', 1],
       ['b', 2],
       ['c', 3],
       ['d', 4],
       ['e', 5]], dtype=object)

Puis en option:

# Dump it into a list so that you can sort it using `sorted()`
sorted(df.values.tolist()) # Sort by key

Ou:

# Sort by value:
from operator import itemgetter
sorted(df.values.tolist(), key=itemgetter(1))

[out]:

[['a', 1], ['b', 2], ['c', 3], ['d', 4], ['e', 5]]

Enfin, la fonte de la liste de liste de 2 éléments dans un dict.

dict(sorted(df.values.tolist()))

[out]:

{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}

Liées

Réponse @sbradbio commentaire:

Si il y a plusieurs valeurs pour une clé spécifique et que vous souhaitez garder tous d'entre eux, c'est le pas le plus efficace mais la façon la plus intuitive est:

from collections import defaultdict
import pandas as pd

multivalue_dict = defaultdict(list)

df = pd.DataFrame({'Position':[1,2,4,4,4], 'Letter':['a', 'b', 'd', 'e', 'f']})

for idx,row in df.iterrows():
    multivalue_dict[row['Position']].append(row['Letter'])

[out]:

>>> print(multivalue_dict)
defaultdict(list, {1: ['a'], 2: ['b'], 4: ['d', 'e', 'f']})

Est-il possible que vous pouvez ajouter plus d'une colonne de la valeur {'key': [value1, value2]}
Vérifier ajouté répondre
Je pense que valeur1 et valeur2 sont deux colonnes séparées. Pourriez-vous créer un dictionnaire avec {'id': ['long','lat]}? long et lat sont dans des colonnes distinctes.

InformationsquelleAutor alvas

En Python 3.6 le moyen le plus rapide est encore de la WouterOvermeire un. Kikohs proposition est plus lent que les deux autres options.

import timeit

setup = '''
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randint(32, 120, 100000).reshape(50000,2),columns=list('AB'))
df['A'] = df['A'].apply(chr)
'''

timeit.Timer('dict(zip(df.A,df.B))', setup=setup).repeat(7,500)
timeit.Timer('pd.Series(df.A.values,index=df.B).to_dict()', setup=setup).repeat(7,500)
timeit.Timer('df.set_index("A").to_dict()["B"]', setup=setup).repeat(7,500)

Résultats:

1.1214002349999777 s  # WouterOvermeire
1.1922008498571748 s  # Jeff
1.7034366211428602 s  # Kikohs

InformationsquelleAutor pakobill

Vous devez vous connecter pour publier un commentaire.