Python pandas: remplissez un dataframe ligne par ligne

La simple tâche de l'ajout d'une ligne à une pandas.DataFrame objet semble être difficile à accomplir. Il y a 3 stackoverflow les questions relatives au présent, aucune de donner un travail de réponse.

Voici ce que je suis en train de faire. J'ai un DataFrame dont je connais déjà la forme ainsi que les noms des lignes et des colonnes.

>>> df = pandas.DataFrame(columns=['a','b','c','d'], index=['x','y','z'])
>>> df
     a    b    c    d
x  NaN  NaN  NaN  NaN
y  NaN  NaN  NaN  NaN
z  NaN  NaN  NaN  NaN

Maintenant, j'ai une fonction pour calculer les valeurs des lignes de manière itérative. Comment puis-je remplir dans l'une des lignes avec un dictionnaire ou un pandas.Series ? Voici les différentes tentatives qui ont échoué:

>>> y = {'a':1, 'b':5, 'c':2, 'd':3} 
>>> df['y'] = y
AssertionError: Length of values does not match length of index

Apparemment, il a essayé d'ajouter une colonne au lieu d'une ligne.

>>> y = {'a':1, 'b':5, 'c':2, 'd':3} 
>>> df.join(y)
AttributeError: 'builtin_function_or_method' object has no attribute 'is_unique'

Très peu de message d'erreur.

>>> y = {'a':1, 'b':5, 'c':2, 'd':3} 
>>> df.set_value(index='y', value=y)
TypeError: set_value() takes exactly 4 arguments (3 given)

Apparemment c'est uniquement pour le réglage des valeurs individuelles dans le dataframe.

>>> y = {'a':1, 'b':5, 'c':2, 'd':3} 
>>> df.append(y)
Exception: Can only append a Series if ignore_index=True

Bien, je ne veux pas ignorer l'indice, sinon voici le résultat:

>>> df.append(y, ignore_index=True)
     a    b    c    d
0  NaN  NaN  NaN  NaN
1  NaN  NaN  NaN  NaN
2  NaN  NaN  NaN  NaN
3    1    5    2    3

Il n'a aligner les noms de colonne avec les valeurs, mais il a perdu les étiquettes de ligne.

>>> y = {'a':1, 'b':5, 'c':2, 'd':3} 
>>> df.ix['y'] = y
>>> df
                                  a                                 b  \
x                               NaN                               NaN
y  {'a': 1, 'c': 2, 'b': 5, 'd': 3}  {'a': 1, 'c': 2, 'b': 5, 'd': 3}
z                               NaN                               NaN

                                  c                                 d
x                               NaN                               NaN
y  {'a': 1, 'c': 2, 'b': 5, 'd': 3}  {'a': 1, 'c': 2, 'b': 5, 'd': 3}
z                               NaN                               NaN

Aussi lamentablement échoué.

Alors, comment faites-vous ?

InformationsquelleAutor xApple | 2013-06-13

72

df['y'] va définir une colonne

puisque vous souhaitez définir une ligne, utilisez .loc

Noter que .ix est équivalent ici, le vôtre a échoué parce que vous avez essayé d'attribuer un dictionnaire
pour chaque élément de la ligne y probablement pas ce que vous voulez; la conversion à une Série raconte les pandas
que vous souhaitez aligner l'entrée (par exemple, ensuite, vous n'avez pas à spécifier tous les éléments)
```
In [7]: df = pandas.DataFrame(columns=['a','b','c','d'], index=['x','y','z'])

In [8]: df.loc['y'] = pandas.Series({'a':1, 'b':5, 'c':2, 'd':3})

In [9]: df
Out[9]: 
     a    b    c    d
x  NaN  NaN  NaN  NaN
y    1    5    2    3
z  NaN  NaN  NaN  NaN
```
- Je vois. Ainsi, le loc attribut de la trame de données définit un spécial __setitem__ qui fait la magie, je suppose.
- Pouvez-vous construire ce en un seul passage (c'est à dire avec des colonnes, index et y)?
- Donc, si je peux générer une ligne à la fois, comment pourrais-je construire la trame de données de manière optimale ?
- M'attendais à une variante de df = pd.DataFrame({'y': pd.Series(y)}, columns=['a','b','c','d'], index=['x','y','z']) de travail?
- Cette dernière ligne de code que vous avez posté ne fonctionne pas.
- problème, le mieux pour vous d'établir une liste des dicts (ou une liste), puis il suffit de passer au constructeur, sera beaucoup plus efficace
- Aussi, lol pour le TOTD commentaire si vous n'avez pas vu ma réponse. 🙂
- vous avez supprimé de votre réponse afin de ne pas le voir, mais lol, de toute façon, sur l'ensemble de la TOTD!
- N'est-il pas inefficace pour construire une nouvelle pandas.Series pour chaque ligne? Ne serait-il pas préférable de remplir un pré-créé la série de l'objet?
- Qu'advient-il si l'argument d'une pandas.series doit être une liste de pré-calculé des valeurs, au lieu d'un dictionnaire dont les éléments sont spécifiés, un par un? Je suis en train d'essayer avec df.loc['y'] = pd.Series(mylist,index=df.index) mais il ne fonctionne pas.
- que faire si vous ne connaissez pas le nombre d'indices? Pouvez-vous ajouter comme vous vous en aller et de ne pas initialiser l'index?
InformationsquelleAutor Jeff
56

Mon approche était, mais je ne peux pas garantir que c'est la solution la plus rapide.
```
df = pd.DataFrame(columns=["firstname", "lastname"])
df = df.append({
     "firstname": "John",
     "lastname":  "Johny"
      }, ignore_index=True)
```
- Cela a fonctionné à merveille pour moi et j'aime le fait que vous avez explicitement append les données pour le dataframe.
- Notez que cela répondre à des besoins de chaque rangée d'avoir le nom de la colonne ajouté. De même pour la accepté de répondre.
- Cela fonctionne aussi si vous ne savez pas le nombre de lignes à l'avance.
InformationsquelleAutor flow
21

C'est une version plus simple
```
df = DataFrame(columns=('col1', 'col2', 'col3'))
for i in range(5):
   df.loc[i] = ['<some value for first>','<some value for second>','<some value for third>']`
```
- veux juste vous demander, est-ce CPU et de la mémoire efficace?
- comment puis-je savoir df dernière ligne pour que je les ajoute à la dernière ligne chaque fois?
InformationsquelleAutor Satheesh
14

Si vos lignes d'entrée sont des listes plutôt que des dictionnaires, alors la suite est une solution simple:
```
import pandas as pd
list_of_lists = []
list_of_lists.append([1,2,3])
list_of_lists.append([4,5,6])

pd.DataFrame(list_of_lists, columns=['A', 'B', 'C'])
#    A  B  C
# 0  1  2  3
# 1  4  5  6
```
- mais que dois-je faire si j'ai un multi-indice? df1 = pd.DataFrame(list_of_lists, les colonnes['A', 'B', 'C'], index=['A', 'B']) ne fonctionne pas. Une mauvaise forme. Oui, comment?
InformationsquelleAutor stackoverflowuser2010

Vous devez vous connecter pour publier un commentaire.