La sélection d'une ligne de pandas série/dataframe par index entier

Je suis curieux de savoir pourquoi df[2] n'est pas pris en charge, tout en df.ix[2] et df[2:3] à la fois le travail.

In [26]: df.ix[2]
Out[26]: 
A    1.027680
B    1.514210
C   -1.466963
D   -0.162339
Name: 2000-01-03 00:00:00

In [27]: df[2:3]
Out[27]: 
                  A        B         C         D
2000-01-03  1.02768  1.51421 -1.466963 -0.162339

Je m'attends à ce df[2] à fonctionner de la même manière que df[2:3] pour être cohérent avec Python indexation de la convention. Est-il une conception de la raison pour ne pas soutenir l'indexation ligne par un unique entier?

df.ix[2] ne fonctionnent pas - du moins pas dans pandas version '0.19.2'
Pour voir la différence entre les lignes et de colonnes à l'aide de l'opérateur d'indexation, [], voir cette réponse ci-dessous. Aussi ne JAMAIS UTILISER .ix, il est déconseillé

InformationsquelleAutor | 2013-04-19

517

écho @HYRY, voir les nouvelles docs dans 0.11

http://pandas.pydata.org/pandas-docs/stable/indexing.html

Ici, nous avons de nouveaux opérateurs, .iloc à explicitement le soutien entiers de l'indexation, et .loc à explicitement en charge uniquement l'étiquette d'indexation

par exemple, imaginez ce scénario
```
In [1]: df = pd.DataFrame(np.random.rand(5,2),index=range(0,10,2),columns=list('AB'))

In [2]: df
Out[2]: 
          A         B
0  1.068932 -0.794307
2 -0.470056  1.192211
4 -0.284561  0.756029
6  1.037563 -0.267820
8 -0.538478 -0.800654

In [5]: df.iloc[[2]]
Out[5]: 
          A         B
4 -0.284561  0.756029

In [6]: df.loc[[2]]
Out[6]: 
          A         B
2 -0.470056  1.192211
```
[] tranches les lignes (par emplacement de l'étiquette) seulement
- Que faire si vous voulez la 2e ET la 3e ET la 4e ligne?
- vous pouvez tout simplement passer d'une liste des indexeurs; docs sont indiqués ci-dessus
- Quelqu'un aurait-il une justification à ces noms? Je trouve que ces dur de s'en souvenir car je ne suis pas sûr pourquoi iloc est des lignes et des loc est des étiquettes.
- regarde les choses par leur ordre dans l'index (par exemple,.iloc[[2]]) est le deuxième "ligne" dans df. Cette ligne se trouve être à index emplacement 4. .loc recherche par leur valeur d'indice. Alors peut-être que "lci", c'est comme "je" comme dans A[i]? 🙂
- cela fonctionne très bien, mais ce qui se passe lorsque vous souhaitez dupliquer une ligne à partir de votre bloc de données, tels que df.loc[-1] = df.iloc[[0]], et de l'insérer? Le cadre est livré avec un indice de colonne donnant erreur ValueError: cannot set a row with mismatched columns (voir stackoverflow.com/questions/47340571/...)
- Ai-je raison de croire que df.iloc[[2]]retourne un dataframe et df.iloc[2]renvoie une pandas.core.series.Series? Pourquoi je devrais utiliser l'un plutôt que l'autre?
InformationsquelleAutor Jeff
56

Le but principal de la DataFrame de l'indexation de l'opérateur, [] est de sélectionner les colonnes.

Lorsque l'indexation de l'opérateur est passé à une chaîne ou un entier, il tente de trouver une colonne avec le nom et le retourner comme une Série.

Ainsi, dans la question ci-dessus: df[2] recherches pour un nom de colonne correspondant à la valeur entière 2. Cette colonne n'existe pas et un KeyError est soulevée.

Le DataFrame de l'indexation de l'opérateur change complètement de comportement pour sélectionner les lignes lors de la tranche de notation est utilisée

Étrangement, lors d'une tranche, le DataFrame de l'indexation de l'opérateur sélectionne des lignes et peuvent le faire en entier emplacement ou par l'indice de l'étiquette.
```
df[2:3]
```
Cette tranche début de la ligne avec entier emplacement de 2 à 3, à l'exclusion du dernier élément. Donc, il suffit d'une seule ligne. La suivante sélectionne les lignes commençant à l'entier emplacement 6 jusqu'à 20 par chaque troisième ligne.
```
df[6:20:3]
```
Vous pouvez également utiliser des tranches composé de la chaîne d'étiquettes si votre DataFrame index a des cordes en elle. Pour plus de détails, voir cette solution sur .lci vs .loc.

Je n'ai presque jamais utiliser cette tranche de la notation à l'indexation de l'opérateur qu'il ne soit pas explicite et presque jamais utilisé. Pour le découpage en lignes, bâton avec .loc/.iloc.
- En essayant d'ajouter des lignes à un autre dataframe à l'aide de indxeing opérateur mais l'autre dataframe reste vide. Pourquoi?
InformationsquelleAutor Ted Petrou
23

Vous pouvez penser DataFrame comme dict de la Série. df[key] essayez de sélectionner l'index de colonne par key et renvoie un objet de Série.

Cependant de découpage à l'intérieur de [] tranches les lignes, parce que c'est une opération très courante.

Vous pouvez lire le document pour plus de détails:

http://pandas.pydata.org/pandas-docs/stable/indexing.html#basics

InformationsquelleAutor HYRY
14

D'accès par index pour les pandas de la table, on peut aussi envisager numpy.as_array option pour convertir le tableau en tableau Numpy comme
```
np_df = df.as_matrix()
```
et puis
```
np_df[i] 
```
serait de travailler.
- cela va à l'encontre de l'objectif même de la dataframes indices et tout le reste pandas offre
InformationsquelleAutor Pavel Prochazka
7

Vous pouvez prendre un coup d'oeil à la le code source .

DataFrame a une fonction privée _slice() à couper le DataFrame, et il permet le paramètre axis pour déterminer l'axe de la tranche. Le __getitem__() pour DataFrame ne pas configurer l'axe, tout en invoquant _slice(). Ainsi, le _slice() tranche, par défaut, l'axe 0.

Vous pouvez prendre une simple expérience, qui pourrait vous aider:
```
print df._slice(slice(0, 2))
print df._slice(slice(0, 2), 0)
print df._slice(slice(0, 2), 1)
```
InformationsquelleAutor waitingkuo
6

vous pouvez faire une boucle à travers la trame de données de ce genre .
```
for ad in range(1,dataframe_c.size):
    print(dataframe_c.values[ad])
```
InformationsquelleAutor user1401491

Vous devez vous connecter pour publier un commentaire.

Le but principal de la DataFrame de l'indexation de l'opérateur, [] est de sélectionner les colonnes.

Le DataFrame de l'indexation de l'opérateur change complètement de comportement pour sélectionner les lignes lors de la tranche de notation est utilisée

Le but principal de la DataFrame de l'indexation de l'opérateur, `[]` est de sélectionner les colonnes.