L'étiquette de l'indexation en fonction de Pandas (.loc)

Récemment, j'ai été mis au courant des dangers de enchaînés affectation, et je suis en train d'utiliser la bonne méthode d'indexation dans les pandas, loc[rowindex, colindex]. Je suis en train de travailler avec un mélange de types de données (mix au sein de la même série de np.float64 et la liste et la chaîne) - c'est inévitable. J'ai un index entier

Je suis en cours d'exécution de la boucle suivante par l'intermédiaire d'un bloc de données

Count = 0
for row in DF.index:
print row
    if '/' in str(DF.order_no[row]) and '/' not in str(DF.buyer[row]) and '/' not in    str(DF.buyer[row])\
    and '/' not in str(DF.smv[row]) and '/' not in str(DF.item[row]):
        DF.loc[row, 'order_no'] = str(DF.loc[row, 'order_no']).split('/')
        Count +=1

Compter

Qui renvoie l'erreur:

 TypeError: object of type 'int' has no len()

Ce que je fais mal?

Au sein de cette boucle je peux le faire:

print DF.loc[row, 'order_no']

print DF.loc[row, 'order_no'] == str(DF.loc[row, order_no]).split('/')

mais pas

DF.loc[row, 'order_no'] = str(DF.loc[row, order_no]).split('/')

À l'aide de l'instruction print je vois que ça coince sur la ligne 3, encore:

DF.loc[3, 'order_no']

fonctionne très bien.

Aider apprecitated.

MODIFIER

Une solution de contournement est la suivante:

Count = 0
Vals = []
Ind = []
for row in DF.index:
    if '/' in str(DF.order_no[row]) and '/' not in str(DF.buyer[row]) and '/' not in str(DF.buyer[row])\
    and '/' not in str(DF.smv[row]) and '/' not in str(DF.item[row]):
        Vals.append(DF.order_no[row].split('/'))
        Ind.append(row)
        Count +=1

DF.loc[Ind, 'order_no'] = Vals

En d'autres termes, je peux créer une liste de valeurs à modifier et ensuite les modifier à l'aide .loc. Cela fonctionne bien ce qui m'amène à believge que le problème n'est pas avec les valeurs que je suis tryng à attribuer, et avec le processus de cession de lui-même.

Voici un exemple du type de données que je suis en train de travailler sur: Le code ne fonctionne pas sur la ligne 3 et 9 aussi loin que je peux dire. Désolé son au format csv, mais c'est la façon dont je le lis dans les pandas.

https://www.dropbox.com/s/zuy8pj15nlhmcfb/EG2.csv

À l'aide de données si celui-ci est fait:

EG = pd.reas_csv('EG.csv')
EG.loc[3, 'order_no'] = str(EG.loc[3, 'order_no']).split('/')

Échoue avec l'erreur

object of type 'int' has no len()

Mais

EG['order_no'][3] = str(EG.loc[3, 'order_no']).split('/')

fonctionne très bien, mais c'est le type de la chaîne d'affectation, je suis en train d'essayer d'éviter que cela me donnait des problèmes ailleurs.

c'est pourquoi je pensais que c'était juste une erreur de syntaxe.

Désolé pour ce désormais unweildy question

Ne DF.loc[3, 'order_no'] = str(DF.loc[3, order_no]).split('/') travail? Si non, le problème est probablement avec la valeur que vous essayez d'assigner. De l'imprimer et de voir ce qu'il est, et de la comparer aux valeurs que vous avez réussi à céder sur d'autres itérations.
Non il ne fonctionne pas, et ce n'est pas à cause de la valeur que je suis affectation, que je peux contrôler que la valeur et de l'affecter directement. En effet, la façon dont j'ai obtenu de contourner le problème est de créer une série de nouvelles valeurs indexées par la boucle et ensuite affecter les valeurs. Mais pour une raison ou une autre, le assingment l'intérieur de la boucle échoue toujours.
Désolé, je ne comprends pas ce que tu veux dire par "contrôler que la valeur et de l'affecter directement". Pouvez-vous fournir des exemples de données qui illustre bien le problème?
Fondamentalement, je peux confirmer que le problème n'est pas avec la valeur que je suis en train de assing. Voir l'édition ci-dessus:
Pouvez-vous fournir des exemples de données qui illustre bien le problème?
Votre solution de contournement n'est pas le même, puisque, dans l'original de votre code, vous affectez la valeur str(DF.loc[row, 'order_no']).split('/'), mais dans la solution de contournement vous attribuer DF.order_no[row].split('/')[0].
Désolé, oui, c'est vrai, mon erreur. Il fonctionne de la même de toute façon
OK, maintenant, je suis vraiment confus. J'ai tranché le bloc de données pour inclure le premier point à partir duquel le code breaksdown, de fournir les données de l'exemple, et il fonctionne très bien sur ces données. Mais il ne fonctionne toujours pas sur le bloc de données, je suis en train de travailler sur.
Jusqu'à ce que vous nous donner une complète SSCCE que l'on peut copier et coller -- @BrenBarn demandé un échantillon dataframe plusieurs fois -- vous êtes ce qui limite considérablement le nombre de ceux qui peuvent aider. (Beaucoup de gens ignorent souvent les questions qui ne sont pas SSCCE, comme il y a plus de suffisamment de questions qui sont pour nous occuper.)
Facile mec, il a demandé une fois. Je suis totalement ravi de vous fournir un exemple, je suis juste en train de travailler sur la façon d'obtenir les données ici.
respectueusement, c'est ce que vous faites avant de vous poser une question. Aussi: il a demandé à deux reprises. Voir le commentaire de départ "Désolé, je n'ai pas"; et puis il poliment répète exactement la même chose par la suite.
Yup, pensa celui-ci pourrait être juste une erreur de syntaxe de ma part. Je connais la valeur d'exemples. Lorsque l'on a appelé, j'ai eu à passer 10 minutes anonymising les données, comme il est confiedential.
Pourriez-vous essayer pour un petit exemple? Personnellement, je pense que c'est gênant pour diagnostiquer un guichet automatique, car il y a trop de bruit (par exemple baisse les colonnes que vous ne l'utilisez pas, certaines des lignes qui ne sont pas de la sensibilisation, en ligne avec la padn ont moins de problèmes de santé) dans l'idéal, plus petit que 5 par 5 🙂
Oui, désolé, j'ai limité les données sur les colonnes nécessaire.
la plus courte en cas de test possible: pd.DataFrame.from_dict({'working_hr': {3: 9.0}, 'order_no': {3: 731231}}).loc[3, 'order_no'] = [1,2]; Woody, vous pouvez modifier votre question avec ce cas de test si vous le souhaitez. Il tient compte de votre erreur.
La raison en est que la valeur est traitée comme une liste, et OP wan pas à le définir comme scalaire. L'inspection de code, ne peut pas voir comment cette erreur peut être évitée avec l'indexeur setter

InformationsquelleAutor Woody Pride | 2013-12-16

Vous pouvez peut-être en cours d'exécution dans dtype questions. Le code suivant fonctionne pour moi:

import pandas as pd
data = {'working_hr': {3: 9.0}, 'order_no': {3: 731231}}
df = pd.DataFrame.from_dict(data, dtype=object)

Et puis:

>>> df.loc[3, 'order_no'] = [1, 2]
>>> df
  order_no working_hr
3   [1, 2]          9

Note le dtype=object. C'est peut-être pourquoi vos erreurs disparu lorsque vous raccourcir le DataFrame, surtout si vous êtes en train de lire à partir de csv. Dans de nombreuses situations (comme readng partir d'un fichier CSV), les pandas essaie d'en déduire la dtype et choisir le plus spécifique. Vous pouvez affecter une liste comme une valeur si la dtype est l'objet, mais pas si c'est (par exemple) float64. Afin de vérifier si votre mixte-type de colonne est vraiment mis à dtype object.

La même fonctionne avec votre condition CSV:

>>> df = pandas.read_clipboard(sep='\t', index_col=0)
>>> df
buyer          order_no                                 item         smv
0         H&M            992754                        Cole tank top        6.17
1         H&M            859901                         Thilo Bottom        8.55
2         H&M            731231               Palma Short Sleeve Tee        5.65
3         H&M     731231/339260                      Palma Price Tee        5.65
4         H&M     859901/304141  Thilo Paijama Set top/Elva Tank Top   5.80/5.58
5         H&M            768380                       Folke Tank Top           6
6         H&M     596701/590691                        Paul Rock Tee        7.65
7    H&M/Mexx  731231/KIEZ-P002        Palma Short Sleeve Tee/Shorts  5.65/12.85
8         NaN               NaN                                  NaN         NaN
9  Ginatricot     512008/512009                           J.Tank top         4.6
>>> df.loc[3, 'order_no'] = str(df.loc[3, 'order_no']).split('/')
>>> df
buyer          order_no                                 item         smv
0         H&M            992754                        Cole tank top        6.17
1         H&M            859901                         Thilo Bottom        8.55
2         H&M            731231               Palma Short Sleeve Tee        5.65
3         H&M  [731231, 339260]                      Palma Price Tee        5.65
4         H&M     859901/304141  Thilo Paijama Set top/Elva Tank Top   5.80/5.58
5         H&M            768380                       Folke Tank Top           6
6         H&M     596701/590691                        Paul Rock Tee        7.65
7    H&M/Mexx  731231/KIEZ-P002        Palma Short Sleeve Tee/Shorts  5.65/12.85
8         NaN               NaN                                  NaN         NaN
9  Ginatricot     512008/512009                           J.Tank top         4.6

Oh oui merci!!!! Qui a travaillé. La chose drôle est, mes données montrant que dtype objet, mais le déclarer lors de la lecture du fichier csv semble avoir résolu le problème. Merci pour coller avec moi.

InformationsquelleAutor BrenBarn

0

Plus courts erreur de sensibilisation code de référence (jusqu'à ce que l'OP il inclut dans sa question):
```
import pandas as pd
data = {'working_hr': {3: 9.0}, 'order_no': {3: 731231}}
df = pd.DataFrame.from_dict(data)
df.loc[3, 'order_no'] = [1,2] # raises error
```
L'inspection de code, la liste de valeur [1,2] est traitée par _setitem_with_indexer sous forme de liste, et je ne vois pas comment ce problème peut-il être évité pour la valeur traités comme des scalaires.
- Merci beaucoup, ça ressemble à la BrenBarn réponse a pris votre exemple et de le faire fonctionner par delaring la dtype. Merci!
InformationsquelleAutor

Vous devez vous connecter pour publier un commentaire.