Ajout d'une colonne c'est le résultat de la différence dans les lignes consécutives dans les pandas

Permet de dire que j'ai un dataframe comme ce

0,1,2,3 sont reprises, a, c, e, g est une série temporelle et b, d, f, h est un autre moment de la série.
J'ai besoin d'être en mesure d'ajouter deux colonnes à l'orignal dataframe qui est obtenu en calculant les différences de lignes consécutives pour certaines colonnes.

Donc j'ai besoin de quelque chose comme ce

    A   B   dA
0   a   b  (a-c)
1   c   d  (c-e)
2   e   f  (e-g)
3   g   h   Nan

J'ai vu quelque chose qui s'appelle diff sur le dataframe/série, mais qui fait un peu différemment que dans le premier élément deviendra Nan.

InformationsquelleAutor AMM | 2014-04-17

89

Utilisation maj.
```
df['dA'] = df['A'] - df['A'].shift(-1)
```
- ce si A contient la liste des éléments?
- Cela fonctionne tant que l'opération a du sens pour les valeurs sont dans votre dataframe! Par exemple, si chaque "cellule" dans votre DataFrame est une liste, vous pouvez le faire df['A'] + df['A'].shift(), mais vous ne pouvez pas soustraire depuis la soustraction n'est pas défini pour les listes.
- Que pouvez-vous faire au sujet de la " NaN " dans la première/dernière ligne?
- qu'aimeriez-vous y être? Vous pouvez toujours faire un fillna par la suite, mais si vous êtes en déplacement, ce qu'il serait raisonnable de la valeur de la première ligne?
- Par exemple, les horaires des différences d'un compteur cumulatif. La première ligne doit être rempli de quelque chose, soit 0 ou la valeur d'un autre de la ligne de champs.
- Bon juste utiliser fillna sur le résultat ensuite. Par exemple df['dA'].fillna(0)
- je suis SettingWithCopyWarning: Une valeur est d'essayer d'être mis sur une copie d'une tranche à partir d'un DataFrame. Essayez d'utiliser .loc[row_indexer,col_indexer] = valeur à la place
- C'est un problème très commun avec les pandas, et a à voir avec la façon dont vous avez défini votre dataframe ailleurs. Il n'est pas lié à la shift méthode. Voici un très long article dataquest.io/blog/settingwithcopywarning et un peu moins de stackoverflow réponse qui peut être utile stackoverflow.com/questions/20625582/...
InformationsquelleAutor exp1orer
34

Vous pouvez utiliser diff et passer -1 comme le periods argument:
```
>>> df = pd.DataFrame({"A": [9, 4, 2, 1], "B": [12, 7, 5, 4]})
>>> df["dA"] = df["A"].diff(-1)
>>> df
   A   B  dA
0  9  12   5
1  4   7   2
2  2   5   1
3  1   4 NaN

[4 rows x 3 columns]
```
- comment puis-je gérer le même problème quand 'A' a la liste des éléments seulement, au lieu de scalaire ?
- Vous pouvez les gérer en ne leur permettant pas d'être dans une liste.
- L'on a accepté la réponse est intéressante, mais je pense que c'est la meilleure réponse
InformationsquelleAutor DSM

Lors de l'utilisation de données dans le format CSV, cela fonctionne parfaitement:

my_data = pd.read_csv('sale_data.csv')
df = pd.DataFrame(my_data)
df['New_column'] = df['target_column'].diff(1)
print(df) #for the console but not necessary

InformationsquelleAutor Seth Okeyo

0

De roulement des différences peuvent également être calculé de cette façon:
```
df=pd.DataFrame(my_data)
my_data = pd.read_csv('sales_data.csv')
i=0
j=1
while j < len(df['Target_column']):
    j=df['Target_column'][i+1] - df['Target_column'][i] #the difference btwn two values in a column.
    i+=1 #move to the next value in the column.
    j+=1 #next value in the new column.
    print(j)
```
- c'est quand vous voulez pour calculer les rolling différences dans une colonne au format CSV, par exemple, vous voulez connaître la différence entre deux valeurs consécutives dans une colonne (Target_column) et de stocker la valeur dans une colonne différente(New_column). Rouler les différences par exemple, vous avez une colonne appelée ['Bénéfice'], pour obtenir les différences d'utiliser dans le calcul du revenu marginal, vous ne valeur2 - valeur1, valeur3 - Valeur2, Valeur 4 - Valeur 3.... etc
InformationsquelleAutor Seth Okeyo

Vous devez vous connecter pour publier un commentaire.