R comment puis-je calculer la différence entre les lignes dans un bloc de données

Voici un exemple simple de mon problème:

> df <- data.frame(ID=1:10,Score=4*10:1)
> df
       ID Score
    1   1    40
    2   2    36
    3   3    32
    4   4    28
    5   5    24
    6   6    20
    7   7    16
    8   8    12
    9   9     8
    10 10     4
    > diff(df)

Error in r[i1] - r[-length(r):-(length(r) - lag + 1L)] : 
  non-numeric argument to binary operator

Quelqu'un peut me dire pourquoi cette erreur se produit?

notez que aPaulT répondu à votre question et d'aider le site si vous avez sélectionné comme correcte en cliquant sur la coche. Ou l'un des autres excellentes solutions, si vous pensez que cela serait plus utile.

InformationsquelleAutor ManInMoon | 2013-04-25

31

diff veut une matrice ou d'un vecteur plutôt que d'un bloc de données. Essayez
```
data.frame(diff(as.matrix(df)))
```
- +1 nice - je suppose que c'est logique, puisque la matrice est juste un vecteur avec un 2e dim attribut.
- +1. Ce sera, de loin, la solution la plus rapide ici.
- Pour référence, certains repères sur une 1000000 ligne 5 colonne de données.
- Notez que contrairement à la head/tail et nrow(df) solutions, cela ne fonctionne pas sur certains types d'objets non numériques, tels que POSIXlt. (Un dplyr solution échoue également avec POSIXlt objets)
- En effet repères suggèrent diff(as.matrix) et data.table sont rapide. Mais je vais probablement aller sur l'aide de head/tail ou seq_along pour les années à venir.
InformationsquelleAutor aPaulT
24

Peut-être vous cherchez quelque chose comme ceci:
```
> tail(df, -1) - head(df, -1)
   ID Score
2   1    -4
3   1    -4
4   1    -4
5   1    -4
6   1    -4
7   1    -4
8   1    -4
9   1    -4
10  1    -4
```
Vous pouvez ajouter ou enlever des deux data.frames ensemble si elles ont les mêmes dimensions. Donc, ce que nous faisons ici, c'est en soustrayant une data.frame qui est à côté de la première rangée (tail(df, -1)) et un qui est absent de la dernière ligne (head(df, -1)) et en soustrayant eux.
- +1 tour de Nice avec les têtes et les queues.
- +1 d'imagination. Je n'aurais jamais penser que head avec -1 revenir tout à l'exception de la première ligne. Intelligent
InformationsquelleAutor A5C1D2H2I1M1N2O1R2T1
10

Une autre option à l'aide de dplyr serait à l'aide de mutate_each d'une boucle sur toutes les colonnes, obtenir la différence de la colonne (.) avec le lag de la colonne (.) et retirer le NA élément au sommet avec na.omit()
```
library(dplyr)
df %>%
    mutate_each(funs(. - lag(.))) %>%
    na.omit() 
```
EDIT:

Au lieu de mutate_each (obsolete - comme mentionné par @PatrickT) utilisation mutate_all
```
df %>%
    mutate_all(funs(. - lag(.))) %>%
    na.omit() 
```
Ou avec shift de data.table. Convertir les données.image' à 'des données.table' (setDT(df)), en boucle par les colonnes (lapply(.SD, ..)) and get the difference between the column (x) and thegal(majby default gives thegalastype = "gal"`). Suppression de la première observation, c'est à dire NA élément.
```
library(data.table)
setDT(df)[, lapply(.SD, function(x) (x- shift(x))[-1])]
```
- ce qui est vrai. Merci
InformationsquelleAutor akrun
9

Parce que df fonctionne sur vecteur ou d'une matrice. Vous pouvez utiliser à appliquer la fonction à travers les colonnes de la sorte:
```
 apply( df , 2 , diff )
   ID Score
2   1    -4
3   1    -4
4   1    -4
5   1    -4
6   1    -4
7   1    -4
8   1    -4
9   1    -4
10  1    -4
```
Il semble peu probable que vous voulez calculer l'écart en séquence Id, de sorte que vous pouvez choisir de l'appliquer sur toutes les colonnes sauf la première de la sorte:
```
apply( df[-1] , 2 , diff )
```
Ou vous pouvez utiliser data.table (pas que ça ajoute quoi que ce soit ici, j'ai juste vraiment envie de commencer à l'utiliser!), et encore, je suis en supposant que vous ne souhaitez pas appliquer diff de la colonne ID:
```
DT <- data.table(df)
DT[ , list(ID,Score,Diff=diff(Score))  ]
    ID Score Diff
 1:  1    40   -4
 2:  2    36   -4
 3:  3    32   -4
 4:  4    28   -4
 5:  5    24   -4
 6:  6    20   -4
 7:  7    16   -4
 8:  8    12   -4
 9:  9     8   -4
10: 10     4   -4
```
Et grâce à @AnandaMahto une syntaxe alternative qui donne plus de souplesse pour choisir les colonnes à exécuter sur pourrait être:
```
DT[, lapply(.SD, diff), .SDcols = 1:2]
```
Ici .SDcols = 1:2 signifie que vous voulez appliquer le diff fonction pour les colonnes 1 et 2. Si vous avez 20 colonnes et ne veulent pas l'appliquer à l'ID que vous pourriez utiliser .SDcols=2:20 comme un exemple.
- +1 pour les modifications. Il sera moins compliqué pour les futurs visiteurs de cette question.
InformationsquelleAutor Simon O'Hanlon

Je voudrais montrer une autre façon de faire ce genre de choses, même souvent, j'ai le sentiment qu'il n'est pas apprécié de faire cela de cette manière: à l'aide de sql.

sqldf(paste("SELECT a.ID,a.Score"
            ,"      , a.Score - (SELECT b.Score"
            ,"                   FROM df b"
            ,"                   WHERE b.ID < a.ID"
            ,"                   ORDER BY b.ID DESC"
            ,"                   ) diff"
            ," FROM df a"
            )
      )

Le code semble compliqué, mais il ne l'est pas et il a un certain avantage, comme vous pouvez le voir sur les résultats:

    ID Score diff
 1   1    40 <NA>
 2   2    36 -4.0
 3   3    32 -4.0
 4   4    28 -4.0
 5   5    24 -4.0
 6   6    20 -4.0
 7   7    16 -4.0
 8   8    12 -4.0
 9   9     8 -4.0
 10 10     4 -4.0

Un avantage est que vous utilisez l'original dataframe (sans les convertir dans d'autres classes) et vous obtenez un bloc de données (mettre dans res <- ....). Un autre avantage est que vous avez toujours toutes les lignes. Et le troisième avantage est que vous pouvez facilement considérer le regroupement de facteurs. Par exemple:

df2 <- data.frame(ID=1:10,grp=rep(c("v","w"), each=5),Score=4*10:1)

sqldf(paste("SELECT a.ID,a.grp,a.Score"
            ,"      , a.Score - (SELECT b.Score"
            ,"                   FROM df2 b"
            ,"                   WHERE b.ID < a.ID"
            ,"                         AND a.grp = b.grp"
            ,"                   ORDER BY b.ID DESC"
            ,"                   ) diff"
     ," FROM df2 a"
     )
)


   ID grp Score diff
1   1   v    40 <NA>
2   2   v    36 -4.0
3   3   v    32 -4.0
4   4   v    28 -4.0
5   5   v    24 -4.0
6   6   w    20 <NA>
7   7   w    16 -4.0
8   8   w    12 -4.0
9   9   w     8 -4.0
10 10   w     4 -4.0

InformationsquelleAutor giordano

4

L'ajout de cette, quelques années plus tard pour être complet - vous pouvez utiliser un simple [.data.frame subseting pour atteindre ce trop
```
df[-1, ] - df[-nrow(df), ]
#    ID Score
# 2   1    -4
# 3   1    -4
# 4   1    -4
# 5   1    -4
# 6   1    -4
# 7   1    -4
# 8   1    -4
# 9   1    -4
# 10  1    -4
```
- Vous avez déjà posté. Donc, vous pouvez ajouter ces
- vous avez eu quelques belles choses là.Le dplyr on va vous apporter beaucoup de upvotes dans le long terme - c'est garanti. S'il vous plaît poster
- Bon alors, si c'est contre mes principes 🙂
- Même plus tard... je suis nouveau sur R et en essayant d'éviter les bibliothèques. Tout le monde suggère 5 différentes libs pour une tâche qui pourrait être résolu avec la plaine R. je ne comprends pas cette mentalité de l'ajout de dépendances à résoudre des problèmes simples.
- Eh bien, c'est le résultat de la constante d'étiquetage R comme "difficile à apprendre" la langue vs dplyr/etc. "très intuitive et facile". Une grande partie de la R de la communauté, comme il est en ce moment, c'est comme un mouton suivant aveuglément le chef divin Hadley Wickham et vous ne pouvez pas faire à peu près rien à ce sujet plus.
InformationsquelleAutor David Arenburg

Vous devez vous connecter pour publier un commentaire.