moyenne entre les lignes en double dans la R

J'ai un bloc de données df avec des lignes qui sont des doublons pour les noms de colonne, mais pas pour les valeurs de la colonne:

name    value   etc1    etc2
A       9       1       X
A       10      1       X
A       11      1       X
B       2       1       Y
C       40      1       Y
C       50      1       Y

J'ai besoin d'agréger les noms en double dans une ligne, tandis que le calcul de la moyenne sur les valeurs de la colonne. La sortie attendue est comme suit:

name    value   etc1    etc2
A       10      1       X
B       2       1       Y
C       45      1       Y

J'ai essayé d'utiliser df[duplicated(df$name),] mais bien sûr, cela ne me donne pas la moyenne sur les doublons. Je voudrais utiliser aggregate(), mais le problème est que la partie la plus AMUSANTE de cette fonction s'applique à tous les autres colonnes, et parmi les autres problèmes, il ne sera pas en mesure de calculer char de contenu. Depuis toutes les autres colonnes ont le même contenu sur les "doublons", j'en ai besoin pour être regroupées comme c'est tout comme le nom de la colonne. Tous les conseils...?

Sont vos autres colonnes etcX aussi la garantie d'être la même pour les lignes avec le même name?
Oui je crois que oui, j'ai filtré dans l'étape précédente pour obtenir les mêmes matières.
Désolé, le résultat attendu était déjà inclus dans mon post, mais j'ai oublié de le dire dans ma phrase. Cela a été corrigé par l'utilisateur des paramètres.

OriginalL'auteur biohazard | 2013-06-29

Ici un data.table solution. La solution est générale dans le sens où elle va travailler, même pour un ensemble de données.cadre avec 60 colonnes. Depuis que j'ai regrouper les données par toutes les variables différentes de la valeur( Voir comment je créer les touches ci-dessous)

library(data.table)
dat <- read.table(text='name    value   etc1    etc2
A       9       1       X
A       10      1       X
A       11      1       X
B       2       1       Y
C       40      1       Y
C       50      1       Y',header=TRUE)
keys <- colnames(dat)[!grepl('value',colnames(dat))]
X <- as.data.table(dat)
X[,list(mm= mean(value)),keys]
  name etc1 etc2 mm
1:    A    1    X 10
2:    B    1    Y  2
3:    C    1    Y 45

MODIFIER s'étendre à plus d'un valeur variable

Dans le cas où vous avez plusieurs variables numériques sur lesquels vous voulez calculer la moyenne , Par exemple, si vos données ressembler à ceci

  name value etc1 etc2     value1
1    A     9    1    X  2.1763485
2    A    10    1    X -0.7954326
3    A    11    1    X -0.5839844
4    B     2    1    Y -0.5188709
5    C    40    1    Y -0.8300233
6    C    50    1    Y -0.7787496

La solution ci-dessus peut être étendu comme ceci :

X[,lapply(.SD,mean),keys]
   name etc1 etc2 value     value1
1:    A    1    X    10  0.2656438
2:    B    1    Y     2 -0.5188709
3:    C    1    Y    45 -0.8043865

Cela permettra de calculer la moyenne pour toutes les variables qui n'existent pas dans la liste des clés.

OriginalL'auteur agstudy

7

Vous pouvez utiliser aggregate() fonction comme ci-dessous:
```
aggregate(df$value,by=list(name=df$name,etc1=df$etc1,etc2=df$etc2),data=df,FUN=mean)
```
Vous n'avez pas besoin d'utiliser df$ à l'intérieur de l'agrégat parce qu'il a un argument données permet de spécifier la source de données (df dans ce cas). Il y a aussi une formule d'interface pour un montant total qui peut être plus facile à lire.

OriginalL'auteur Homa Ghiasi

Le code (écrit par Métriques) est presque le travail, sauf dans un seul endroit (.nom). J'ai légèrement modifié:

sample<- structure(list(name = structure(c(1L, 1L, 1L, 2L, 3L, 3L), .Label = c("A", 
    "B", "C"), class = "factor"), value = c(9L, 10L, 11L, 2L, 40L, 
    50L), etc1 = c(1L, 1L, 1L, 1L, 1L, 1L), etc2 = structure(c(1L, 
    1L, 1L, 2L, 2L, 2L), .Label = c("X", "Y"), class = "factor")), .Names = c("name", 
    "value", "etc1", "etc2"), class = "data.frame", row.names = c(NA, 
    -6L))

sample.m <- ddply(sample, 'name', summarize, value =mean(value), etc1=head(etc1,1), etc2=head(etc2,1))

sample.m
      name value etc1 etc2
    1    A    10    1    X
    2    B     2    1    Y
    3    C    45    1    Y

Merci beaucoup! Auriez-vous par hasard pour savoir si il y a un raccourci que je peux utiliser de sorte que je n'ai pas à entrer les noms de tous les autres colonnes? Il y a en fait beaucoup plus que dans l'exemple que j'ai donné.
Je ne connaissais pas ce soit. Merci de souligner ce point.

OriginalL'auteur S Das

En supposant que votre dataframe est df.

install.packages("plyr")
library(plyr)



df<- structure(list(name = structure(c(1L, 1L, 1L, 2L, 3L, 3L), .Label = c("A", 
    "B", "C"), class = "factor"), value = c(9L, 10L, 11L, 2L, 40L, 
    50L), etc1 = c(1L, 1L, 1L, 1L, 1L, 1L), etc2 = structure(c(1L, 
    1L, 1L, 2L, 2L, 2L), .Label = c("X", "Y"), class = "factor")), .Names = c("name", 
    "value", "etc1", "etc2"), class = "data.frame", row.names = c(NA, 
    -6L))

df.m<-ddply(df,.(name),summarize, value=mean(value),etc1=head(etc1,1),etc2=head(etc2,1))

df.m
 name value etc1 etc2
1    A      10    1    X
2    B       2    1    Y
3    C      45    1    Y

Merci beaucoup! Il y a une mise en garde, cependant. Dans le jeu de données réelles, j'ai environ 60 autres colonnes qui ne sont pas les doublons et devrait être laissé intact, ai-je besoin de les entrer un par un comme des arguments de ddply() ou est-il un raccourci technique?
Va le faire, merci beaucoup 😀

OriginalL'auteur Metrics

Vous devez vous connecter pour publier un commentaire.