Nom des colonnes au sein de l'agrégat dans la R

Je sais que je peux *re*nom des colonnes après je agréger les données:

blubb <- aggregate(dat$two ~ dat$one, ...)
colnames(blubb) <- c("One", "Two")

Rien de mal à cela. Mais est-il un moyen de regrouper et nommer les colonnes en une seule fois? Un peu comme:

blubb <- aggregate( ... , cols = c("One", "Two"))

Il serait j'ai particulièrement aimé nice (et typo-proof) pour en quelque sorte attraper l'origine des noms de colonne et de faire comme:

blubb <- aggregate( ... , cols = c(name_of_dat$one, name_of_dat$two."_Mean"))

R les bibliothèques et les fonctions de suivre une grande variété de "styles". Lorsque je les regarde, collectivement, je vois peu de preuves de bonne programmation de l'API de dessin. J'adore ce que vous pouvez faire avec R, mais je déteste à quoi ressemble le code. Cette question est l'une des dizaines (ou des centaines) des exemples de R la folie.

InformationsquelleAutor | 2013-03-09

aggregate r rename

67

Vous pouvez utiliser setNames comme dans:
```
blubb <- setNames(aggregate(dat$two ~ dat$one, ...), c("One", "Two"))
```
Sinon, vous pouvez contourner la nappe méthode de la formule, et d'utiliser une syntaxe du type:
```
blubb <- aggregate(list(One = dat$one), list(Two = dat$two), ...)
```
Mise à jour

Cette mise à jour est de tout simplement vous aider à démarrer sur la dérivation d'une solution sur votre propre.

Si vous examinez le code pour stats:::aggregate.formula, vous verrez les lignes suivantes vers la fin:
```
if (is.matrix(mf[[1L]])) {
    lhs <- as.data.frame(mf[[1L]])
    names(lhs) <- as.character(m[[2L]][[2L]])[-1L]
    aggregate.data.frame(lhs, mf[-1L], FUN = FUN, ...)
}
else aggregate.data.frame(mf[1L], mf[-1L], FUN = FUN, ...)
```
Si tout ce que vous voulez faire est d'ajouter le nom de la fonction à la variable qui a été agrégées, peut-être que vous pouvez le changer pour quelque chose comme:
```
if (is.matrix(mf[[1L]])) {
  lhs <- as.data.frame(mf[[1L]])
  names(lhs) <- as.character(m[[2L]][[2L]])[-1L]
  myOut <- aggregate.data.frame(lhs, mf[-1L], FUN = FUN, ...)
  colnames(myOut) <- c(names(mf[-1L]), 
                       paste(names(lhs), deparse(substitute(FUN)), sep = "."))
}
else {
  myOut <- aggregate.data.frame(mf[1L], mf[-1L], FUN = FUN, ...)
  colnames(myOut) <- c(names(mf[-1L]), 
                       paste(strsplit(gsub("cbind\$|\$|\\s", "", 
                                           names(mf[1L])), ",")[[1]],
                             deparse(substitute(FUN)), sep = "."))
} 
myOut
```
Ce essentiellement de capture de la valeur entrée pour FUN en utilisant deparse(substitute(FUN)), de sorte que vous pouvez probablement modifier la fonction pour accepter un suffixe personnalisé, ou peut-être même un vecteur de suffixes. Cela peut probablement être améliorée un peu avec un peu de travail, mais je ne vais pas le faire!

Ici est un Résumé avec ce concept, la création d'une fonction nommée "myAgg".

Voici quelques exemple de sortie seulement de la colonne résultante noms:
```
> names(myAgg(weight ~ feed, data = chickwts, mean))
[1] "feed"        "weight.mean"
> names(myAgg(breaks ~ wool + tension, data = warpbreaks, sum))
[1] "wool"       "tension"    "breaks.sum"
> names(myAgg(weight ~ feed, data = chickwts, FUN = function(x) mean(x^2)))
[1] "feed"                         "weight.function(x) mean(x^2)"
```
Avis que seules les données agrégées de la variable nom de modifications. Mais remarquez aussi que si vous utilisez une fonction personnalisée, vous aurez une bien drôle de nom de colonne!
- Je vous remercie. Est-ce à dire qu'il est certainement impossible de mettre les noms de colonnes à l'intérieur de l'ensemble() entre parenthèses? Aussi, j'ai édité ma question, peut-être que vous avez d'autres idées sur la deuxième moitié de ma question.
- J'ai comme l'alternative 🙂
- Je vais regarder dans votre problème dans peu de temps. En attendant, jetez un oeil à ce wrapper autour de aggregate, qui ajoute la fonction appliquée à l'ensemble de la colonne nom. Je ne suis pas le poster dans ma réponse, car il n'limiter la fonctionnalité de aggregate un peu, et c'était juste écrit pour un projet sur lequel je travaillais.
- Il est également possible d'utiliser les noms sans liste(). blubb <- aggregate(One = dat$one, Two = dat$two, data=dat...)
- cela ne semble pas fonctionner pour moi, (2) comment cela fonctionne depuis plus d'un regroupement de variables, (3) pourquoi auriez-vous besoin dat$ si vous spécifiez data=dat (ce qui est un argument pour la formula méthode pour aggregate, pas la méthode que vous proposez ici). Si je suis absent quelque chose, faites-le moi savoir. Merci!
- Fin de commentaire, mais comment pourrais-je faire si j'ai par exemple blubb <- agrégation(un ~deux, FUN = function(x) c("moyenne" = mean(x), "médiane" = median(x))? Afin de multiples colonnes de sortie
InformationsquelleAutor A5C1D2H2I1M1N2O1R2T1
9

La réponse à votre première question est oui. Vous pouvez certainement inclure les noms de colonne dans la fonction d'agrégation. En utilisant le nom de votre exemple ci-dessus:

blubb <- aggregate(dat,list(One=dat$One,Two=dat$Two),sum)

J'aime bien la partie sur une éventuelle tirant sur l'origine des noms de colonne automatiquement. Si je l'ai trouver je vais le poster.
- Votre réponse est déjà dans ma réponse ci-dessus, à partir de nombreux mois plus tôt....
- Et comment voulez-vous changer le nom de la colonne que les résultats de la fonction sum? Maintenant, c'est juste x
- Je crois que vous pouvez simplement coller dans la liste des' partie de la fonction par exemple ...liste(Un = dat$Un, Deux = dat$Deux, MyResults = dat$x) ...
InformationsquelleAutor orville jackson

Dans le cas où vous visez plutôt l'écriture aggreagtes comme formula la documentation montre l'utilisation de cbind. Et cbind vous permet de nommer ses arguments, qui sont utilisés par aggregate.

blubb <- aggregate(cbind(Two = dat$two) ~ cbind(One = dat$one), ...)

Agrégation de plus d'une colonne de plus d'un groupement facteur qui pourrait être fait comme:

blubb <- aggregate(cbind(x = varX, y = varY, varZ) ~ cbind(a = facA) + cbind(b = facB) + facC, data=dat, FUN=sum)

et si vous voulez utiliser plus d'une fonction:

aggregate(cbind(cases=ncases, ncontrols) ~ cbind(alc=alcgp) + tobgp, data = esoph, FUN = function(x) c("mean" = mean(x), "median" = median(x)))

#   alc    tobgp cases.mean cases.median ncontrols.mean ncontrols.median
#1    1 0-9g/day  1.5000000    1.0000000      43.500000        47.000000
#2    2 0-9g/day  5.6666667    4.0000000      29.833333        34.500000
#...

qui ajoute à la colname l'utilisé globale de la fonction.

Mais cbind remplace factors par leurs codes internes. Pour éviter cela, vous pouvez utiliser:

with(esoph, aggregate(data.frame(cases=ncases, ncontrols), data.frame(alc=alcgp, tobgp), FUN = function(x) c("mean" = mean(x), "median" = median(x))))

#         alc    tobgp cases.mean cases.median ncontrols.mean ncontrols.median
#1  0-39g/day 0-9g/day  1.5000000    1.0000000      43.500000        47.000000
#2      40-79 0-9g/day  5.6666667    4.0000000      29.833333        34.500000
#...

InformationsquelleAutor GKi

-3

w <- data.frame(Funding<-"Fully Insured",Region="North East",claim_count=rnbinom(1000, 300.503572818, mu= 0.5739467))
x <- data.frame(Funding<-"Fully Insured",Region="South East",claim_count=rnbinom(1000, 1000, mu= 0.70000000))
y <- data.frame(Funding<-"Self Insured",Region="North East",claim_count=rnbinom(1000, 400, mu= 0.80000000))
z <- data.frame(Funding<-"Self Insured",Region="South East",claim_count=rnbinom(1000, 700, mu= 1.70000000))
names(w)<-c("Funding","Region","claim_count")
names(x)<-c("Funding","Region","claim_count")
names(y)<-c("Funding","Region","claim_count")
names(z)<-c("Funding","Region","claim_count")
my_df <- rbind(w,x,y,z)
my_df2<-with(my_df, aggregate(x=claim_count, by=list(Funding,Region), FUN=sum))
colnames(my_df2)<-colnames(my_df)

InformationsquelleAutor rwinkel2000

Vous devez vous connecter pour publier un commentaire.

Mise à jour