Comment les données du groupe.tableau sur plusieurs colonnes?

Je suis en utilisant le data.table paquet pour accélérer certains résumé de la collecte de statistiques sur un ensemble de données.

Je suis curieux de savoir si il existe un moyen pour le groupe de plus d'une colonne. Mes données ressemble à ceci:

  purchaseAmt        adShown        url
   15.54            00001         150000001
    4.82            00002         150000001
  157.99            05005         776300044
   ...               ...            ...

Je peux faire quelque chose comme ceci:

adShownMedian <- df1[,median(purchaseAmt),by="adShown"]

pour obtenir à chaque annonce de la médiane. Comment pourrais-je faire quelque chose qui combine adShown et url?

J'ai essayé ceci:

adShownMedian <- df1[,median(purchaseAmt),by=c("adShown","url")]

mais pas de chance.

Des suggestions?

Quelle est la version de data.table utilisez-vous? Je suis assez certain que la version 1.8.2 vous permet de passer un caractère de vecteur de noms de colonne de la by argument.
Exactement. Une (très) vieille version des données.table, ou il y avait une autre erreur. ?data.table dit: "by - Un seul non cotées nom de la colonne, une liste() des expressions de la colonne de noms, une seule chaîne de caractères contenant séparés par des virgules de noms de colonnes, ou un caractère de vecteur de noms de colonne." Donc c("adShown","url") doit être fine, ou "adShown,url", ou list(adShown,url).
Bonne prise, je suis encore de retour sur l'1.8.

InformationsquelleAutor screechOwl | 2012-09-18

77

Utilisation by=list(adShown,url) au lieu de by=c("adShown","url")

Exemple:
```
set.seed(007) 
DF <- data.frame(X=1:20, Y=sample(c(0,1), 20, TRUE), Z=sample(0:5, 20, TRUE))

library(data.table)
DT <- data.table(DF)
DT[, Mean:=mean(X), by=list(Y, Z)]


     X Y Z      Mean
 1:  1 1 3  1.000000
 2:  2 0 1  9.333333
 3:  3 0 5  7.400000
 4:  4 0 5  7.400000
 5:  5 0 5  7.400000
 6:  6 1 0  6.000000
 7:  7 0 3  7.000000
 8:  8 1 2 12.500000
 9:  9 0 5  7.400000
10: 10 0 2 15.000000
11: 11 0 4 14.500000
12: 12 0 1  9.333333
13: 13 1 1 13.000000
14: 14 0 1  9.333333
15: 15 0 2 15.000000
16: 16 0 5  7.400000
17: 17 1 2 12.500000
18: 18 0 4 14.500000
19: 19 1 5 19.000000
20: 20 0 2 15.000000
```
- Mais by=c("adShown","url") doit être fine, trop. +1 de toute façon.
- Est-il possible d'afficher uniquement les données d' Y, Z et Mean colonnes, tout comme aggregate œuvres?
- aussi loin que je peux dire, avec list vous n'avez pas besoin de citer les noms comme vous le faites avec des vecteurs c(), ce qui est plutôt intéressant.
- Ainsi, lorsque vous êtes regroupement par Y et Z, il doit apparaître une seule fois dans DT. Par exemple, vous devriez avoir une seule ligne lorsque Y=0, Z=5 et Moyenne=7.40. Cependant, vous avez cinq de ces dans votre DT. Suis-je manqué quelque chose?
- Merci pour l'astuce! Avec cette astuce, vous pouvez aussi groupe par l'expression, ce qui est assez pratique.
- Si vous avez juste mean(X) puis vous avez raison, mais avec Mean:=mean(X) vous assignez les résultats groupés dans une nouvelle colonne. Donc, il est toujours 7.40, mais la valeur est copiée à toutes les lignes.
- voter pour set.seed(007)
- Aussi par=.(adShown,url)
- que faire si je veux globale basée sur les colonnes contenues dans un tableau de caractères? Dans ce cas, il serait mycols = c('adShown', 'url') Il semble ne pas fonctionner
- Que faire si vous ne voulez pas coder en dur les colonnes, et au lieu de cela ils ont été à partir d'un vecteur x=c ("adShown', 'url'), comment pourrions-nous être en mesure de grouper les noms de x?
InformationsquelleAutor Jilber Urbina

Vous devez vous connecter pour publier un commentaire.