Groupe/bin/seau de données dans R et obtenir comte par seau et la somme des valeurs par seau

Je souhaite seau/groupe/bin données :

C1             C2       C3
49488.01172    0.0512   54000
268221.1563    0.0128   34399
34775.96094    0.0128   54444
13046.98047    0.07241  61000
2121699.75     0.00453  78921
71155.09375    0.0181   13794
1369809.875    0.00453  12312
750            0.2048   43451
44943.82813    0.0362   49871
85585.04688    0.0362   18947
31090.10938    0.0362   13401
68550.40625    0.0181   14345

Je veux seau en C2 valeurs, mais je tiens à définir les seaux par exemple <=0.005, <=.010, <=.014 etc. Comme vous pouvez le voir, l'écopage seront des intervalles irréguliers. Je veux le comte de C1 par seau ainsi que la somme totale de la C1 pour chaque seau.

Je ne sais pas par où commencer car je suis assez nouveau à un utilisateur de R. Est-ce que quelqu'un prêt à m'aider à comprendre le code ou directement à moi pour un exemple qui va travailler pour mes besoins?

EDIT: ajout d'une autre colonne C3. J'ai besoin de la somme de C3 par seau ainsi en même temps que somme et le nombre de C1 par seau

En général, lorsque vous traversez post il est considéré comme poli de laisser les gens savent que vous avez fait jusqu' talkstats.com/showthread.php/...
Merci Tyler, ce sont deux sites différents, donc je n'aurais pas pensé qu'il soit nécessaire
Avez-vous stilll souhaitez utiliser C2 que le regroupement de la variable?
Oui, C2 reste le regroupement de la variable
grâce akrun, intéressant de voir comment R est le traitement de la faire.instruction d'appel global. Maintenant que vous avez deux variables C1 et C3 être regroupées, le PLAISIR est toujours à l'aide d'un seul opérateur X au lieu de deux, pour les C1 et C3. Qu'est-ce que la logique ici?

OriginalL'auteur Freewill | 2015-01-04

12

Les commentaires, "C2" semble être le "caractère" de la colonne avec % comme suffixe. Avant, la création d'un groupe, supprimer la % à l'aide de sub, de les convertir en "numérique" (as.numeric). La variable "groupe" est créé (transform(df,...)) à l'aide de la fonction cut avec breaks (groupe seaux/intervalles) et labels (pour les étiquettes de groupe) des arguments. Une fois la variable de groupe est créé, le sum de la "C1" par "groupe" et le "nombre" d'éléments dans "groupe" peut être réalisé à l'aide de aggregate de base "R"
```
df1 <-  transform(df, group=cut(as.numeric(sub('[%]', '', C2)), 
    breaks=c(-Inf,0.005, 0.010, 0.014, Inf),
      labels=c('<0.005', 0.005, 0.01, 0.014)))

 res <- do.call(data.frame,aggregate(C1~group, df1, 
        FUN=function(x) c(Count=length(x), Sum=sum(x))))

 dNew <- data.frame(group=levels(df1$group))
 merge(res, dNew, all=TRUE)
 #   group C1.Count    C1.Sum
 #1 <0.005        2 3491509.6
 #2  0.005       NA        NA
 #3   0.01        2  302997.1
 #4  0.014        8  364609.5
```
ou vous pouvez utiliser data.table. setDT convertit le data.frame à data.table. Spécifier le "regroupement" variable avec by= et de résumer/créer les deux variables "Nombre" et "Somme" dans le list(. .N donne le nombre d'éléments à l'intérieur de chaque "groupe".
```
 library(data.table)
  setDT(df1)[, list(Count=.N, Sum=sum(C1)), by=group][]
```
Ou à l'aide de dplyr. Le %>% connecter le LHS avec RHS des arguments et des chaînes d'ensemble. Utilisation group_by pour spécifier le "groupe" est variable, et ensuite utiliser summarise_each ou summarise pour obtenir résumé comte et sum de la colonne concernée. summarise_each serait utile si il y a plus d'une colonne.
```
 library(dplyr)
 df1 %>%
      group_by(group) %>% 
      summarise_each(funs(n(), Sum=sum(.)), C1)
```
Mise à jour

En utilisant le nouveau dataset df
```
df1 <- transform(df, group=cut(C2,  breaks=c(-Inf,0.005, 0.010, 0.014, Inf),
                             labels=c('<0.005', 0.005, 0.01, 0.014)))

res <- do.call(data.frame,aggregate(cbind(C1,C3)~group, df1, 
       FUN=function(x) c(Count=length(x), Sum=sum(x))))
res
#  group C1.Count    C1.Sum C3.Count C3.Sum
#1 <0.005        2 3491509.6        2  91233
#2   0.01        2  302997.1        2  88843
#3  0.014        8  364609.5        8 268809
```
et vous pouvez faire de merge comme détaillé ci-dessus.

La dplyr approche serait la même à l'exception de la spécification de la variable supplémentaire
```
 df1%>%
      group_by(group) %>%
       summarise_each(funs(n(), Sum=sum(.)), C1, C3)
 #Source: local data frame [3 x 5]

 #  group C1_n C3_n    C1_Sum C3_Sum
 #1 <0.005    2    2 3491509.6  91233
 #2   0.01    2    2  302997.1  88843
 #3  0.014    8    8  364609.5 268809
```
de données
```
df <-structure(list(C1 = c(49488.01172, 268221.1563, 34775.96094, 
13046.98047, 2121699.75, 71155.09375, 1369809.875, 750, 44943.82813, 
85585.04688, 31090.10938, 68550.40625), C2 = c("0.0512%", "0.0128%", 
"0.0128%", "0.07241%", "0.00453%", "0.0181%", "0.00453%", "0.2048%", 
"0.0362%", "0.0362%", "0.0362%", "0.0181%")), .Names = c("C1", 
"C2"), row.names = c(NA, -12L), class = "data.frame")
```
Grâce akrun, je suis aussi en train d'essayer de comprendre la logique/sens du code que vous avez fournis. J'ai trouvé la première, plus simple que les deux autres à comprendre. Est-il une ressource (livre/site web) que je peux suivre à travers sur ces 3 suggestions pour comprendre ce qui se passe et peut-être voir un exemple ou deux?
Merci, j'ai juste essayé la première suggestion. C2 est en fait en pourcentage, donc quand j'ai mis % à la signature, dans des pauses=c(-Inf,0.005%,0.10%,0.014%,Inf), j'obtiens une erreur. Il fonctionne si % signe n'est pas utilisé. Aussi, après binning j'ai besoin de tracer ces données pour un histogramme. Comment puis-je représenter les catégories par exemple, l'un avec <=0.05 sera de 0,05, de <= .10 sera .10 etc.
c'est exact, akrun
akrun, merci. J'ai essayé le premier code et il semblait avoir fonctionné. Je vais vérifier la sortie de nouveau. Une chose que j'ai remarqué qu'elle fait est que si il n'y a pas de valeurs pour un bac, il omet que bin à partir de la sortie. J'aimerais avoir toutes les corbeilles, indépendamment de savoir si il existe des valeurs ou pas.
Vous pouvez créer un nouvel ensemble de données avec tous les niveaux de l'groupes et merge avec le res. J'ai mis à jour le code. Si cela fonctionne, veuillez envisager d'accepter la solution en cliquant sur la coche.

OriginalL'auteur akrun

Vous devez vous connecter pour publier un commentaire.

Mise à jour

de données