À l'aide de propagation avec les mêmes identifiants pour les lignes

J'ai un dataframe qui ont plusieurs entrées pour le même jour et par personne.

jj <- data.frame(month=rep(1:3,4),
             student=rep(c("Amy", "Bob"), each=6),
             A=c(9, 7, 6, 8, 6, 9, 3, 2, 1, 5, 6, 5),
             B=c(6, 7, 8, 5, 6, 7, 5, 4, 6, 3, 1, 5))

Je veux convertir à l'échelle, la forme et le faire comme ça:

month Amy.A Bob.A Amy.B Bob.B
1     
2     
3
1
2
3
1
2
3
1
2
3

Ma question est très similaire à cette. J'ai utilisé le code donné dans la réponse :

kk <- jj %>% 
  gather(variable, value, -(month:student)) %>% 
  unite(temp, student, variable) %>% 
  spread(temp, value)

mais il donne l'erreur suivante:

Erreur: Duplicate identificateurs pour les lignes (1, 4), (2, 5), (3, 6), (13, 16), (14, 17), (15, 18), (7, 10), (8, 11), (9, 12), (19, 22), (20, 23), (21, 24)

Merci à l'avance.
Note: je ne veux pas supprimer plusieurs entrées.

La sortie ne fait pas de sens. Comment est Bob.B 5 6 7. Il y a deux Bob valeurs de B pour le mois 1, 5 3? Et pour le mois 2, il est 4 and 2. Enfin, pour les mois à 3 6 5. Résumé de ces à une valeur.

InformationsquelleAutor Polar Bear | 2016-08-20

dplyr r tidyr

21

La question, les deux colonnes pour les deux A et B. Si nous pouvons le faire qu'une valeur de la colonne, nous pouvons répartir les données que vous le souhaitez. Jetez un oeil à la sortie de jj_melt lorsque vous utilisez le code ci-dessous.
```
library(reshape2)
jj_melt <- melt(jj, id=c("month", "student"))
jj_spread <- dcast(jj_melt, month ~ student + variable, value.var="value", fun=sum)
#   month Amy_A Amy_B Bob_A Bob_B
# 1     1    17    11     8     8
# 2     2    13    13     8     5
# 3     3    15    15     6    11
```
Je ne marque pas cela comme un doublon puisque la question n'a pas résumer par sum, mais le data.table réponse pourrait aider avec un argument supplémentaire, fun=sum:
```
library(data.table)
dcast(setDT(jj), month ~ student, value.var=c("A", "B"), fun=sum)
#    month A_sum_Amy A_sum_Bob B_sum_Amy B_sum_Bob
# 1:     1        17         8        11         8
# 2:     2        13         8        13         5
# 3:     3        15         6        15        11
```
Si vous souhaitez utiliser le tidyr solution, les combiner avec d' dcast résumer par sum.
```
as.data.frame(jj)
library(tidyr)
jj %>% 
  gather(variable, value, -(month:student)) %>%
  unite(temp, student, variable) %>%
  dcast(month ~ temp, fun=sum)
#   month Amy_A Amy_B Bob_A Bob_B
# 1     1    17    11     8     8
# 2     2    13    13     8     5
# 3     3    15    15     6    11
```
Modifier

Basé sur vos exigences nouvelles, j'ai ajouté une colonne activité.
```
library(dplyr)
jj %>% group_by(month, student) %>% 
  mutate(id=1:n()) %>%
  melt(id=c("month", "id", "student")) %>%
  dcast(... ~ student + variable, value.var="value")
#   month id Amy_A Amy_B Bob_A Bob_B
# 1     1  1     9     6     3     5
# 2     1  2     8     5     5     3
# 3     2  1     7     7     2     4
# 4     2  2     6     6     6     1
# 5     3  1     6     8     1     6
# 6     3  2     9     7     5     5
```
Les autres solutions peuvent également être utilisés. Ici j'ai ajouté une expression en option pour organiser la sortie finale par activité nombre:
```
library(tidyr)
jj %>% 
  gather(variable, value, -(month:student)) %>%
  unite(temp, student, variable) %>%
  group_by(temp) %>%
  mutate(id=1:n()) %>%
  dcast(... ~ temp) %>%
  arrange(id)
#   month id Amy_A Amy_B Bob_A Bob_B
# 1     1  1     9     6     3     5
# 2     2  2     7     7     2     4
# 3     3  3     6     8     1     6
# 4     1  4     8     5     5     3
# 5     2  5     6     6     6     1
# 6     3  6     9     7     5     5
```
La data.table syntaxe est compact, car il permet de multiples value.var colonnes et prendra soin de la propagation pour nous. Nous pouvons donc ignorer la melt -> cast processus.
```
library(data.table)
setDT(jj)[, activityID := rowid(student)]
dcast(jj, ... ~ student, value.var=c("A", "B"))
#    month activityID A_Amy A_Bob B_Amy B_Bob
# 1:     1          1     9     3     6     5
# 2:     1          4     8     5     5     3
# 3:     2          2     7     2     7     4
# 4:     2          5     6     6     6     1
# 5:     3          3     6     1     8     6
# 6:     3          6     9     5     7     5
```
- Merci de répondre. Je ne veux pas la somme. Pas de arithmatical opération est nécessaire. Je veux créer Un et B colonnes pour Amy, et A et B des colonnes pour Bob qui n'ont tout simplement leurs valeurs respectives.
- Si il y a deux valeurs pour le même mois, des étudiants, et de la classe, qui aimeriez-vous choisir?
- Je veux à la fois. En fait, je fais affaire avec d'offre et de demande de données et par conséquent il y a plusieurs entrées.
- Si vous n'êtes pas résumant par les variables en question. Vous voulez une nouvelle variable qui peuvent agir comme un id d'activité. Aussi, ne pas utiliser des extraits de code dans votre question. Ils ne fonctionnent pas et que la sortie est mélangé. Il suffit de sélectionner votre code, collez, mettez en surbrillance et utilisez les touches Ctrl+K pour l'indentation du code format lisible.
- Peut-être une nouvelle id d'activité vairable faire le travail. Je n'ai aucune idée. Il serait très aimable de votre part si vous pouvez aller à travers liés à la question que j'ai posté dans la question. Ma sortie doit être la même. La seule différence est double date de lignes pour la même personne avec des valeurs différentes de toutes les autres colonnes.
- Je vous remercie beaucoup. Pourriez-vous nous expliquer le tidyr code spécialement dcast(...~ temp) de la partie?
- Nous aurions pu utiliser dcast(month + id ~ temp, value.var="value"). Nous avons utilisé quelques astuces pour la raccourcir. Les trois petits points (toutes les autres colonnes) fait en sorte que nous n'aurions pas à écrire month + id et nous n'avons pas eu à écrire value.var="value" parce que la fonction va deviner la valeur de la colonne à l'aide de la dernière colonne.
InformationsquelleAutor Pierre Lafortune

Votre réponse manquait muter id! Voici la solution à l'aide de dplyr packge seulement.

jj %>% 
  gather(variable, value, -(month:student)) %>% 
  unite(temp, student, variable) %>% 
  group_by(temp) %>% 
  mutate(id=1:n()) %>% 
  spread(temp, value) 
#  A tibble: 6 x 6
#  month    id Amy_A Amy_B Bob_A Bob_B
# * <int> <int> <dbl> <dbl> <dbl> <dbl>
# 1     1     1     9     6     3     5
# 2     1     4     8     5     5     3
# 3     2     2     7     7     2     4
# 4     2     5     6     6     6     1
# 5     3     3     6     8     1     6
# 6     3     6     9     7     5     5

Si vous ne voulez pas le id de la colonne, il suffit d'ajouter %>% select(-id) à la fin.
C'est un bon truc. Élargir brièvement: si vous ne disposez pas d'un id unique pour chaque ligne avant de recueillir, il n'est pas possible de déterminer les valeurs qui appartiennent à laquelle des observations lors de l'épandage. Ajouter toutes les colonnes qui agit comme une clé primaire permet d'atténuer cette.

InformationsquelleAutor aliawadh980

-1
```
gather(data, key = "key", value = "value", ..., na.rm = FALSE,
  convert = FALSE, factor_key = FALSE)
```
De vérifier si vous avez inversé la clé et la valeur. "Clé" est le nom de la nouvelle clé et la "valeur" est la valeur réelle.

InformationsquelleAutor Diya Abraham

Vous devez vous connecter pour publier un commentaire.