Répétez chaque ligne de données.cadre le nombre de fois spécifié dans une colonne

df <- data.frame(var1 = c('a', 'b', 'c'), var2 = c('d', 'e', 'f'),
                 freq = 1:3)

Quelle est la façon la plus simple de développer chaque ligne les deux premières colonnes de données.image ci-dessus, de sorte que chaque ligne est répétée le nombre de fois spécifié dans la colonne "fréquence"?

En d'autres termes, passer de ça:

df
  var1 var2 freq
1    a    d    1
2    b    e    2
3    c    f    3

À ceci:

df.expanded
  var1 var2
1    a    d
2    b    e
3    b    e
4    c    f
5    c    f
6    c    f

InformationsquelleAutor wkmor1 | 2010-05-24

dataframe r replicate

154

Voici une solution:
```
df.expanded <- df[rep(row.names(df), df$freq), 1:2]
```
Résultat:
```
    var1 var2
1      a    d
2      b    e
2.1    b    e
3      c    f
3.1    c    f
3.2    c    f
```
- Super! J'ai toujours oubliez pas que vous pouvez utiliser des crochets de cette façon. Je ne cesse de penser à l'indexation juste pour subsetting ou de réorganisation. J'ai eu une autre solution qui est beaucoup moins élégant et sans doute de moins en moins efficace. Je vais poster toute façon, alors que d'autres peuvent comparer.
- Pour les grandes data.frame plus efficace est de remplacer row.names(df) avec seq.int(1,nrow(df)) ou seq_len(nrow(df)).
- Cette travaillé fantastique pour un gros bloc de données -- 1,5 million de lignes, 5 cols, s'est très rapide. Merci!
- 1:2 dur les codes de la solution à cet exemple, 1:ncol(df) va travailler pour l'arbitraire d'un dataframe.
InformationsquelleAutor neilfws

vieille question, nouveau verbe dans tidyverse:

library(tidyr) # version >= 0.8.0
df <- data.frame(var1=c('a', 'b', 'c'), var2=c('d', 'e', 'f'), freq=1:3)
df %>% 
  uncount(freq)

    var1 var2
1      a    d
2      b    e
2.1    b    e
3      c    f
3.1    c    f
3.2    c    f

Merci pour tidyverse solution. De telles solutions généralement répondre aux critères de la "simple" et lisible.

InformationsquelleAutor einar

Utilisation expandRows() de la splitstackshape package:

library(splitstackshape)
expandRows(df, "freq")

Syntaxe Simple, très rapide, fonctionne sur data.frame ou data.table.

Résultat:

    var1 var2
1      a    d
2      b    e
2.1    b    e
3      c    f
3.1    c    f
3.2    c    f

InformationsquelleAutor Sam Firke

20

@neilfws la solution fonctionne très bien pour data.frames, mais pas pour data.tables puisqu'ils n'ont pas le row.names de la propriété. Cette approche fonctionne pour les deux:
```
df.expanded <- df[rep(seq(nrow(df)), df$freq), 1:2]
```
Le code pour data.table est un peu plus propre:
```
# convert to data.table by reference
setDT(df)
df.expanded <- df[rep(seq(.N), freq), !"freq"]
```
- une autre alternative: df[rep(seq(.N), freq)][, freq := NULL]
- une autre alternative df[rep(1:.N, freq)][, freq:=NULL]
InformationsquelleAutor Max Ghenis
3

Dans le cas où vous avez à faire cette opération sur de très gros volumes de données.images je recommanderais de le convertir en données.table et utiliser la suite, qui devrait courir beaucoup plus vite:
```
library(data.table)
dt <- data.table(df)
dt.expanded <- dt[ ,list(freq=rep(1,freq)),by=c("var1","var2")]
dt.expanded[ ,freq := NULL]
dt.expanded
```
Voir comment beaucoup plus rapide de cette solution est:
```
df <- data.frame(var1=1:2e3, var2=1:2e3, freq=1:2e3)
system.time(df.exp <- df[rep(row.names(df), df$freq), 1:2])
##    user  system elapsed 
##    4.57    0.00    4.56
dt <- data.table(df)
system.time(dt.expanded <- dt[ ,list(freq=rep(1,freq)),by=c("var1","var2")])
##    user  system elapsed 
##    0.05    0.01    0.06
```
- J'obtiens une erreur: Error in rep(1, freq) : invalid 'times' argument. Et étant donné qu'il existe déjà un ensemble de données.table de réponse à cette question, vous pouvez décrire comment votre approche est différente ou quand il est préférable que les données actuelles.table de réponse. Ou si il n'y a pas une grande différence, vous pouvez ajouter un commentaire à la réponse existant au lieu.
- Je vous remercie pour votre commentaire. Étrange, j'ai juste essayé de nouveau et je n'ai pas une telle erreur. Utilisez-vous l'origine dfde l'OP question? Ma réponse est mieux parce que l'autre réponse est le genre d'utilisation abusive de la data.table package à l'aide de data.frame la syntaxe, voir la FAQ de data.table: "Il est généralement une mauvaise pratique de faire référence aux colonnes par le nombre, plutôt que de nom."
- Merci pour l'explication. Votre code fonctionne pour moi sur l'échantillon df posté par l'OP, mais quand j'ai essayé de comparer cela à un plus grand nombre de données.cadre que j'ai eu cette erreur. Les données.image que j'ai utilisé était: set.seed(1) dfbig <- data.frame(var1=sample(letters, 1000, replace = TRUE), var2=sample(LETTERS, 1000, replace = TRUE), freq=sample(1:10, 1000, replace = TRUE)) Sur le minuscule données.le cadre, la réponse de la base n'bien dans mon comparative, il n'a tout simplement pas de l'échelle pour plus de données.les cadres. Les trois autres réponses a couru avec succès avec ce plus grand nombre de données.cadre.
- C'est en effet étrange, il devrait y travaillent trop et je ne sais pas pourquoi il ne le fait pas. Voulez-vous créer une question de il ou doit-je?
- Bonne idée. Pouvez-vous? Je ne sais pas data.table syntaxe, donc je ne devrais pas être le seul à en juger les réponses.
- Il l'a fait, donc nous allons voir ce qui vient dans... stackoverflow.com/questions/31276157/...
- Nous avons trouvé le problème, il était tout à fait une ride: stackoverflow.com/questions/31276157/...
- Laissez-nous continuer cette discussion dans le chat.
InformationsquelleAutor vonjd

Un autre dplyr alternative avec slice où nous répétons chaque numéro de ligne freq fois

library(dplyr)

df %>%  
  slice(rep(seq_len(n()), freq)) %>% 
  select(-freq)

#  var1 var2
#1    a    d
#2    b    e
#3    b    e
#4    c    f
#5    c    f
#6    c    f

seq_len(n()) partie peut être remplacée par une des méthodes suivantes.

df %>% slice(rep(1:nrow(df), freq)) %>% select(-freq)
#Or
df %>% slice(rep(row_number(), freq)) %>% select(-freq)
#Or
df %>% slice(rep(seq_len(nrow(.)), freq)) %>% select(-freq)

InformationsquelleAutor Ronak Shah

Une autre possibilité est d'utiliser tidyr::expand:

library(dplyr)
library(tidyr)

df %>% group_by_at(vars(-freq)) %>% expand(temp = 1:freq) %>% select(-temp)

#> # A tibble: 6 x 2
#> # Groups:   var1, var2 [3]
#>   var1  var2 
#>   <fct> <fct>
#> 1 a     d    
#> 2 b     e    
#> 3 b     e    
#> 4 c     f    
#> 5 c     f    
#> 6 c     f

One-liner version de vonjd réponse:

library(data.table)

setDT(df)[ ,list(freq=rep(1,freq)),by=c("var1","var2")][ ,freq := NULL][]

#>    var1 var2
#> 1:    a    d
#> 2:    b    e
#> 3:    b    e
#> 4:    c    f
#> 5:    c    f
#> 6:    c    f

^{Créé sur 2019-05-21 par le reprex paquet (v0.2.1)}

InformationsquelleAutor M--

Vous devez vous connecter pour publier un commentaire.