Échantillon de n lignes aléatoires par groupe, dans un dataframe

À partir de ces questions - Échantillon aléatoire de lignes de sous-ensemble de R dataframe & Échantillon aléatoire de lignes dans dataframe je peux facilement voir comment au hasard de l'échantillon (sélectionner) 'n' lignes à partir d'une df, ou 'n' lignes qui proviennent d'un niveau spécifique d'un facteur à l'intérieur d'une df.

Voici quelques exemples de données:

df <- data.frame(matrix(rnorm(80), nrow=40))
df$color <-  rep(c("blue", "red", "yellow", "pink"), each=10)

df[sample(nrow(df), 3), ] #samples 3 random rows from df, without replacement.

Pour par exemple un échantillon de 3 lignes aléatoires à partir de 'rose' de couleur à l'aide de library(kimisc):

library(kimisc)
sample.rows(subset(df, color == "pink"), 3)

ou de l'écriture de fonction personnalisée:

sample.df <- function(df, n) df[sample(nrow(df), n), , drop = FALSE]
sample.df(subset(df, color == "pink"), 3)

Cependant, je veux de l'échantillon 3 (ou n) lignes aléatoires de chaque niveau du facteur. I. e. le nouveau df aurait 12 lignes (de 3 bleues, 3 rouges, 3 jaunes, 3 de rose). Il est évidemment possible d'exécuter plusieurs fois, de créer newdfs pour chaque couleur, puis les lier ensemble, mais je suis à la recherche d'une solution plus simple.

Voir aussi Comment pensez-vous de l'échantillon aléatoire de lignes à l'intérieur de chaque groupe dans une data.table?

InformationsquelleAutor jalapic | 2014-05-23

dataframe r random sample

5

Vous pouvez attribuer un ID aléatoire à chaque élément qui a un facteur en particulier le niveau de l'aide ave. Ensuite, vous pouvez sélectionner tous les Id aléatoire dans une certaine plage.
```
rndid <- with(df, ave(X1, color, FUN=function(x) {sample.int(length(x))}))
df[rndid<=3,]
```
Cela a l'avantage de préserver la ligne d'origine de l'ordre et les noms de lignes si c'est quelque chose qui vous intéresse. De Plus, vous pouvez ré-utiliser le rndid vecteur de créer des sous-ensemble de différentes longueurs assez facilement.
- Les deux cette suggestion et l'autre réponse, les deux fonctionnent très bien. Je viens de vérifier deux choses sur le code ci-dessus. 1) la variable X1. Il n'importe quelle variable de la df est choisi ici? (il ne semble pas). 2) Dans la situation où le nombre d'observations dans les différents niveaux de facteur de varier et je souhaite retourner un sous-ensemble de lignes par niveau de facteur qui dépasse le montant total présent dans certains niveaux de facteur, que cette solution fonctionne toujours. c'est à dire si je demande 11 rangées par couleur, il sera de retour 10. Cela peut être utile dans mon réel des données lorsque l'obs/nombre de lignes par niveau de facteur de le faire varier.
- 1) Vous avez raison en ce qu'elle n'a pas vraiment d'importance variable qui vous passez le premier paramètre. Le passage d'un vecteur numérique a contribué à maintenir le résultat numérique. 2) Si vous demandez à 10 lignes (rndid<=10) et un groupe de seulement 3, toutes les trois lignes pour que le groupe sera retourné et pas de valeurs manquantes seront introduites ni d'échantillonnage être fait avec le remplacement. Donc, vous pouvez vous retrouver avec déséquilibrée groupes.
- je vous remercie. Je n'ai pas l'esprit à propos de l'inégalité des groupes dans ce contexte, donc, qui fonctionne parfaitement.
- Je veux satisfaire à la taille de l'échantillon condition de test de chi carré, donc j'ai besoin d'exemple de at least 5 cas dans chaque groupe, comment puis-je faire cela à l'aide de votre solution?
InformationsquelleAutor MrFlick
27

Dans les versions de dplyr 0,3 et plus tard, cela fonctionne bien:
```
df %>% group_by(color) %>% sample_n(size = 3)
```
Les anciennes versions de dplyr (version <= 0.2)

J'ai décidé de répondre à cette aide dplyr, en supposant que ce serait le travail:
```
df %.% group_by(color) %.% sample_n(size = 3)
```
Mais il s'avère que dans 0,2 sample_n.grouped_df S3 méthode existe, mais n'est pas enregistré dans l'espace de NOMS de fichiers, de sorte qu'il n'est jamais distribué. Au lieu de cela, j'ai dû le faire:
```
df %.% group_by(color) %.% dplyr:::sample_n.grouped_df(size = 3)
Source: local data frame [12 x 3]
Groups: color

            X1         X2  color
8   0.66152710 -0.7767473   blue
1  -0.70293752 -0.2372700   blue
2  -0.46691793 -0.4382669   blue
32 -0.47547565 -1.0179842   pink
31 -0.15254540 -0.6149726   pink
39  0.08135292 -0.2141423   pink
15  0.47721644 -1.5033192    red
16  1.26160230  1.1202527    red
12 -2.18431919  0.2370912    red
24  0.10493757  1.4065835 yellow
21 -0.03950873 -1.1582658 yellow
28 -2.15872261 -1.5499822 yellow
```
Vraisemblablement ce sera corrigé dans une future mise à jour.
- Quelle est la version de dplyr utilisez-vous? Est-ce tronc?
- J'ai essayé les deux 0.2 sur cran, puis installé à partir de github; même chose.
- dans dplyr 0.3 cela fonctionne comme un charme. C'est ma façon préférée de faire le problème ci-dessus maintenant.
- Quelqu'un peut-il expliquer comment cela fonctionne sur le plan conceptuel? Ne sample_n() regarder en arrière pour voir si un group_by() a été appliquée.
- Le tuyau %>% transmet les résultats de chaque étape de l'avant à la fonction suivante, donc il n'y a pas besoin de "regarder en arrière". Exécuter x <- mtcars %>% group_by(cyl) et puis commencer à x. Vous verrez qu'il a une nouvelle attributs de classe, avec beaucoup d'autres (attributes(x)), de sorte que toute fonction ultérieure "sait" qu'il ne traite qu'avec des données groupées cadre.
- Alors que beaucoup de l'autre dplyr fonctions auront S3 méthodes spécifiques pour grouped_df objets. Voir methods(sample_n).
InformationsquelleAutor joran
7

Je considère mon stratifié function, qui est actuellement hébergé comme un GitHub Gist.

L'obtenir avec:
```
library(devtools)  ## To download "stratified"
source_gist("https://gist.github.com/mrdwab/6424112")
```
Et l'utiliser avec:
```
stratified(df, "color", 3)
```
Il y a plusieurs différentes fonctionnalités qui sont utiles pour l'échantillonnage stratifié. Par exemple, vous pouvez également prendre un échantillon sorte de "à la volée".
```
stratified(df, "color", 3, select = list(color = c("blue", "red")))
```
Pour vous donner une idée de ce que la fonction n', voici les arguments pour stratified:
- df: L'entrée data.frame
- group: Un caractère vectoriel de la ou les colonnes qui composent la "strates".
- size: Échantillon d'une taille.
  - Si size est une valeur inférieure à 1, une quote-prélèvement de l'échantillon de chaque strate.
  - Si size est un entier de 1 ou plus, le nombre d'échantillons prélevés à partir de chaque strate.
  - Si size est un vecteur d'entiers, le nombre spécifié d'échantillons est prise pour chaque strate. Il est recommandé que vous utilisez un nommé vecteur. Par exemple, si vous avez deux strates, "A" et "B", et que vous vouliez 5 échantillons "A" et 10 "B", vous devez entrer size = c(A = 5, B = 10).
- select: Cela vous permet de créer un sous-ensemble des groupes dans le processus d'échantillonnage. C'est un list. Par exemple, si votre group variable "Groupe", et il contenait trois strates, "A", "B" et "C", mais vous ne voulait échantillon de "A" et "C", vous pouvez utiliser select = list(Group = c("A", "C")).
- replace: Pour l'échantillonnage avec remplacement.
- c'est une belle petite fonction très utile
- Gentil et serviable. Il semble que dans certaines versions, il y a un bug dans le source_gist fonction, ce qui génère une erreur. J'ai utilisé une solution de contournement comme ceci: source_gist("https://gist.github.com/mrdwab/6424112", filename = "stratified.R")
InformationsquelleAutor A5C1D2H2I1M1N2O1R2T1
6

Voici une solution. Nous nous sommes séparés d'un ensemble de données.cadre dans les groupes de couleur. Puis nous avons échantillon de 3 lignes de chaque groupe. Cela donne une liste de données.les cadres.
```
df2 <- lapply(split(df, df$color),
   function(subdf) subdf[sample(1:nrow(subdf), 3),]
)
```
À obtenir le résultat souhaité, nous fusionner la liste de données.des images dans 1 de données.cadre:
```
do.call('rbind', df2)
##                    X1          X2  color
## blue.3    -1.22677188  1.25648082   blue
## blue.4    -0.54516686 -1.94342967   blue
## blue.1     0.44647071  0.16283326   blue
## pink.40    0.23520296 -0.40411906   pink
## pink.34    0.02033939 -0.32321309   pink
## pink.33   -1.01790533 -1.22618575   pink
## red.16     1.86545895  1.11691250    red
## red.11     1.35748078 -0.36044728    red
## red.13    -0.02425645  0.85335279    red
## yellow.21  1.96728782 -1.81388110 yellow
## yellow.25 -0.48084967  0.07865186 yellow
## yellow.24 -0.07056236 -0.28514125 yellow
```
- je veux choisir différentes taille de l'échantillon pour groupwise?
- par exemple ici 3 est fixé pour chaque groupe, mais je veux des valeurs différentes pour le groupe de sages
- comme pour blue j'ai besoin de 2 ,pink j'ai besoin de 1,red j'ai besoin de 5,enfin pour yellow j'ai besoin de 3.
- - je remplacer la 3 avec c(2,1,5,3), mais il considère le premier élément que j'ai.e,2
InformationsquelleAutor gagolews
0

Ici est une façon, à la base, qui permet de multiples groupes et d'échantillonnage avec remplacement:
```
n <- 3
resample <- TRUE
index <- 1:nrow(df)
fun <- function(x) sample(x, n, replace = resample)
a <- aggregate(index, by = list(group = df$color), FUN = fun )

df[c(a$x),]
```
Pour ajouter un autre groupe, de l'inclure dans les "par des' argument de l'agrégat.

InformationsquelleAutor user3357177

Vous devez vous connecter pour publier un commentaire.

Les anciennes versions de dplyr (version <= 0.2)

Les anciennes versions de `dplyr` (version <= 0.2)