Échantillon aléatoire de lignes à l'intérieur de chaque groupe de données.table

Comment voudriez-vous d'utiliser les données.tableau efficacement prendre un échantillon de lignes à l'intérieur de chaque groupe dans un bloc de données?

DT = data.table(a = sample(1:2), b = sample(1:1000,20))
DT
    a   b
 1: 2 562
 2: 1 183
 3: 2 180
 4: 1 874
 5: 2 533
 6: 1  21
 7: 2  57
 8: 1  20
 9: 2  39
10: 1 948
11: 2 799
12: 1 893
13: 2 993
14: 1  69
15: 2 906
16: 1 347
17: 2 969
18: 1 130
19: 2 118
20: 1 732

Je pensais à quelque chose comme: DT[ , sample(??, 3), by = a] qui permettrait le retour d'un échantillon de trois lignes pour chaque "un" (l'ordre des lignes renvoyées n'est pas significatif):

InformationsquelleAutor Christopher Manning | 2013-04-29

data.table r

43

Peut-être quelque chose comme ça?
```
> DT[,.SD[sample(.N, min(3,.N))],by = a]
   a   b
1: 1 744
2: 1 497
3: 1 167
4: 2 888
5: 2 950
6: 2 343
```
(Merci à Josh pour la correction ci-dessous).
- C'est identique dans ce cas: DT[, sample(b, 3), by=a] (sauf pour les noms)
- bon oeil. Qui serait à l'œuvre dans ma apparemment simpliste exemple, mais dans la pratique, je veux retourner toute la ligne comme joran la réponse ne.
- Je suis juste deviner, mais (si cela est vraiment nécessaire), dans certains cas, cela pourrait être plus rapide: DT[DT[, sample(.I, 3), by=a][[2]],]. (sample(.I,3) échantillons de numéros de ligne par rapport à DT). Cet appel de l'avantage, c'est qu'elle n'exige pas que chaque sous-ensemble .SD être entièrement peuplée que l'appel est traité.
- Merci pour l'aide! J'ai aussi découvert que je peux utiliser un if instruction conditionnelle, modifier le nombre d'échantillons retournée pour chaque groupe basé sur la valeur de a: DT[,.SD[sample(.N, if(a == 1) 2 else 3)],by = a]
- J'essaie de comprendre certains comportements de votre solution. Je pense que l'application de sample sur .I quand il arrive que le regroupement des rendements de seulement une ligne peut donner des résultats inattendus. Dans de tels cas .I ne contient qu'un nombre entier (de la position de ligne en DT) et sample se comporte différemment que lorsque nourris avec un vecteur. Le soltunion DT[DT[ , .I[sample(.N,3)] , by = a]$V1] proposé here par @akrun pourrait le réparer.
- Bon point. Votre commentaire m'a aussi permis de constater qu'il y avait une faille dans la réponse originale à cette question, ce qui serait un échec pour tous les groupes de moins de trois lignes. (Essayez sample(2,3) pour voir ce que je veux dire.) J'ai corrigé maintenant, à l'aide d'un correctif qui devrait probablement être appliquée à la solution proposée. Merci pour votre commentaire!
- Salut Joran. Désolé -- en quelque sorte, je suis allé de l'avant et de la modification de votre réponse, pensant qu'il avait été mon propre, et seulement maintenant remarqué qu'il n'était pas! Quitte à la modifier en place pour l'instant, cependant, de sorte que vous pouvez conserver ou restaurer comme bon vous semble...
- Pas de problème!
InformationsquelleAutor joran
8

Je crois joran de réponse peut être plus généralisée. Les détails sont ici (Comment pensez-vous de l'échantillon des groupes dans les données.tableau avec une mise en garde) mais je pense que cette solution de comptes pour les cas où il n'y a pas de "3" lignes de échantillon de.

La situation actuelle sera d'erreur lorsqu'il tente de l'échantillon "x" fois à partir de lignes qui ont moins de "x" valeurs communes. Dans le cas ci-dessous, x=3. Et il tient compte de cette mise en garde. (Solution fait par nrussell)
```
set.seed(123)
##
DT <- data.table(
  a=c(1,1,1,1:15,1,1), 
  b=sample(1:1000,20))
##
R> DT[,.SD[sample(.N,min(.N,3))],by = a]
     a   b
 1:  1 288
 2:  1 881
 3:  1 409
 4:  2 937
 5:  3  46
 6:  4 525
 7:  5 887
 8:  6 548
 9:  7 453
10:  8 948
11:  9 449
12: 10 670
13: 11 566
14: 12 102
15: 13 993
16: 14 243
17: 15  42
```
InformationsquelleAutor road_to_quantdom
2

Inspiré par cette réponse par David Arenburg, une autre méthode pour éviter le .SD allocation serait de l'échantillon les groupes, puis rejoindre à l'arrière sur les données d'origine à l'aide de .EACHI
```
DT[ DT[, sample(.N, 3), by=a], b[i.V1], on="a", by=.EACHI]

#    a  V1
# 1: 2  42
# 2: 2 498
# 3: 2 179
# 4: 1 469
# 5: 1  93
# 6: 1 898
```
où la DT[, sample(.N, 3), by=a] ligne nous donne un échantillon pour chaque groupe
```
#         a V1
# 1:      1  9
# 2:      1  3
# 3:      1  2
# 4:      2  4
# 5:      2  9
# ---          
```
de sorte que nous pouvons utiliser V1 pour nous donner la b il correspond.

InformationsquelleAutor SymbolixAU

l'échantillonnage Stratifié > suréchantillonnage

size=don[y==1,.(strata=length(iden)),by=.(y,x)] # count of iden by strata   
table(don$x,don$y) 

don<-merge(don,size[,.(y,strata)],by="x") #merge strata values  
don_strata=don[,.SD[sample(.N,strata)],by=.(y,x)]

InformationsquelleAutor Marimono

Vous devez vous connecter pour publier un commentaire.