Comment rendre aléatoire (ou permuter) un dataframe rowwise et columnwise?

J'ai un dataframe (df1) comme ceci.

     f1   f2   f3   f4   f5
d1   1    0    1    1    1  
d2   1    0    0    1    0
d3   0    0    0    1    1
d4   0    1    0    0    1

La d1...d4 colonne est la rowname, la f1...f5 ligne est columnname.

À faire de l'échantillon(df1), je reçois un nouveau dataframe avec le comte de 1 même que df1. Ainsi, le nombre de 1 est conservée pour l'ensemble du dataframe, mais pas pour chaque ligne ou chaque colonne.

Est-il possible de faire la randomisation de la ligne ou de la colonne sage?

Je veux rendre aléatoire le df1 les colonnes pour chaque colonne, c'est à dire le nombre de 1 dans chaque colonne reste le même. et chaque colonne doivent être changés au moins une fois. Par exemple, j'ai peut-être une étude randomisée df2 comme ceci: (a Noté que le nombre de 1 dans chaque colonne reste le même, mais le nombre de 1 dans chaque ligne est différente.

     f1   f2   f3   f4   f5
d1   1    0    0    0    1  
d2   0    1    0    1    1
d3   1    0    0    1    1
d4   0    0    1    1    0

De même, je tiens également à rendre aléatoire le df1 ligne sage pour chaque ligne, c'est à dire le pas. de 1 dans chaque ligne reste la même, et chaque ligne besoin d'être changé (mais pas de changé les entrées peuvent être différents). Par exemple, une étude randomisée df3 pourrait être quelque chose comme ceci:

     f1   f2   f3   f4   f5
d1   0    1    1    1    1  <- two entries are different
d2   0    0    1    0    1  <- four entries are different
d3   1    0    0    0    1  <- two entries are different
d4   0    0    1    0    1  <- two entries are different

PS. Merci beaucoup pour l'aide à partir de Gavin Simpson, Joris Meys et de la chasse pour les réponses à ma question précédente sur la randomisation des deux colonnes.

vous voulez permuter les lignes et les colonnes en même temps. En relisant cela, il semble que la contrainte de colonne (même nombre de 1 dans chaque colonne) ne tient pas dans votre deuxième exemple permutant les lignes.
S'il vous plaît ne pas signer pour plusieurs comptes. J'ai demandé à la modération de fusionner le compte que vous avez utilisé ici est celle qui est utilisée sur les précédentes Q.

InformationsquelleAutor a83 | 2011-06-21

permutation r random

224

Compte tenu de la R de données.cadre:
```
> df1
  a b c
1 1 1 0
2 1 0 0
3 0 1 0
4 0 0 0
```
Shuffle ligne-sage:
```
> df2 <- df1[sample(nrow(df1)),]
> df2
  a b c
3 0 1 0
4 0 0 0
2 1 0 0
1 1 1 0
```
Par défaut sample() au hasard réorganise les éléments du passé comme premier argument. Cela signifie que la taille par défaut est la taille du tableau transmis. Passage de paramètre replace=FALSE (valeur par défaut) pour sample(...) assure que l'échantillonnage est fait sans remplacement qui accomplit une ligne sage shuffle.

Shuffle colonnes:
```
> df3 <- df1[,sample(ncol(df1))]
> df3
  c a b
1 0 1 1
2 0 1 0
3 0 0 1
4 0 0 0
```
- Je pense que c'est drôle de voir comment ce n'est pas le top commentaire, et pourtant, il est plus simple que d'aller et de l'apprentissage sur un autre paquet. C'est vrai pour presque n'importe quelle question au sujet de permutant. JUSTE UN EXEMPLE()!
- Suis-je raison de supposer que cette méthode permettra de maintenir la ligne.les noms?
- Aucune raison pour que l'utilisation de = au-dessus du standard <- dans ce cas?
- Eh bien, c'est changer l'ordre des lignes et des colonnes, mais ce que l'OP voulait est différent: shuffle chaque colonne/ligne de façon indépendante
- exactement ce dont j'avais besoin!
InformationsquelleAutor pms
15

C'est une autre façon aléatoire les data.frame à l'aide de paquet dplyr:

ligne-sage:
```
df2 <- slice(df1, sample(1:n()))
```
ou
```
df2 <- sample_frac(df1, 1L)
```
colonnes:
```
df2 <- select(df1, one_of(sample(names(df1)))) 
```
InformationsquelleAutor Enrique Pérez Herrero
10

Prendre un coup d'oeil à permatswap() dans le végétalien paquet. Voici un exemple de maintenir à la fois la ligne et de la colonne des totaux, mais vous pourrez vous détendre et fixer un seul de la ligne ou de la colonne sommes.
```
mat <- matrix(c(1,1,0,0,0,0,0,1,1,0,0,0,1,1,1,0,1,0,1,1), ncol = 5)
set.seed(4)
out <- permatswap(mat, times = 99, burnin = 20000, thin = 500, mtype = "prab")
```
Cela donne:
```
R> out$perm[[1]]
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    0    1    1    1
[2,]    0    1    0    1    0
[3,]    0    0    0    1    1
[4,]    1    0    0    0    1
R> out$perm[[2]]
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    1    0    1    1
[2,]    0    0    0    1    1
[3,]    1    0    0    1    0
[4,]    0    0    1    0    1
```
Pour expliquer l'appel:
```
out <- permatswap(mat, times = 99, burnin = 20000, thin = 500, mtype = "prab")
```
1. times est le nombre de matrices aléatoires que vous voulez, ici 99
2. burnin est le nombre de contrats de swaps de fait avant de commencer la prise d'échantillons aléatoires. Cela permet à la matrice à partir de laquelle nous l'échantillon doit être assez aléatoire avant de commencer à prendre chacune de nos matrices aléatoires
3. thin dit seulement prendre un tirage au sort chaque thin swaps
4. mtype = "prab" dit traiter la matrice de présence/absence, c'est à dire binaire 0/1 données.
Un couple de choses à noter, cela ne garantit pas que toute la colonne ou de la ligne a été randomisé, mais si burnin est assez long il devrait y avoir une bonne chance de l'avoir passé. Aussi, vous pouvez attirer plus de matrices aléatoires que vous avez besoin et jetez celles qui ne correspondent pas à toutes vos exigences.

Votre condition d'avoir un nombre différent de changements par ligne, n'est pas couvert ici. Encore une fois, vous pouvez essayer plus de matrices que vous voulez et ensuite éliminer ceux qui ne répondent pas à cette exigence aussi.

InformationsquelleAutor Reinstate Monica - G. Simpson

vous pouvez également utiliser le randomizeMatrix fonction dans le package R picante

exemple:

test <- matrix(c(1,1,0,1,0,1,0,0,1,0,0,1,0,1,0,0),nrow=4,ncol=4)
> test
     [,1] [,2] [,3] [,4]
[1,]    1    0    1    0
[2,]    1    1    0    1
[3,]    0    0    0    0
[4,]    1    0    1    0

randomizeMatrix(test,null.model = "frequency",iterations = 1000)

     [,1] [,2] [,3] [,4]
[1,]    0    1    0    1
[2,]    1    0    0    0
[3,]    1    0    1    0
[4,]    1    0    1    0

randomizeMatrix(test,null.model = "richness",iterations = 1000)

     [,1] [,2] [,3] [,4]
[1,]    1    0    0    1
[2,]    1    1    0    1
[3,]    0    0    0    0
[4,]    1    0    1    0
>

L'option null.model="frequency" maintient la colonne sommes et richness maintient la ligne de sommes.
Bien que principalement utilisé pour la randomisation la présence d'espèces absence ensembles de données en écologie des communautés, il fonctionne bien ici.

Cette fonction a d'autres modèle nul options, découvrez lien suivant pour plus de détails (page 36) de la picante de la documentation

InformationsquelleAutor Anne Heloise Theo

4

Bien sûr, vous pourrez déguster chaque ligne:
```
sapply (1:4, function (row) df1[row,]<<-sample(df1[row,]))
```
mélange les lignes lui-même, de sorte que le nombre de 1's dans chaque ligne ne change pas. De petits changements, et il fonctionne également bien avec des colonnes, mais c'est un exercice pour le lecteur 😛
- Il n'y a rien dans ce qui tente de mettre en œuvre les contraintes que l'OP voudraient imposer.
InformationsquelleAutor binfalse
2

Vous pouvez aussi faire un "échantillon" le même nombre d'éléments dans votre bloc de données avec quelque chose comme ceci:
```
nr<-dim(M)[1]
random_M = M[sample.int(nr),]
```
- au lieu de dim(M)[1], vous pouvez utiliser nrow(M) donc l'ensemble de la procédure devient un one-liner: random_M <- M[nrow(M),]
InformationsquelleAutor Marcos Pedrosa
0

Échantillons aléatoires et les Permutations de l'ina dataframe
Si c'est sous forme de matrice de les convertir en données.cadre
utiliser l'exemple de la fonction à partir du package de base
index = sample(1:nrow(df1), taille=1*nrow(df1))
Des Échantillons aléatoires et les Permutations de

InformationsquelleAutor thrinadhn
0

Si l'objectif est de façon aléatoire shuffle chaque colonne, certaines des réponses ci-dessus ne fonctionnent pas car les colonnes sont mélangés conjointement (ce qui préserve inter-colonne de corrélations). D'autres nécessitent l'installation d'un paquet. Encore un one-liner existent:
```
df2 = lapply(df1, function(x) { sample(x) })
```
InformationsquelleAutor rimorob

Vous devez vous connecter pour publier un commentaire.