Comment diviser un bloc de données?

Je veux diviser un bloc de données dans plusieurs petits. Cela ressemble à une très banale question, cependant je ne peux pas trouver une solution de recherche sur le web.

jamais compris split(), mais à l'aide de ntile de dplyr et ensuite le filtrage par le groupe de l'index ("quartile") fait ce que je voulais: group = df[df$quartile==i,].

InformationsquelleAutor Leo5188 | 2010-07-21

dataframe r r-faq split

Vous pouvez également couper le bloc de données en un nombre arbitraire de petits dataframes. Ici, nous avons coupé en deux dataframes.

x = data.frame(num = 1:26, let = letters, LET = LETTERS)
set.seed(10)
split(x, sample(rep(1:2, 13)))

donne

$`1`
   num let LET
3    3   c   C
6    6   f   F
10  10   j   J
12  12   l   L
14  14   n   N
15  15   o   O
17  17   q   Q
18  18   r   R
20  20   t   T
21  21   u   U
22  22   v   V
23  23   w   W
26  26   z   Z

$`2`
   num let LET
1    1   a   A
2    2   b   B
4    4   d   D
5    5   e   E
7    7   g   G
8    8   h   H
9    9   i   I
11  11   k   K
13  13   m   M
16  16   p   P
19  19   s   S
24  24   x   X
25  25   y   Y

Vous pouvez également diviser un bloc de données basé sur une colonne existante. Par exemple, pour créer trois trames de données basé sur le cyl colonne dans mtcars:

split(mtcars,mtcars$cyl)

Hey greg , je ne pouvais pas comprendre la syntaxe de l'exemple de commande , pouvez-vous l'expliquer.
"Vous pouvez également couper le bloc de données en un nombre arbitraire de petits dataframes. Ici, nous avons coupé en deux dataframes." Comment est-ce qu'un nombre arbitraire de trames de données si vous spécifiez deux dataframes ici?
arbitraire de deux trames de données ici.

InformationsquelleAutor Greg

19

Si vous souhaitez diviser un dataframe selon les valeurs de certaines variables, je vous suggère de l'aide daply() de la plyr paquet.
```
library(plyr)
x <- daply(df, .(splitting_variable), function(x)return(x))
```
Maintenant, x est un tableau de dataframes. Pour accéder à l'un des dataframes, vous pouvez indexer avec le nom du niveau de la division de la variable.
```
x$Level1
#or
x[["Level1"]]
```
J'aimerais être sûr qu'il n'y a pas d'autres moyens astucieux pour faire face à vos données avant de le fractionner en plusieurs dataframes bien.
- veuillez indiquer à l'avance le package à partir de laquelle un non de la fonction de base est de - sans doute vous dire daply du package plyr?
- J'ai chargé plyr dans mon extrait de code, donc je pensais que c'était clair, mais je vais modifier la réponse de la prose pour des raisons de clarté.
- Ne pas vous dire dlply?
- J'ai suggéré dlply premier, mais il n'a pas de nommer automatiquement les entrées par le regroupement de la variable. Je ne sais pas ce que j'ai fait en premier, mais aparently daply ne fonctionne pas sauf si une fonction est spécifiée. J'ai édité la réponse de travailler.
InformationsquelleAutor JoFrhwld

Vous pouvez également utiliser

data2 <- data[data$sum_points == 2500, ]

Cela fera un dataframe avec les valeurs où sum_points = 2500

Il donne :

airfoils sum_points field_points   init_t contour_t   field_t
...
491        5       2500         5625 0.000086  0.004272  6.321774
498        5       2500         5625 0.000087  0.004507  6.325083
504        5       2500         5625 0.000088  0.004370  6.336034
603        5        250        10000 0.000072  0.000525  1.111278
577        5        250        10000 0.000104  0.000559  1.111431
587        5        250        10000 0.000072  0.000528  1.111524
606        5        250        10000 0.000079  0.000538  1.111685
....
> data2 <- data[data$sum_points == 2500, ]
> data2
airfoils sum_points field_points   init_t contour_t   field_t
108        5       2500          625 0.000082  0.004329  0.733109
106        5       2500          625 0.000102  0.004564  0.733243
117        5       2500          625 0.000087  0.004321  0.733274
112        5       2500          625 0.000081  0.004428  0.733587

salut, comment vous y prendriez-vous si vous voulais la couper de façon dynamique dans un autre data_frame basées sur des valeurs de cette colonne.?

InformationsquelleAutor Dimitar Slavchev

Je viens de poster un type d'une RFC qui pourrait vous aider: Diviser un vecteur en morceaux dans la R

x = data.frame(num = 1:26, let = letters, LET = LETTERS)
## number of chunks
n <- 2
dfchunk <- split(x, factor(sort(rank(row.names(x))%%n)))
dfchunk
$`0`
   num let LET
1    1   a   A
2    2   b   B
3    3   c   C
4    4   d   D
5    5   e   E
6    6   f   F
7    7   g   G
8    8   h   H
9    9   i   I
10  10   j   J
11  11   k   K
12  12   l   L
13  13   m   M

$`1`
   num let LET
14  14   n   N
15  15   o   O
16  16   p   P
17  17   q   Q
18  18   r   R
19  19   s   S
20  20   t   T
21  21   u   U
22  22   v   V
23  23   w   W
24  24   x   X
25  25   y   Y
26  26   z   Z

Cheers,
Sebastian

InformationsquelleAutor Sebastian

7

subset() est également utile:
```
subset(DATAFRAME, COLUMNNAME == "")
```
Pour une trousse d'enquête, peut-être le survey paquet est pertinent?

http://faculty.washington.edu/tlumley/survey/

InformationsquelleAutor apeescape
4

La réponse que vous voulez dépend beaucoup de comment et pourquoi vous voulez briser le bloc de données.

Par exemple, si vous souhaitez laisser de côté certaines variables, vous pouvez créer de nouveaux blocs de données à partir des colonnes spécifiques de la base de données. Les indices entre parenthèses après le bloc de données, reportez-vous aux numéros de ligne et colonne. Découvrez Spoetry pour une description complète.
```
newdf <- mydf[,1:3]
```
Ou, vous pouvez choisir des lignes spécifiques.
```
newdf <- mydf[1:3,]
```
Et ces indices peuvent également être logique tests, tels que le choix des lignes qui contiennent une valeur particulière, ou par des facteurs ayant une valeur souhaitée.

Que voulez-vous faire avec les morceaux laissés sur? Avez-vous besoin pour effectuer la même opération sur chaque morceau de la base de données? Ensuite, vous aurez envie de vous assurer que les sous-ensembles de la trame de données à la fin dans un objet pratique, comme une liste, qui vous aide à effectuer la même commande sur chaque bloc de la trame de données.

InformationsquelleAutor Ben M
3

Si vous voulez diviser par des valeurs dans une des colonnes, vous pouvez utiliser lapply. Par exemple, pour diviser ChickWeight dans un autre jeu de données, pour chaque poussin:
```
data(ChickWeight)
lapply(unique(ChickWeight$Chick), function(x) ChickWeight[ChickWeight$Chick == x,])
```
InformationsquelleAutor mikeck
3

Le fractionnement de la trame de données semble contre-productif. Au lieu de cela, utiliser le split-appliquer-combiner paradigme, par exemple, produire des données
```
df = data.frame(grp=sample(letters, 100, TRUE), x=rnorm(100))
```
ensuite divisé uniquement les colonnes appropriées, et appliquer les scale() fonction de x dans chaque groupe, et de combiner les résultats (à l'aide de split<- ou ave)
```
df$z = 0
split(df$z, df$grp) = lapply(split(df$x, df$grp), scale)
## alternative: df$z = ave(df$x, df$grp, FUN=scale)
```
Ce sera très rapide par rapport à la fente de données.des cadres, et le résultat reste utilisable dans l'analyse en aval sans itération. Je pense que le dplyr syntaxe est
```
library(dplyr)
df %>% group_by(grp) %>% mutate(z=scale(x))
```
En général, cette dplyr solution est plus rapide que le fractionnement des trames de données, mais pas aussi vite que split-appliquer-combiner.

InformationsquelleAutor Martin Morgan

Vous devez vous connecter pour publier un commentaire.