le fractionnement d'une variable continue en groupes de taille égale

J'ai besoin de split/de la répartition d'une variable continue en 3 groupes de taille égale.

Exemple bloc de données

das <- data.frame(anim=1:15,
                  wt=c(181,179,180.5,201,201.5,245,246.4,
                       189.3,301,354,369,205,199,394,231.3))

Après être coupés (selon la valeur de wt), j'aurais besoin d'avoir les 3 classes en vertu de la nouvelle variable wt2 comme ceci:

> das 
   anim    wt wt2
1     1 181.0   1
2     2 179.0   1
3     3 180.5   1
4     4 201.0   2
5     5 201.5   2
6     6 245.0   2
7     7 246.4   3
8     8 189.3   1
9     9 301.0   3
10   10 354.0   3
11   11 369.0   3
12   12 205.0   2
13   13 199.0   1
14   14 394.0   3
15   15 231.3   2

Ce serait appliquée à un grand ensemble de données

Voir, par exemple : stackoverflow.com/questions/5915916/... , stackoverflow.com/questions/2647639/... , stackoverflow.com/questions/5570293/... , stackoverflow.com/questions/5161055/... , stackoverflow.com/questions/5731116/... , stackoverflow.com/questions/3288361/... , ...
Êtes-vous sûr que la réponse de @Ben Bolker n'est pas la bonne? Vous spécifiez que vous voulez l'égalité des moyennes des groupes.

InformationsquelleAutor baz | 2011-05-24

continuous r split variables

59

essayez ceci:
```
split(das, cut(das$anim, 3))
```
si vous voulez répartis en fonction de la valeur de wt, puis
```
library(Hmisc) # cut2
split(das, cut2(das$wt, g=3))
```
de toute façon, vous pouvez le faire en combinant les cut, cut2 et split.

Mis à JOUR

si vous voulez un groupe de l'indice de colonne supplémentaires, puis
```
das$group <- cut(das$anim, 3)
```
si la colonne doit être index comme 1, 2, ..., puis
```
das$group <- as.numeric(cut(das$anim, 3))
```
DE NOUVEAU MIS À JOUR

essayez ceci:
```
> das$wt2 <- as.numeric(cut2(das$wt, g=3))
> das
   anim    wt wt2
1     1 181.0   1
2     2 179.0   1
3     3 180.5   1
4     4 201.0   2
5     5 201.5   2
6     6 245.0   2
7     7 246.4   3
8     8 189.3   1
9     9 301.0   3
10   10 354.0   3
11   11 369.0   3
12   12 205.0   2
13   13 199.0   1
14   14 394.0   3
15   15 231.3   2
```
- Vous pouvez supprimer les sous.numérique et l'utilisation cut(das$anim, 3, labels=FALSE)
- Cela devrait être mis à jour de sorte qu'il est clair que c'est différent de la réponse par @Ben ci-dessous. J'ai utilisé à tort ce code dans la conviction qu'il serait diviser les observations de façon égale.
- êtes-vous sûr que le Hmisc::cut2() solution ne l'est pas? Pouvez-vous donner un petit exemple où il ne l'est pas?
InformationsquelleAutor kohske
37

Ou voir cut_number de la ggplot2 paquet, par exemple
```
das$wt_2 <- as.numeric(cut_number(das$wt,3))
```
Noter que cut(...,3) divise la plage de données d'origine dans trois gammes de longueurs égales; il n'a pas nécessairement le même nombre de observations par groupe si les données sont réparties de manière inégale (vous pouvez reproduire ce que cut_number le fait en utilisant quantile de façon appropriée, mais c'est une fonction de commodité). D'autre part, Hmisc::cut2() à l'aide de la g= argument ne divisé par quantiles, donc c'est plus ou moins équivalent à ggplot2::cut_number. J'aurais pensé que quelque chose comme cut_number aurait fait son chemin dans dplyr par la mesure, mais aussi loin que je peux dire il n'a pas.
- Ce doit être la meilleure réponse, j'avais vu cette première...!
InformationsquelleAutor Ben Bolker

Voici une autre solution à l'aide de la bin_data() fonction de la mltools paquet.

library(mltools)
# Resulting bins have an equal number of observations in each group
das[, "wt2"] <- bin_data(das$wt, bins=3, binType = "quantile")
# Resulting bins are equally spaced from min to max
das[, "wt3"] <- bin_data(das$wt, bins=3, binType = "explicit")
# Or if you'd rather define the bins yourself
das[, "wt4"] <- bin_data(das$wt, bins=c(-Inf, 250, 322, Inf), binType = "explicit")
das
anim    wt                                  wt2                                  wt3         wt4
1     1 181.0              [179, 200.333333333333)              [179, 250.666666666667) [-Inf, 250)
2     2 179.0              [179, 200.333333333333)              [179, 250.666666666667) [-Inf, 250)
3     3 180.5              [179, 200.333333333333)              [179, 250.666666666667) [-Inf, 250)
4     4 201.0 [200.333333333333, 245.466666666667)              [179, 250.666666666667) [-Inf, 250)
5     5 201.5 [200.333333333333, 245.466666666667)              [179, 250.666666666667) [-Inf, 250)
6     6 245.0 [200.333333333333, 245.466666666667)              [179, 250.666666666667) [-Inf, 250)
7     7 246.4              [245.466666666667, 394]              [179, 250.666666666667) [-Inf, 250)
8     8 189.3              [179, 200.333333333333)              [179, 250.666666666667) [-Inf, 250)
9     9 301.0              [245.466666666667, 394] [250.666666666667, 322.333333333333)  [250, 322)
10   10 354.0              [245.466666666667, 394]              [322.333333333333, 394]  [322, Inf]
11   11 369.0              [245.466666666667, 394]              [322.333333333333, 394]  [322, Inf]
12   12 205.0 [200.333333333333, 245.466666666667)              [179, 250.666666666667) [-Inf, 250)
13   13 199.0              [179, 200.333333333333)              [179, 250.666666666667) [-Inf, 250)
14   14 394.0              [245.466666666667, 394]              [322.333333333333, 394]  [322, Inf]
15   15 231.3 [200.333333333333, 245.466666666667)              [179, 250.666666666667) [-Inf, 250)

InformationsquelleAutor Ben

5

ntile de dplyr maintenant, n'est ce mais se comporte bizarrement avec NA's.

J'ai utilisé le même code dans la fonction suivante, qui travaille dans la base de R et ne l'équivalent de la cut2 solution ci-dessus:
```
ntile_ <- function(x, n) {
b <- x[!is.na(x)]
q <- floor((n * (rank(b, ties.method = "first") - 1)/length(b)) + 1)
d <- rep(NA, length(x))
d[!is.na(x)] <- q
return(d)
}
```
InformationsquelleAutor Dan Lewer

Alternative sans à l'aide de cut2.

das$wt2 <- as.factor( as.numeric( cut(das$wt,3)))

das$wt2 <- as.factor( cut(das$wt,3, labels=F))

Comme l'a souligné @ben-bolker cette divise en largeur plutôt d'occupation.
Je pense que l'utilisation de quantiles on peut approximative égale-occupation

x = rnorm(10)
x
[1] -0.1074316  0.6690681 -1.7168853  0.5144931  1.6460280  0.7014368
[7]  1.1170587 -0.8503069  0.4462932 -0.1089427
bin = 3 #for 1/3 rd, 4 for 1/4, 100 for 1/100th etc
xx = cut(x, quantile(x, breaks=1/bin*c(1:bin)), labels=F, include.lowest=T)
table(xx)
1 2 3 4
3 2 2 3

Je pense que cela se divise en égale largeur plutôt que l'égalité d'occupation des bacs ?

InformationsquelleAutor pedrosaurio

2

cut, lorsqu'il n'est pas donné de façon explicite des points de rupture divise les valeurs dans des bacs de même largeur, ils ne contiennent pas un nombre égal d'éléments en général:
```
x <- c(1:4,10)
lengths(split(x, cut(x, 2)))
# (0.991,5.5]    (5.5,10] 
#           4           1 
```
Hmisc::cut2 et ggplot2::cut_number utiliser les quantiles, qui est généralement de créer des groupes de même taille (en terme de nombre d'éléments) si les données sont bien répartis et de taille décente, il n'est pas toujours le cas cependant. mltools::bin_data peut donner des résultats différents, mais il est également basé sur les quantiles.

Ces fonctions ne sont pas toujours donner des résultats aussi probants lorsque les données contiennent un petit nombre de valeurs distinctes :
```
x <- rep(c(1:20),c(15, 7, 10, 3, 9, 3, 4, 9, 3, 2,
23, 2, 4, 1, 1, 7, 18, 37, 6, 2))
table(x)
# x
#  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 
# 15  7 10  3  9  3  4  9  3  2 23  2  4  1  1  7 18 37  6  2   
table(Hmisc::cut2(x, g=4))
# [ 1, 6) [ 6,12) [12,19) [19,20] 
#      44      44      70       8
table(ggplot2::cut_number(x, 4))
# [1,5]  (5,11] (11,18] (18,20] 
#    44      44      70       8
table(mltools::bin_data(x, bins=4, binType = "quantile"))
# [1, 5)  [5, 11) [11, 18) [18, 20] 
#     35       30       56       45
```
Ce n'est pas clair si la solution optimale a été trouvée ici.

Quel est le meilleur binning approche est subjective, mais d'une façon raisonnable d'approche il est à la recherche pour les bacs à minimiser la variance autour de la prévue dans la corbeille.

La fonction smart_cut de (mon) package cutr propose cette fonctionnalité. Il est mathématiquement lourde, bien que devrait être réservé aux cas où des points de coupe et des valeurs uniques sont que quelques-uns (qui se trouvent être généralement le cas où c'est important).
```
# devtools::install_github("moodymudskipper/cutr")
table(cutr::smart_cut(x, list(4, "balanced"), "g"))
# [1,6)  [6,12) [12,18) [18,20] 
# 44      44      33      45 
```
Nous voyons les groupes sont beaucoup mieux équilibré.

"balanced" dans l'appel peut en effet être remplacée par une fonction personnalisée pour optimiser ou de restreindre les bacs comme désiré si la méthode basée sur la variance n'est pas suffisant.

InformationsquelleAutor Moody_Mudskipper

equal_freq de funModeling prend un vecteur et le nombre d'emplacements (basé sur la même fréquence):

das <- data.frame(anim=1:15,
wt=c(181,179,180.5,201,201.5,245,246.4,
189.3,301,354,369,205,199,394,231.3))
das$wt_bin=funModeling::equal_freq(das$wt, 3)
table(das$wt_bin)
#[179,201) [201,246) [246,394] 
#        5         5         5

InformationsquelleAutor pablo_sci

Vous pouvez également utiliser le bin fonction avec method = "content" de la OneR paquet pour que:

library(OneR)
das$wt_2 <- as.numeric(bin(das$wt, nbins = 3, method = "content"))
das
##    anim    wt wt_2
## 1     1 181.0    1
## 2     2 179.0    1
## 3     3 180.5    1
## 4     4 201.0    2
## 5     5 201.5    2
## 6     6 245.0    2
## 7     7 246.4    3
## 8     8 189.3    1
## 9     9 301.0    3
## 10   10 354.0    3
## 11   11 369.0    3
## 12   12 205.0    2
## 13   13 199.0    1
## 14   14 394.0    3
## 15   15 231.3    2

InformationsquelleAutor vonjd

0

Sans paquet supplémentaire, 3 étant le nombre de groupes:
```
> findInterval(das$wt, unique(quantile(das$wt, seq(0, 1, length.out = 3 + 1))), rightmost.closed = TRUE)
[1] 1 1 1 2 2 2 3 1 3 3 3 2 1 3 2
```
Vous pouvez accélérer le quantile de calcul à l'aide d'un échantillon représentatif des valeurs d'intérêt. Vérifiez la documentation de l' FindInterval fonction.

InformationsquelleAutor SamGG

Si vous voulez diviser en 3 parts égales distribué des groupes, la réponse est la même que Ben Bolker la réponse ci-dessus - utilisation ggplot2::cut_number(). Pour des raisons d'achèvement voici les 3 méthodes de conversion continue à catégorique (binning).

cut_number(): Fait n groupes avec (environ) un nombre égal de l'observation
cut_interval(): Fait n groupes avec la même échelle
cut_width(): Fait des groupes de largeur largeur
Mon go-to est cut_number() car il utilise régulièrement espacés les quantiles de binning observations. Voici un exemple avec des données asymétriques.

library(tidyverse)
skewed_tbl <- tibble(
counts = c(1:100, 1:50, 1:20, rep(1:10, 3), 
rep(1:5, 5), rep(1:2, 10), rep(1, 20))
) %>%
mutate(
counts_cut_number   = cut_number(counts, n = 4),
counts_cut_interval = cut_interval(counts, n = 4),
counts_cut_width    = cut_width(counts, width = 25)
) 
# Data
skewed_tbl
#> # A tibble: 265 x 4
#>    counts counts_cut_number counts_cut_interval counts_cut_width
#>     <dbl> <fct>             <fct>               <fct>           
#>  1      1 [1,3]             [1,25.8]            [-12.5,12.5]    
#>  2      2 [1,3]             [1,25.8]            [-12.5,12.5]    
#>  3      3 [1,3]             [1,25.8]            [-12.5,12.5]    
#>  4      4 (3,13]            [1,25.8]            [-12.5,12.5]    
#>  5      5 (3,13]            [1,25.8]            [-12.5,12.5]    
#>  6      6 (3,13]            [1,25.8]            [-12.5,12.5]    
#>  7      7 (3,13]            [1,25.8]            [-12.5,12.5]    
#>  8      8 (3,13]            [1,25.8]            [-12.5,12.5]    
#>  9      9 (3,13]            [1,25.8]            [-12.5,12.5]    
#> 10     10 (3,13]            [1,25.8]            [-12.5,12.5]    
#> # ... with 255 more rows
summary(skewed_tbl$counts)
#>    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
#>    1.00    3.00   13.00   25.75   42.00  100.00
# Histogram showing skew
skewed_tbl %>%
ggplot(aes(counts)) +
geom_histogram(bins = 30)

$le fractionnement d'une variable continue en groupes de taille égale$

# cut_number() evenly distributes observations into bins by quantile
skewed_tbl %>%
ggplot(aes(counts_cut_number)) +
geom_bar()

$le fractionnement d'une variable continue en groupes de taille égale$

# cut_interval() evenly splits the interval across the range
skewed_tbl %>%
ggplot(aes(counts_cut_interval)) +
geom_bar()

$le fractionnement d'une variable continue en groupes de taille égale$

# cut_width() uses the width = 25 to create bins that are 25 in width
skewed_tbl %>%
ggplot(aes(counts_cut_width)) +
geom_bar()

$le fractionnement d'une variable continue en groupes de taille égale$

^{Créé sur 2018-11-01 par le reprex paquet (v0.2.1)}

InformationsquelleAutor Matt Dancho

Vous devez vous connecter pour publier un commentaire.