Comment createDataPartition fonction de signe de découpage de paquet de données?

À partir de la documentation:

Pour des échantillons bootstrap, l'échantillonnage aléatoire simple est utilisé.

Pour les autres données de la scission, de l'échantillonnage aléatoire est effectué dans les niveaux de y
lorsque y est un facteur de tenter d'équilibrer la répartition par classe dans les
le grand écart.

Numérique (y, l'échantillon est divisé en groupes de sections basées sur les percentiles
et de l'échantillonnage est effectué à l'intérieur de ces sous-groupes.

Pour createDataPartition, le nombre de percentiles est définie par les groupes
argument.

Je ne comprends pas pourquoi cet "équilibre" chose est nécessaire. Je crois que je comprends il superficiellement, mais toute autre perspective serait vraiment utile.

OriginalL'auteur Sashank Aryal | 2016-11-20

data-partitioning r r-caret subset

Cela signifie que si vous avez un ensemble de données ds avec 10000 lignes

set.seed(42)
ds <- data.frame(values = runif(10000))

avec 2 "classes" avec l'inégalité de la distribution (9000 vs 1000)

ds$class <- c(rep(1, 9000), rep(2, 1000))
ds$class <- as.factor(ds$class)
table(ds$class)
#    1    2 
# 9000 1000

vous pouvez créer un exemple, qui tente de maintenir un ratio /"juste équilibre" entre le facteur de classes.

dpart <- createDataPartition(ds$class, p = 0.1, list = F)
dsDP <- ds[dpart, ]
table(dsDP$class)
#   1   2 
# 900 100

OriginalL'auteur loki

Vous devez vous connecter pour publier un commentaire.