Comment createDataPartition fonction de signe de découpage de paquet de données?
À partir de la documentation:
Pour des échantillons bootstrap, l'échantillonnage aléatoire simple est utilisé.
Pour les autres données de la scission, de l'échantillonnage aléatoire est effectué dans les niveaux de y
lorsque y est un facteur de tenter d'équilibrer la répartition par classe dans les
le grand écart.Numérique (y, l'échantillon est divisé en groupes de sections basées sur les percentiles
et de l'échantillonnage est effectué à l'intérieur de ces sous-groupes.Pour createDataPartition, le nombre de percentiles est définie par les groupes
argument.
Je ne comprends pas pourquoi cet "équilibre" chose est nécessaire. Je crois que je comprends il superficiellement, mais toute autre perspective serait vraiment utile.
OriginalL'auteur Sashank Aryal | 2016-11-20
Vous devez vous connecter pour publier un commentaire.
Cela signifie que si vous avez un ensemble de données
ds
avec 10000 lignesavec 2 "classes" avec l'inégalité de la distribution (9000 vs 1000)
vous pouvez créer un exemple, qui tente de maintenir un ratio /"juste équilibre" entre le facteur de classes.
OriginalL'auteur loki