Comment effectuer en vertu de l'échantillonnage dans scikit learn?

Nous avons une rétine dataset où l'œil malade de l'information constitue 70% de l'information, alors que l'autre œil malade constitue les 30% restants.Nous voulons un ensemble de données dans lequel les malades et non malades, les échantillons doivent être en nombre égal. Est-il toutes les fonctions disponibles avec l'aide de laquelle on peut faire de même?

InformationsquelleAutor Gaurav Patil | 2015-03-23

14

J'ai choisi de le faire avec Les Pandas DataFrame et numpy.aléatoire.choix. De cette façon, il est facile de faire de l'échantillonnage aléatoire pour produire aussi de la taille des ensembles de données. Un exemple:
```
import pandas as pd
import numpy as np

data = pd.DataFrame(np.random.randn(7, 4))
data['Healthy'] = [1, 1, 0, 0, 1, 1, 1]
```
Ces données a deux non-sain et cinq échantillons sains. Pour choisir au hasard deux échantillons de la santé de la population, vous n':
```
healthy_indices = data[data.Healthy == 1].index
random_indices = np.random.choice(healthy_indices, 2, replace=False)
healthy_sample = data.loc[random_indices]
```
Pour sélectionner automatiquement un sous-échantillon de la même taille que le non-groupe en bonne santé que vous pouvez faire:
```
sample_size = sum(data.Healthy == 0)  # Equivalent to len(data[data.Healthy == 0])
random_indices = np.random.choice(healthy_indices, sample_size, replace=False)
```
- S'il vous plaît ne me corriger si je me trompe, mais de choisir un sous-échantillon de la même taille que le non groupe en bonne santé après la cueillette de la bonne santé du groupe, wouldnt être: ` not_healthy = df[df.Santé == 0].l'indice de random_indices = np.aléatoire.choix(not_healthy, somme(data['sain']), replace=False) renew_sample = données.loc[random_indices]`
- Autant que je le vois, les deux solutions sont équivalentes.
InformationsquelleAutor RickardSjogren
2

Comme variante, vous pouvez utiliser la méthode stochastique. Supposons, vous avez un dataset data qui est un grand nombre de tuples (X, Y), où Y est malade des yeux de l'information (0 ou 1). Vous pouvez préparer un wrapper pour votre jeu de données, qui passe tous les non malades des yeux et passe malades yeux avec une probabilité de 0,3 /0.7 (seuls 30% des malades yeux de l'ensemble de données).
```
from random import random


def wrapper(data):
    prob = 0.3 / 0.7

    for X, Y in data:
        if Y == 0:
            yield X, Y
        else:
            if random() < prob:
                yield X, Y


# now you can use the wrapper to extract needed information
for X, Y in wrapper(your_dataset):
    print X, Y
```
Attention, si vous avez besoin d'utiliser ce wrapper comme un générateur de nombreuses fois et que vous voulez avoir des résultats identiques, vous devez vous fixer des valeurs aléatoires avant d'utiliser la fonction random(). Plus à ce sujet: https://docs.python.org/2/library/random.html

InformationsquelleAutor Fomalhaut
1

Vous pouvez utiliser le np.random.choice pour un naïf en vertu de l'échantillonnage, comme suggéré précédemment, mais un problème peut être que certains de vos échantillons aléatoires sont très similaires, et donc induit en erreur sur l'ensemble de données.

Une meilleure option est d'utiliser le déséquilibre de l'apprendre package qui a de multiples options pour l'équilibrage d'un jeu de données. Un bon tutoriel et la description de ceux-ci peuvent être trouvés ici.

La liste des paquets quelques bonnes options pour les sous échantillonnage (à partir de leur github):
- Aléatoire majorité du sous-échantillonnage de remplacement
- Extraction de la majorité-minorité Tomek liens
- Sous-échantillonnage avec le Cluster de Centroïdes
- NearMiss-(1 & 2 & 3)
- Résumés Plus Proche Voisin
- Unilatérale De Sélection
- Neighboorhood De Nettoyage De La Règle
- Édité Voisins Les Plus Proches
- Instance De La Dureté De Seuil
- Répété Édité Voisins Les Plus Proches
- AllKNN
InformationsquelleAutor ege

Vous devez vous connecter pour publier un commentaire.