À l'aide des données catégoriques que des fonctionnalités dans sklean LogisticRegression

Je suis en train d'essayer de comprendre comment utiliser les données catégorielles en tant que fonctions dans sklearn.linear_model's LogisticRegression.

Je comprends bien sûr j'ai besoin de coder.

Ce que je ne comprends pas, c'est comment passer de l'codé en fonction de la régression Logistique il est donc traitée comme une catégorie de fonction, et non de l'interprétation de la valeur int qu'il a obtenu lors de l'encodage standard quantifiables fonctionnalité.
(Moins important) quelqu'un Peut-il expliquer la différence entre l'utilisation de preprocessing.LabelEncoder(), DictVectorizer.vocabulary ou tout simplement l'encodage des données catégorielles vous-même avec une simple dict? Alex A. commentaire ici touche sur le sujet, mais pas très profondément.

Surtout avec le premier!

OriginalL'auteur Optimesh | 2015-11-28

4

Vous pouvez créer des variables indicatrices pour les différentes catégories. Par exemple:
```
animal_names = {'mouse';'cat';'dog'}

Indicator_cat = strcmp(animal_names,'cat')
Indicator_dog = strcmp(animal_names,'dog')
```
Puis nous avons:
```
                [0                         [0
Indicator_cat =  1        Indicator_dog =   0
                 0]                         1]
```
Et vous pouvez concaténer ces derniers sur vos données d'origine de la matrice:
```
X_with_indicator_vars = [X, Indicator_cat, Indicator_dog]
```
Rappelez-vous cependant de laisser une catégorie sans un indicateur si un terme constant est inclus dans la matrice de données! Sinon, vos données de la matrice ne sera pas complète colonne de rang (ou en termes économétriques, vous avez un problème de multicolinéarité).
```
[1  1  0  0         Notice how constant term, an indicator for mouse,
 1  0  1  0         an indicator for ca,t and an indicator for dog
 1  0  0  1]        leads to a less than full column rank matrix:
                    the first column is the sum of the last three.
```
Merci pour la réponse. Pensé à cela, mais la fonction que j'ai à l'esprit a plus de 40 catégorique valeurs (le chat, le chien, l'éléphant, le lion,..............). Il y a une meilleure façon.
Je ne suis pas sûr de ce que vous voulez, alors? Vous pouvez les regrouper en grandes catégories? Ou carte les catégories dans un certains n dimensions d'espace vectoriel? (eg. carte nom d'animal à 2 dimensions d'espace vectoriel (taille, poids)). Mais si vous voulez traiter chaque catégorie, comme sa propre catégorie, c'est ce que vous (en général pour la régression) ont à faire. Et si vous assumez les effets peuvent VARIER en fonction de la catégorie, vous devez avoir tous les termes d'interaction trop de vos catégories avec vos autres variables explicatives. Peut-être sklearn fera cela pour vous dans les coulisses (je n'en ai aucune idée), mais c'est probablement ce qui va arriver.
il n'y a pas de meilleure façon, mais vous pouvez réduire la dimensionnalité par FeatureHashing, ou des techniques plus complexes comme APC, etc Aussi, ce post propose la même Chaud de Codage de la technique.

OriginalL'auteur Matthew Gunn
1
1. Standart approche pour convertir catégorielles fonctionnalités en numérique - OneHotEncoding
2. C'est complètement différent classes:
  
  [DictVectorizer][2].vocabulary_
  
  Un dictionnaire fonctionnalité de mappage des noms de fonction des indices.
  
  je.e Après fit() DictVectorizer a tous possible les noms de fonction, et maintenant, il sait dans quelle colonne il mettra particulièrement en valeur d'une fonction. Donc DictVectorizer.vocabulary_ contient indicies de fonctionnalités, mais pas les valeurs.
  
  LabelEncoder en face de cartes de chaque étiquette (Label pourrait être string ou integer) pour certaines valeur entière, et renvoie 1D vecteur de ces valeurs entières.
Merci pour la réponse.La conversion en elle-même est de moins en moins de problème (je pense), ma principale préoccupation est que la logistique reg examinera les valeurs numériques comme une valeur numérique standard, donc si le Chat est codé comme 1 Chien et 2, il assumera les observations avec "Chien" avoir "plus" de cette propriété, alors que nous savons que les valeurs attribuées sont vides de sens.
Qu'entendez-vous par "codé"? Si vous parlez des variables de l'objet - il n'y a rien de mal dans les objectifs [1,2,3], LogisticRegression sera tout simplement construire 3 (dans ce cas particulier) classificateurs et de les combiner dans OneVsRest régime. Si vous parlez des caractéristiques - OneHotEncoder encoder chaque catégorique fonctionnalité dans un format binaire, c'est à dire qu'il va créer de nouveaux binaires plutôt la fonction de chaque valeur possible pour catégorique fonction, je.e dataset résultant aura séparés binaire caractéristiques (colonnes) pour les valeurs de Chien=1, Chien=2, Chien=3, Cat=1, etc. Regarde les exemples dans la documentation officielle.

OriginalL'auteur Ibraim Ganiev
0

Supposons que le type de chaque variable catégorique "objet". Tout d'abord, vous pouvez créer un panda.index de catégorique les noms de colonne:
```
import pandas as pd    
catColumns = df.select_dtypes(['object']).columns
```
Ensuite, vous pouvez créer l'indicateur de variables à l'aide d'une boucle for ci-dessous. Pour les binaires variables catégorielles, utilisez le LabelEncoder() pour le convertir en 0 et 1. Pour les variables catégorielles avec plus de deux catégories, l'utilisation pd.getDummies() pour obtenir les variables indicatrices, puis déposer une catégorie (pour éviter le problème de multicolinéarité).
```
from sklearn import preprocessing
le = preprocessing.LabelEncoder()

for col in catColumns:
    n = len(df[col].unique())
    if (n > 2):
       X = pd.get_dummies(df[col])
       X = X.drop(X.columns[0], axis=1)
       df[X.columns] = X
       df.drop(col, axis=1, inplace=True)  # drop the original categorical variable (optional)
    else:
       le.fit(df[col])
       df[col] = le.transform(df[col])
```
Au cours des dernières sklearn versions, vous pouvez maintenant utiliser le.ajustement pour les variables catégorielles, avec plus de deux classes.

OriginalL'auteur Yongkai

Vous devez vous connecter pour publier un commentaire.