Comment trouver l'importance des caractéristiques d'un modèle de régression logistique?

J'ai un binaire modèle de prédiction formés par l'algorithme de régression logistique. Je veux savoir quelles fonctionnalités(prédicteurs) sont plus importants pour la décision de positif ou négatif de la classe. Je sais qu'il est coef_ paramètre provient de la scikit-learn paquet, mais je ne sais pas si c'est suffisant pour de l'importance. Une autre chose est de savoir comment je peux évaluer le coef_ valeurs en termes de l'importance pour le négatif et le positif des classes. J'ai aussi lu sur les coefficients de régression standardisés et je ne sais pas ce que c'est.

Permet de dire qu'il y a des caractéristiques comme la taille de la tumeur, le poids de la tumeur, et etc pour prendre une décision pour un cas de test comme maligne ou pas malin. Je veux savoir quelles fonctions sont de plus en plus important pour les tumeurs malignes et non malignes de prédiction. Est-il sorte de sentiment?

Pouvez-vous peut-être inclure un exemple pour rendre les choses plus concrètes?
Disons que il y a des caractéristiques comme la taille de la tumeur, le poids de la tumeur, et etc pour prendre une décision pour un cas de test comme maligne ou pas malin. Je veux savoir quelles fonctions sont de plus en plus important pour les tumeurs malignes et non malignes de prédiction. Est-il sorte de sentiment?

OriginalL'auteur mgokhanbakal | 2015-12-02

32

L'une des options les plus simples à obtenir une sensation pour le "influence" d'un paramètre donné dans un linéaire modèle de classification (logistique étant l'un de ceux-ci), est de considérer l'ampleur de son coefficient fois l'écart-type du paramètre correspondant dans les données.

Considérons cet exemple:
```
import numpy as np    
from sklearn.linear_model import LogisticRegression

x1 = np.random.randn(100)
x2 = 4*np.random.randn(100)
x3 = 0.5*np.random.randn(100)
y = (3 + x1 + x2 + x3 + 0.2*np.random.randn()) > 0
X = np.column_stack([x1, x2, x3])

m = LogisticRegression()
m.fit(X, y)

# The estimated coefficients will all be around 1:
print(m.coef_)

# Those values, however, will show that the second parameter
# is more influential
print(np.std(X, 0)*m.coef_)
```
Une alternative pour obtenir un résultat similaire est d'examiner les coefficients d'ajustement du modèle sur des paramètres normalisés:
```
m.fit(X / np.std(X, 0), y)
print(m.coef_)
```
Noter que c'est le plus approche de base et un certain nombre d'autres techniques pour trouver de la fonction de l'importance ou d'un paramètre d'influence existent (à l'aide de p-valeurs de bootstrap, les scores, les différents "indices discriminants", etc).

Je suis sûr que vous obtiendrez plus de réponses intéressantes à https://stats.stackexchange.com/.

Merci pour l'explication. Encore une chose, ce n'est qu'une valeur négative de m.coef_ veux dire? Signifie-t-il comme il est plus discriminatoire de la décision négative de la classe? Même question pour les valeurs positives, trop.
Un coefficient négatif signifie que la hausse de la valeur de la caractéristique correspondante pousse la classification de plus en plus vers le négatif de la classe.
Nous allons voir comment votre contre-exemple fonctionne dans la pratique: pastebin.com/NXPxtPwc Notez comment le modèle qui en résulte est "smart" assez pour estimer les petits coefficients de la corrélation des caractéristiques et donc bien conclure que c'est la troisième valeur est la plus importante. Essayez de venir avec un travail de contre-exemple 😉
Et, plus généralement, de noter que les questions de "comment comprendre l'importance de fonctionnalités dans un (déjà équipé) modèle de type X" et "comment comprendre les plus influents dans les données en général" sont différents. En fonction de votre processus de montage vous pouvez vous retrouver avec des modèles différents pour les mêmes données, certaines fonctionnalités peuvent être considérés comme plus importants par un modèle, tandis que d'autres - par un autre. Les caractéristiques importantes "à un modèle" ne serait importante "dans les données, en général, lorsque votre modèle a été estimé à un peu "valide" dans la première place.
En particulier, si la caractéristique la plus importante de vos données a une dépendance non linéaire sur la sortie, la plupart des modèles linéaires ne peuvent pas découvrir ce, peu importe la façon dont vous vous moquez d'eux. Par conséquent, il est agréable de se rappeler sur les différences entre la modélisation et le modèle de l'interprétation.

OriginalL'auteur KT.

Vous devez vous connecter pour publier un commentaire.