Comment sont feature_importances dans RandomForestClassifier déterminé?

J'ai une tâche de classification avec une série de temps que la saisie des données, où chaque attribut (n=23) représente un point spécifique dans le temps. En plus de l'absolu classification résultat que je voudrais savoir, quels sont les attributs, les dates de contribuer à la résultat à quel point. Donc je suis juste en utilisant le feature_importances_, qui fonctionne bien pour moi.

Cependant, je voudrais savoir comment ils sont calculés et qui mesure/algorithme est utilisé. Malheureusement je n'ai pas trouvé de documentation sur ce sujet.

Woah trois core devs sur un fil. Ce doit être une sorte de record ^^

InformationsquelleAutor user2244670 | 2013-04-04

136

Il y a en effet plusieurs façons d'obtenir la fonctionnalité "importances". Comme souvent, il n'existe pas de consensus strict sur ce que ce mot signifie.

Dans scikit-learn, nous mettons en œuvre l'importance comme décrit dans [1] (souvent cité, mais, malheureusement, rarement lu...). Il est parfois appelé "coefficient de gini importance" ou "diminution moyenne de l'impureté" et est définie comme la diminution totale du nœud de l'impureté (pondérée par la probabilité de parvenir à ce nœud (qui est évaluée en fonction de la proportion d'échantillons d'atteindre ce nœud)) en moyenne sur tous les arbres de l'ensemble.

Dans la littérature ou dans certains autres packages, vous pouvez également trouver disposent d'importances mis en œuvre comme la "réduction moyenne de la précision". Fondamentalement, l'idée est de mesurer la diminution de la précision sur LES données lorsque vous permuter aléatoirement les valeurs de cette fonction. Si la diminution est faible, alors la fonction n'est pas importante, et vice-versa.

(À noter que les deux algorithmes sont disponibles dans la randomForest package R.)

[1]: Breiman, Friedman, "Classification and regression trees", 1984.
- Il pourrait être grande si cette réponse a été mentionné dans la documentation de l'importance des attributs/exemple. Été à la recherche pendant un certain temps aussi 🙂
- Il semble que le score d'importance est en valeur relative? Par exemple, la somme des scores d'importance de toutes les fonctionnalités est toujours 1 (voir l'exemple ici scikit-learn.org/stable/auto_examples/ensemble/...)
- Oui, par défaut, la variable d'importances sont normalisés dans scikit-learn, tels que leur somme soit égale à un. Vous pouvez contourner cela en boucle sur la base des estimateurs et de l'appel de tree_.compute_feature_importances(normalize=False).
- Utilisez-vous la sortie de sac d'échantillons pour mesurer la réduction de la MSE pour une forêt d'arbre de décision régresseurs dans chaque arbre? Ou toutes les données d'entraînement utilisé sur l'arbre?
- Deux ressources utiles. (1) blog.datadive.net/... un blog par Ando Saabas implémente à la fois "diminution moyenne de l'impureté" et aussi "réduction moyenne de la précision", tel que mentionné par Gilles. (2) à Télécharger et à lire Gilles Louppe de la thèse.
- "souvent cité, mais, malheureusement, rarement lu": il n'est pas ouvert l'accès de n'importe où sur l'internet
InformationsquelleAutor Gilles Louppe
51

La manière habituelle pour calculer la fonction de l'importance des valeurs d'un seul arbre est comme suit:
1. vous initialiser un tableau feature_importances de tous les zéros avec la taille n_features.
2. vous traverse l'arbre: pour chaque noeud interne qui se divise sur la fonctionnalité i permet de calculer la réduction d'erreur de ce nœud multiplié par le nombre d'échantillons qui ont été acheminés vers le nœud et ajouter cette quantité feature_importances[i].
L'erreur réduction dépend de l'impureté critère que vous utilisez (par exemple, le coefficient de Gini, l'Entropie, MSE, ...). Sa l'impureté de l'ensemble d'exemples qui est routée vers le noeud interne, moins la somme des impuretés des deux partitions créées par la scission.

Il est important que ces valeurs sont relatives à un ensemble de données spécifique (à la fois la réduction des erreurs et le nombre d'échantillons sont dataset spécifiques) ainsi, ces valeurs ne peuvent pas être comparés entre les différents ensembles de données.

Autant que je sache, il existe différentes façons de calculer la fonction de l'importance des valeurs dans les arbres de décision. Une brève description de la méthode ci-dessus peuvent être trouvés dans les "Éléments de Statistique de l'Apprentissage" par Trevor Hastie, Robert Tibshirani, et Jérôme Friedman.

InformationsquelleAutor Peter Prettenhofer
11

C'est le ratio entre le nombre d'échantillons acheminés vers un nœud de décision impliquant la fonction dans un des arbres de l'ensemble, le nombre total d'échantillons dans l'ensemble de la formation.

Caractéristiques qui sont impliqués dans le haut niveau des nœuds des arbres de décision ont tendance à voir plus d'exemples sont donc susceptibles d'avoir plus d'importance.

Modifier: cette description n'est que partiellement correcte: Gilles et Pierre réponses sont la bonne réponse.
- Savez-vous si il y a un peu de papier/de la documentation sur la méthode exacte? par exemple. Breiman, 2001. Ce serait formidable si j'ai eu quelques bon document, que je pourrais citer, pour la méthodologie.
- ce serait génial si on pouvait clairement la marque de votre réponse que l'explication de la "pondération". La pondération seul ne permet pas de déterminer la fonction d'importance. Le "impureté métrique" ("de gini-importance" ou RSS), combiné avec le poids, en moyenne sur les arbres détermine la fonctionnalité générale de l'importance. Malheureusement, la documentation sur scikit-learn ici: scikit-learn.org/stable/modules/... n'est pas exacte et à tort mentionne la "profondeur" que l'impureté de la métrique.
InformationsquelleAutor ogrisel
10

Comme @GillesLouppe souligné ci-dessus, scikit-learn implémente actuellement la "diminution moyenne de l'impureté" tonnes pour les longs importances. Personnellement, je trouve la seconde méthode un peu plus intéressant, où vous permuter aléatoirement les valeurs pour chacun de vos fonctions une par une et voir combien pire de votre sac de performance est.

Depuis que vous êtes après, avec la particularité est d'une importance combien chaque fonction contribue à l'ensemble de votre modèle prédictif de la performance, la deuxième métrique en fait vous donne une mesure directe de la ce, alors que la diminution moyenne de l'impureté" est juste un bon proxy.

Si vous êtes intéressé, j'ai écrit un petit paquet qui implémente la Permutation Importance métrique et peut être utilisé pour calculer les valeurs à partir d'une instance d'un scikit-learn forêt au hasard de classe:

https://github.com/pjh2011/rf_perm_feat_import

Edit: Cela fonctionne pour Python 2.7, pas 3
- Salut @Peter quand j'utilise ton code, j'obtiens cette erreur: NameError: name 'xrange" n'est pas défini.
- Salut @Aizzaac. Désolé, je suis nouveau à l'écriture de paquets, donc je devrais l'avez remarqué je l'ai écrit pour Python 2.7. Essayez def xrange(x): return iter(range(x)) avant de l'exécuter
InformationsquelleAutor Peter

Laissez-moi essayer de répondre à la question.
code:

iris = datasets.load_iris()  
X = iris.data  
y = iris.target  
clf = DecisionTreeClassifier()  
clf.fit(X, y)

decision_tree parcelle:

entrez la description de l'image ici

Nous pouvons obtenir compute_feature_importance:[0. ,0.01333333,0.06405596,0.92261071]

Vérifier le code source:

cpdef compute_feature_importances(self, normalize=True):
    """Computes the importance of each feature (aka variable)."""
    cdef Node* left
    cdef Node* right
    cdef Node* nodes = self.nodes
    cdef Node* node = nodes
    cdef Node* end_node = node + self.node_count

    cdef double normalizer = 0.

    cdef np.ndarray[np.float64_t, ndim=1] importances
    importances = np.zeros((self.n_features,))
    cdef DOUBLE_t* importance_data = <DOUBLE_t*>importances.data

    with nogil:
        while node != end_node:
            if node.left_child != _TREE_LEAF:
                # ... and node.right_child != _TREE_LEAF:
                left = &nodes[node.left_child]
                right = &nodes[node.right_child]

                importance_data[node.feature] += (
                    node.weighted_n_node_samples * node.impurity -
                    left.weighted_n_node_samples * left.impurity -
                    right.weighted_n_node_samples * right.impurity)
            node += 1

    importances /= nodes[0].weighted_n_node_samples

    if normalize:
        normalizer = np.sum(importances)

        if normalizer > 0.0:
            # Avoid dividing by zero (e.g., when root is pure)
            importances /= normalizer

    return importances

Essayer de calculer la fonction de l'importance:

print("sepal length (cm)",0)
print("sepal width (cm)",(3*0.444-(0+0)))
print("petal length (cm)",(54* 0.168 - (48*0.041+6*0.444)) +(46*0.043 -(0+3*0.444)) + (3*0.444-(0+0)))
print("petal width (cm)",(150* 0.667 - (0+100*0.5)) +(100*0.5-(54*0.168+46*0.043))+(6*0.444 -(0+3*0.444)) + (48*0.041-(0+0)))

Nous obtenons feature_importance: np.tableau([0,1.332,6.418,92.30]).

Après avoir normalisé, nous pouvons obtenir la matrice de ([0., 0.01331334, 0.06414793, 0.92253873]),ce sont les mêmes que clf.feature_importances_.

Attention, toutes les classes sont censés avoir un poids.

InformationsquelleAutor tengfei li

0

Pour ceux qui recherchent une référence à la scikit-learn de la documentation sur ce sujet ou d'une référence à la réponse de @GillesLouppe:

Dans RandomForestClassifier, estimators_ attribut est une liste de DecisionTreeClassifier (comme mentionné dans le la documentation). Afin de calculer le feature_importances_ pour la RandomForestClassifier, dans scikit-learn code source, il est en moyenne sur toute l'estimateur (tous les DecisionTreeClassifer s) feature_importances_ attributs dans l'ensemble.

Dans DecisionTreeClassifer de la documentation, il est mentionné que "L'importance d'une fonction est calculée comme le (normalisé) total de la réduction du critère introduit par cette fonctionnalité. Il est également connu comme le coefficient de Gini importance [1]."

Ici est un lien direct pour de plus amples informations sur la variable et le coefficient de Gini importance, comme prévu par la scikit-learn référence ci-dessous.

[1] L. Breiman, et A. Cutler, “Forêts Aléatoires”, http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

InformationsquelleAutor Makan

Vous devez vous connecter pour publier un commentaire.