Fonction de l'Importance avec XGBClassifier

J'espère que je vais lire ce mal, mais en XGBoost bibliothèque la documentation, il y a la note de l'extraction de la fonction de l'importance des attributs à l'aide de feature_importances_ comme sklearn de la forêt aléatoire.

Cependant, pour une raison quelconque, je reçois cette erreur: AttributeError: 'XGBClassifier' object has no attribute 'feature_importances_'

Mon bout de code est ci-dessous:

from sklearn import datasets
import xgboost as xg
iris = datasets.load_iris()
X = iris.data
Y = iris.target
Y = iris.target[ Y < 2] # arbitrarily removing class 2 so it can be 0 and 1
X = X[range(1,len(Y)+1)] # cutting the dataframe to match the rows in Y
xgb = xg.XGBClassifier()
fit = xgb.fit(X, Y)
fit.feature_importances_

Il semble que vous pouvez calculer la fonction de l'importance à l'aide de la Booster objet en appelant le get_fscore attribut. La seule raison pour laquelle je suis en utilisant XGBClassifier sur Booster est parce qu'il est capable d'être enveloppé dans un sklearn pipeline. Toute réflexion sur la fonctionnalité des extractions? Est ce que quelqu'un d'autre rencontre ce?

Je ne peux pas reproduire le problème avec votre extrait de code. Quelle est la version de XGBoost avez-vous?
de mon pip freeze , j'ai xgboost==0.4a30
Cela vous aide? kaggle.com/mmueller/...
J'ai vu cela avant. Le problème est cependant, est que les get_fscore méthode est liée à la Booster objet plutôt que XGBClassifier à partir de ma compréhension. Voir la doc ici
J'ai 0,4 et votre extrait de code fonctionne sans problème.
Hrm c'est étrange. La version actuelle est 0.4a30 droit? Il apparaît donc à la recherche à leurs repo
à l'aide de feature_importances_ via booster() êtes-vous en mesure d'obtenir les noms de colonne avec précision ? Dans mon cas, il jette un KeyError que pas certaines fonctionnalités ne sont pas présentes dans les données.

InformationsquelleAutor Minh Mai | 2016-07-05

17

Comme les commentaires l'indiquent, je suppose que votre question est une gestion des versions un. Toutefois, si vous ne voulez/pouvez pas mettre à jour, puis la fonction suivante devrait fonctionner pour vous.
```
def get_xgb_imp(xgb, feat_names):
    from numpy import array
    imp_vals = xgb.booster().get_fscore()
    imp_dict = {feat_names[i]:float(imp_vals.get('f'+str(i),0.)) for i in range(len(feat_names))}
    total = array(imp_dict.values()).sum()
    return {k:v/total for k,v in imp_dict.items()}


>>> import numpy as np
>>> from xgboost import XGBClassifier
>>> 
>>> feat_names = ['var1','var2','var3','var4','var5']
>>> np.random.seed(1)
>>> X = np.random.rand(100,5)
>>> y = np.random.rand(100).round()
>>> xgb = XGBClassifier(n_estimators=10)
>>> xgb = xgb.fit(X,y)
>>> 
>>> get_xgb_imp(xgb,feat_names)
{'var5': 0.0, 'var4': 0.20408163265306123, 'var1': 0.34693877551020408, 'var3': 0.22448979591836735, 'var2': 0.22448979591836735}
```
- Approche intéressante! Cependant, serait-il question si je mets mes paramètres pour XGBClassifer? Comment m'assurer qu'il correspond aux paramètres de Booster
- vous faites référence à la booster() de l'objet à l'intérieur de votre XGBClassifer() de l'objet, de sorte qu'il sera de match: xgb.booster()
- J'ai réalisé quelque chose d'étrange, et est censé arriver? Les valeurs retournées de xgb.booster().get_fscore() qui doit contenir des valeurs pour toutes les colonnes, le modèle est formé pour? Parce que je trouve les 2 colonnes manquantes à partir de imp_vals, qui sont présents dans le train de colonnes, mais pas en tant que clé dans imp_cols
- J'ai eu à utiliser xgb.get_booster().get_fscore(). Sinon j'ai été faire TypeError: 'str' object is not callable. Je suis à l'aide de xgboost 0.6.
InformationsquelleAutor David
6

J'ai trouvé la réponse. Il semble que la version 0.4a30 n'a pas feature_importance_ attribut. Par conséquent, si vous installez le xgboost package à l'aide de pip install xgboost il vous sera impossible d'effectuer l'extraction de caractéristiques de la XGBClassifier objet, vous pouvez vous référer à @David réponse si vous souhaitez une solution de contournement.

Cependant, ce que j'ai fait est de le construire à partir de la source par cloner le repo et en cours d'exécution . ./build.sh qui va installer la version 0.4 où la feature_importance_ attribut fonctionne.

Espère que cela aide les autres!

InformationsquelleAutor Minh Mai

Obtenir la Fonction de l'Importance en tant que données triées cadre

import pandas as pd
import numpy as np
def get_xgb_imp(xgb, feat_names):
    imp_vals = xgb.booster().get_fscore()
    feats_imp = pd.DataFrame(imp_vals,index=np.arange(2)).T
    feats_imp.iloc[:,0]= feats_imp.index    
    feats_imp.columns=['feature','importance']
    feats_imp.sort_values('importance',inplace=True,ascending=False)
    feats_imp.reset_index(drop=True,inplace=True)
    return feats_imp

feature_importance_df = get_xgb_imp(xgb, feat_names)

InformationsquelleAutor Ioannis Nasios

Pour xgboost, si vous utilisez xgb.fit(),alors vous pouvez utiliser la méthode suivante pour obtenir la fonctionnalité de l'importance.

import pandas as pd
xgb_model=xgb.fit(x,y)
xgb_fea_imp=pd.DataFrame(list(xgb_model.get_booster().get_fscore().items()),
columns=['feature','importance']).sort_values('importance', ascending=False)
print('',xgb_fea_imp)
xgb_fea_imp.to_csv('xgb_fea_imp.csv')

from xgboost import plot_importance
plot_importance(xgb_model, )

InformationsquelleAutor rosefun

1

Pour ceux ayant le même problème que Luís Bianchin, "TypeError: 'str' object n'est pas appelable", j'ai trouvé une solution (qui fonctionne pour moi au moins) ici.

En bref, j'ai trouvé la modification de Davidle code de
```
imp_vals = xgb.booster().get_fscore()
```
à
```
imp_vals = xgb.get_fscore()
```
a fonctionné pour moi.

Pour plus de détails, je vous recommande de visiter le lien ci-dessus.

Grand merci à David et ianozsvald

InformationsquelleAutor connor.p

Vous devez vous connecter pour publier un commentaire.