Comment régler les paramètres dans la Forêt au Hasard, à l'aide de Scikit Learn?

class sklearn.ensemble.RandomForestClassifier(n_estimators=10,
                                              criterion='gini', 
                                              max_depth=None,
                                              min_samples_split=2,
                                              min_samples_leaf=1, 
                                              min_weight_fraction_leaf=0.0, 
                                              max_features='auto', 
                                              max_leaf_nodes=None, 
                                              bootstrap=True, 
                                              oob_score=False,
                                              n_jobs=1, 
                                              random_state=None,
                                              verbose=0, 
                                              warm_start=False, 
                                              class_weight=None)

Je suis à l'aide d'une forêt aléatoire modèle avec 9 échantillons et environ 7000 attributs. De ces échantillons, il existe 3 catégories que mon classificateur reconnaît.

Je sais que c'est loin d'être des conditions idéales, mais je suis à essayer de comprendre quels sont les attributs les plus importants en fonction des prédictions. Quels sont les paramètres qui serait le meilleur tweak pour l'optimisation de la fonction de l'importance?

J'ai essayé différentes n_estimators et a remarqué que la quantité de "caractéristiques" (c'est à dire des valeurs non nulles dans la feature_importances_ tableau) a augmenté de façon spectaculaire.

J'ai lu la documentation mais si quelqu'un a la moindre expérience dans ce domaine, je voudrais savoir quels sont les paramètres qui sont les meilleurs pour régler et une brève explication de pourquoi.

  • Pourquoi êtes-vous en utilisant quelque chose comme RF pour 9 échantillons? Il y a tellement de choses qui peuvent mal se passer ici. Pour un, vous pouvez aller en bas de la plusieurs hypothèse chemin d'accès à expliquer vos données. Votre arbre estimateurs aura une super grande diversité et horrible de la précision. Je pourrais continuer. Fondamentalement, le plus gros problème avec le RF sur de petits ensembles de données, c'est qu'ils sont presque entièrement non interprétables boîtes noires, la répartition dans l'espace de la fonctionnalité et de l'échantillon de l'espace sont fait de manière aléatoire.
  • D'accord. Je voudrais faire cela très différemment maintenant avec plus d'expérience.
InformationsquelleAutor O.rka | 2016-03-19