Comment obtenir la formation d'erreur dans svm de Scikit-learn?

Ma question: Comment puis-je obtenir la formation d'erreur dans le svm module (SVC classe)?

Je suis en train de faire un terrain d'erreur de la composition du train et de l'ensemble de test en fonction du nombre de données d'apprentissage ( ou d'autres caractéristiques, telles que le C /gamma ). Toutefois, selon le SVM documentation , il n'est pas exposé à un attribut ou méthode pour renvoyer ces données. Je n'ai trouver que RandomForestClassifier expose un oob_score_ bien.

La valeur obtenu grâce à l'extrait de code dans la réponse ci-dessus, est-il de l'EXACTITUDE ou de l'ERREUR? Désolé je l'ai posté une réponse, je ne peux pas commenter sur le post précédent parce que j'ai moins de 50 'réputation'

OriginalL'auteur log0 | 2013-07-30

9

Juste calculer le score sur les données d'apprentissage:
```
>>> model.fit(X_train, y_train).score(X_train, y_train)
```
Vous pouvez également utiliser d'autres mesures de performance de la sklearn.metrics module. La doc est ici:

http://scikit-learn.org/stable/modules/model_evaluation.html

Aussi: oob_score_ est une estimation du test /validation de score, pas de la formation score.

Merci Olivier pour souligner. C'est toujours surprenant : la formation d'erreur est de 0,0 pour un couple d'ensembles de données qui j'ai essayé la méthode ci-dessus. J'ai même essayé de le chiffre de reconnaissance sur Kaggle, mais encore les rendements 0 formation d'erreur avec une forêt aléatoire avec seulement 1 arbre. Le test d'erreur est assez élevé cependant. Comment venir? (De ce que j'ai lu sur les vidéos sur Andrew Ng, vous obtenez toujours une baisse de la courbe, pas une parfaite 0.0 formation d'erreur).
Ce qui est attendu: la formation d'erreur peut être égale à zéro, alors que les tests d'erreur ne l'est que rarement. Un grand écart entre les deux dénoter le surajustement (mauvaise utilisation ou de la capacité de la mémoire qui empêche la bonne généralisation). Une grande erreur d'entraînement désigner underfitting (pas assez de capacité de la mémoire dans le modèle). Les modèles d'arbre sont en instance d'apprenants: ils peuvent mémoriser un ensemble de données complet avec un seul déplié arbre, si vous n'avez pas les contraindre à une profondeur limitée.
Le manque de underfitting n'est pas un problème, mais la présence de surapprentissage est. Utilisation aléatoire des forêts ou d'autres randomisés ensembles d'arbres pour lutter contre le surajustement comportement d'un seul arbre.
Merci Olivier! Vous avez gagné beaucoup de points d'interrogation dans ma tête. Bien, je vais certainement le tester avec d'autres algorithmes (moins de modèles complexes) juste pour vérifier ma compréhension.
Dans le cas où les gens se réfèrent à ce sujet dans l'avenir : j'ai essayé naive_bayes.GaussianNB, naive_bayes.BernoulliNB, NearestCentroid et quelques autres non-instance en fonction d'apprenants, la formation d'erreur est non-nul, et confirme ainsi au-dessus de Olivier explication. Merci encore au-dessus.

OriginalL'auteur ogrisel

Vous devez vous connecter pour publier un commentaire.