Quels sont les paramètres de la sklearn de la fonction de score?

J'ai récemment regardé un tas de sklearn tutoriels, qui étaient tous semblables en ce qu'ils ont marqué la qualité de l'ajustement par:

clf.fit(X_train, y_train)
clf.score(X_test, y_test)

Et il va cracher:

0.92345...

ou une autre partition.

Je suis curieux de savoir les paramètres de la fcf.fonction de partition ou de la façon de les scores du modèle. J'ai regardé partout sur internet, mais ne semble pas possible de trouver de la documentation. Personne ne sait?

Je crois que cela dépend du modèle
Si la fonction de notation des changements de SVMs, modèles linéaires, et d'autres classificateurs et les régresseurs? Ça semble être un mal de tête!

OriginalL'auteur tooty44 | 2014-06-27

python scikit-learn

17

Il faut une caractéristique de la matrice X_test et la cible attendue valeurs y_test. Prédictions pour X_test sont comparés avec y_test et soit la précision (pour les classificateurs) ou R2 score (pour les estimateurs de régression est retourné.

C'est ce que dit très explicitement dans les docstrings pour score méthodes. L'un pour la classification lit
```
Returns the mean accuracy on the given test data and labels.

Parameters
----------
X : array-like, shape = (n_samples, n_features)
    Test samples.

y : array-like, shape = (n_samples,)
    True labels for X.

sample_weight : array-like, shape = [n_samples], optional
    Sample weights.

Returns
-------
score : float
    Mean accuracy of self.predict(X) wrt. y.
```
et celui de la régression est similaire.

D'où vient-il de se y_test et x_test?
Vous avez à vous préparer X_test et y_test et il ya quelques façons de le faire. Si vous utilisez scikit-learn, la fonction train_test_split de sklearn.model_selection est celui que vous recherchez.

OriginalL'auteur Fred Foo
2

Pas sûr que j'ai bien compris votre question. Évidemment, pour calculer l'erreur ou de la similitude de la plupart des fonctions de scoring de recevoir un tableau de valeurs de référence (y_true) et un tableau des valeurs prédites par votre modèle (y_score) comme les principaux paramètres, mais peut aussi recevoir d'autres paramètres, spécifiques pour la métrique. Notation des fonctions habituellement n'ont pas besoin de valeurs de X.

Je suggère de regarder dans le code source de la notation des fonctions de comprendre comment ils fonctionnent.

Voici une liste des fonctions de scoring dans scikit-learn.

OriginalL'auteur newtover
1

C'est classificateur dépendante. Chaque classificateur fournit sa propre fonction de notation.

Estimateur score méthode: Estimateurs ont un score de méthode en fournissant un
par défaut le critère d'évaluation pour le problème qu'ils sont conçus pour
résoudre. Ce n'est pas discuté sur cette page, mais dans chaque estimateur
de la documentation.

En dehors de la documentation que vous avez reçu dans l'une des réponses, la seule chose que vous pouvez faire est de lire ce genre de paramètres de votre estimateur fournit. Par exemple SVM SVC a les paramètres suivants note(X, y, sample_weight=None)

OriginalL'auteur Salvador Dali
0

Syntaxe:
sklearn.métriques.accuracy_score(y_true, y_pred, de normaliser=True, sample_weight=None)

Dans multilabel classification, cette fonction calcule sous-ensemble précision: l'ensemble des étiquettes prévues pour un échantillon doit correspondre exactement au jeu d'étiquettes dans y_true.

Paramètres:
y_true : 1d semblable au tableau, ou de l'étiquette de l'indicateur de tableau /sparse matrix
La vérité terrain (corriger) les étiquettes.

y_pred: 1d semblable au tableau, ou de l'étiquette de l'indicateur de tableau /sparse matrix
Prédit étiquettes, renvoyé par un classificateur.

normaliser : bool, facultatif (défaut=True)
Si la valeur est False, retourner le nombre de classifier correctement les échantillons. Sinon, le retour de la fraction de classifier correctement les échantillons.

sample_weight : semblable au tableau de la forme = [n_samples], en option
Exemple de poids.

Retourne:

score : flotteur
Si normaliser == True, le retour de la fraction de classifier correctement les échantillons (float), sinon retourne le nombre de classifier correctement les échantillons (int).

La meilleure performance est de 1 à normaliser == True et le nombre d'échantillons à normaliser == False.

Pour plus d'informations vous pouvez consulter:
[https://scikit-learn.org/stable/modules/model_evaluation.html#accuracy-score%5D%5B1%5D

OriginalL'auteur Hammad Basit

Vous devez vous connecter pour publier un commentaire.