Scikit-learn predict_proba donne de mauvaises réponses

C'est une question de suivi à partir de Comment savoir ce que les classes sont représentées dans le tableau de predict_proba dans Scikit-learn

Dans cette question, j'ai cité le code suivant:

>>> import sklearn
>>> sklearn.__version__
'0.13.1'
>>> from sklearn import svm
>>> model = svm.SVC(probability=True)
>>> X = [[1,2,3], [2,3,4]] # feature vectors
>>> Y = ['apple', 'orange'] # classes
>>> model.fit(X, Y)
>>> model.predict_proba([1,2,3])
array([[ 0.39097541,  0.60902459]])

J'ai découvert à cette question, ce résultat représente la probabilité de le point appartenant à chaque classe, dans l'ordre donné par le modèle.classes_

>>> zip(model.classes_, model.predict_proba([1,2,3])[0])
[('apple', 0.39097541289393828), ('orange', 0.60902458710606167)]

Donc... cette réponse, si on l'interprète correctement, dit que le point est probablement un "orange" (avec un assez faible niveau de confiance, en raison de la petite quantité de données). Mais intuitivement, ce résultat est manifestement inexact, puisque le point donné est identique à la formation des données pour 'pomme'. Juste pour être sûr, j'ai testé le sens inverse:

>>> zip(model.classes_, model.predict_proba([2,3,4])[0])
[('apple', 0.60705475211840931), ('orange', 0.39294524788159074)]

De nouveau, manifestement incorrect, mais dans l'autre sens.

Enfin, j'ai essayé avec des points qui ont été beaucoup plus loin.

>>> X = [[1,1,1], [20,20,20]] # feature vectors
>>> model.fit(X, Y)
>>> zip(model.classes_, model.predict_proba([1,1,1])[0])
[('apple', 0.33333332048410247), ('orange', 0.66666667951589786)]

Encore une fois, le modèle prédit la mauvaise probabilités. MAIS, le modèle.prédire la fonction se à droite!

>>> model.predict([1,1,1])[0]
'apple'

Maintenant, je me souviens avoir lu quelque chose dans les docs sur predict_proba inexacte pour les petits jeux de données, mais je n'arrive pas à le retrouver. Est-ce le comportement attendu, ou suis-je en train de faire quelque chose de mal? Si c'EST le comportement attendu, alors pourquoi ne le prédire et predict_proba fonction de désaccord de la sortie? Et surtout, quelle taille fait le jeu de données doivent être avant que je puisse avoir confiance dans les résultats de predict_proba?

-------- Mise à JOUR --------

Ok, donc j'ai fait un peu plus d'expériences dans ce: le comportement de predict_proba est fortement dépendante de 'n', mais pas en aucune façon prévisible!

>>> def train_test(n):
...     X = [[1,2,3], [2,3,4]] * n
...     Y = ['apple', 'orange'] * n
...     model.fit(X, Y)
...     print "n =", n, zip(model.classes_, model.predict_proba([1,2,3])[0])
... 
>>> train_test(1)
n = 1 [('apple', 0.39097541289393828), ('orange', 0.60902458710606167)]
>>> for n in range(1,10):
...     train_test(n)
... 
n = 1 [('apple', 0.39097541289393828), ('orange', 0.60902458710606167)]
n = 2 [('apple', 0.98437355278112448), ('orange', 0.015626447218875527)]
n = 3 [('apple', 0.90235408180319321), ('orange', 0.097645918196806694)]
n = 4 [('apple', 0.83333299908143665), ('orange', 0.16666700091856332)]
n = 5 [('apple', 0.85714254878984497), ('orange', 0.14285745121015511)]
n = 6 [('apple', 0.87499969631893626), ('orange', 0.1250003036810636)]
n = 7 [('apple', 0.88888844127886335), ('orange', 0.11111155872113669)]
n = 8 [('apple', 0.89999988018127364), ('orange', 0.10000011981872642)]
n = 9 [('apple', 0.90909082368682159), ('orange', 0.090909176313178491)]

Comment dois-je utiliser cette fonction en toute sécurité dans mon code? À tout le moins, est-il une valeur de n pour laquelle il sera garanti d'accord avec le résultat du modèle.prévoir?

InformationsquelleAutor Alex | 2013-06-10

python scikit-learn

18

si vous utilisez svm.LinearSVC() comme estimateur, et .decision_function() (qui est comme svm.SVC est .predict_proba()) pour trier les résultats de la plus probable de la classe la moins probable. ceci est en accord avec .predict() fonction. De Plus, cet estimateur est plus rapide et donne presque les mêmes résultats avec svm.SVC()

le seul inconvénient pour vous peut-être que .decision_function() donne une valeur signée qqch comme entre -1 et 3 au lieu d'une valeur de probabilité. mais il est d'accord avec la prédiction.
- C'est intéressant de Bilal... je n'ai pas vraiment besoin de les probabilités pour mon but, juste de la commande. Je pense que c'est la réponse que je cherche.
- Oui intéressant. J'ai eu le même problème et a utilisé cette méthode pour la commande. Il m'a donné de meilleurs résultats que predict_proba()
- Notez que LinearSVC() donnera des prédictions similaires comme SVC(kernel='linear') mais pas SVC(kernel='rbf') qui est le noyau par défaut pour SVC.
InformationsquelleAutor Bilal Dadanlar
21

predict_probas est l'aide de l'Platt mise à l'échelle caractéristique de libsvm à callibrate probabilités, voir:
- Comment sklearn.svm.svc fonction predict_proba() de travail à l'interne?
Donc en effet le hyperplane prédictions et la proba d'étalonnage peuvent être en désaccord, surtout si vous ne disposez que de 2 échantillons dans votre jeu de données. C'est bizarre que l'interne de la croix-validation par libsvm pour la mise à l'échelle des probabilités de ne pas (explicitement) dans ce cas. C'est peut-être un bug. On aurait pu plonger dans le Platt mise à l'échelle de code de libsvm à comprendre ce qui se passe.
- Juste en ajoutant à cela: Dans le principe de la validation croisée d'accord avec la décision de la limite pour n grand.
InformationsquelleAutor ogrisel

De la nourriture pour la pensée ici. Je pense que j'ai effectivement eu le predict_proba de travail. Veuillez voir le code ci-dessous...

# Test data
TX = [[1,2,3], [4,5,6], [7,8,9], [10,11,12], [13,14,15], [16,17,18], [19,20,21], [22,23,24]]
TY = ['apple', 'orange', 'grape', 'kiwi', 'mango','peach','banana','pear']
VX2 = [[16,17,18], [19,20,21], [22,23,24], [13,14,15], [10,11,12], [7,8,9], [4,5,6], [1,2,3]]
VY2 = ['peach','banana','pear','mango', 'kiwi', 'grape', 'orange','apple']
VX2_df = pd.DataFrame(data=VX2) # convert to dataframe
VX2_df = VX2_df.rename(index=float, columns={0: "N0", 1: "N1", 2: "N2"})
VY2_df = pd.DataFrame(data=VY2) # convert to dataframe
VY2_df = VY2_df.rename(index=float, columns={0: "label"})
# NEW - in testing
def train_model(classifier, feature_vector_train, label, feature_vector_valid, valid_y, valid_x, is_neural_net=False):
# fit the training dataset on the classifier
classifier.fit(feature_vector_train, label)
# predict the top n labels on validation dataset
n = 5
#classifier.probability = True
probas = classifier.predict_proba(feature_vector_valid)
predictions = classifier.predict(feature_vector_valid)
#Identify the indexes of the top predictions
#top_n_predictions = np.argsort(probas)[:,:-n-1:-1]
top_n_predictions = np.argsort(probas, axis = 1)[:,-n:]
#then find the associated SOC code for each prediction
top_socs = classifier.classes_[top_n_predictions]
#cast to a new dataframe
top_n_df = pd.DataFrame(data=top_socs)
#merge it up with the validation labels and descriptions
results = pd.merge(valid_y, valid_x, left_index=True, right_index=True)
results = pd.merge(results, top_n_df, left_index=True, right_index=True)
conditions = [
(results['label'] == results[0]),
(results['label'] == results[1]),
(results['label'] == results[2]),
(results['label'] == results[3]),
(results['label'] == results[4])]
choices = [1, 1, 1, 1, 1]
results['Successes'] = np.select(conditions, choices, default=0)
print("Top 5 Accuracy Rate = ", sum(results['Successes'])/results.shape[0])
print("Top 1 Accuracy Rate = ", metrics.accuracy_score(predictions, valid_y))
train_model(naive_bayes.MultinomialNB(), TX, TY, VX2, VY2_df, VX2_df)

De sortie:
Top 5 Des Taux De Précision = 1.0
Top 1 Taux De Précision = 1.0

Ne pouvais pas le faire fonctionner pour mes propres données si 🙁

InformationsquelleAutor Statmonger

-1

Il existe une certaine confusion quant à ce qui predict_proba la réalité. Il ne permet pas de prédire les probabilités comme le suggère le titre, mais les sorties distances.
Dans l'apple vs orange exemple 0.39097541, 0.60902459 la distance la plus courte 0.39097541 est la pomme de classe. qui est contre-intuitif. vous êtes à la recherche à la probabilité la plus élevée, mais ce n'est pas le cas.

Une autre source de confusion vient de là predict_proba match dur étiquettes, tout simplement pas dans l'ordre des classes, à partir de 0..n de manière séquentielle . Scikit semble aléatoire les classes, mais il est possible de les cartographier.

ici est de savoir comment il fonctionne.

   say we have 5 classes with labels:
classifier.classes_ = [0 1 2 3 4]
target names = ['1', '2', '3', '6', '8']

prédit étiquettes [2 0 1 0 4]

    classifier.predict_proba
[[ 0.20734121  0.20451986  0.17262553  0.20768649  0.20782692]
[ 0.19099348  0.2018391   0.20222314  0.20136784  0.20357644]
[ 0.19982284  0.19497121  0.20399376  0.19824784  0.20296435]
[ 0.19884577  0.1999416   0.19998889  0.20092702  0.20029672]
[ 0.20328893  0.2025956   0.20500402  0.20383255  0.1852789 ]]
Confusion matrix:
[[1 0 0 0 0]
[0 1 0 0 0]
[0 0 1 0 0]
[1 0 0 0 0]
[0 0 0 0 1]]
y_test [2 0 1 3 4]
pred [2 0 1 0 4]
classifier.classes_ = [0 1 2 3 4]

rien, mais la troisième classe est un match.
selon prédit étiquettes en cm, classe 0 est prévue et réelle de classe est
0 argmax(pred_prob).
Mais, son mappé à

     y_test [2 0 1 3 4]

afin de trouver la deuxième classe

    0              1             2          3          4
[ 0.20734121  0.20451986  0.17262553  0.20768649  0.20782692]
and the winner is **0.17262553**

nous allons le faire à nouveau.
regarder les erreurs de classification résultat numero 4, où réel lebel 4, prédit 1 selon cm.

    BUT y_test [2 0 1 3 4] pred [2 0 1 0 4]
which translates to actual label 3 predicted label 0
0             1             2            3        4
]0.19884577  0.1999416   0.19998889  0.20092702  0.20029672]
look at label number 0, and the winner is **0.19884577**

Ce sont mes 0.02.

InformationsquelleAutor lrn2code

Vous devez vous connecter pour publier un commentaire.