Scikit-learn est de retour coefficient de détermination (R^2) les valeurs inférieures à -1

Je suis en train de faire un modèle linéaire simple. J'ai

fire = load_data()
regr = linear_model.LinearRegression()
scores = cross_validation.cross_val_score(regr, fire.data, fire.target, cv=10, scoring='r2')
print scores

qui donne

[  0.00000000e+00   0.00000000e+00  -8.27299054e+02  -5.80431382e+00
  -1.04444147e-01  -1.19367785e+00  -1.24843536e+00  -3.39950443e-01
   1.95018287e-02  -9.73940970e-02]

Comment est-ce possible? Lorsque je fais la même chose avec la construction dans le diabète de données, il fonctionne parfaitement bien, mais pour mes données, il renvoie ces apparemment des résultats absurdes. Ai-je fait quelque chose de mal?

Pour que cela se produise avec un LinearRegression, votre modèle doit être si mauvais que prédire une simple moyenne tous les temps serait mieux. Habituellement, cela signifie que votre modèle est en cours de montage. Voir ma réponse ci-dessous pour plus de détails, ou essayez le réglage cv un nombre plus petit.

OriginalL'auteur rhombidodecahedron | 2014-04-12

18

Il n'y a pas de raison r^2 ne devrait pas être négatif (malgré le ^2 dans son nom). Ceci est également indiqué dans le doc. Vous pouvez voir r^2 que la comparaison de votre ajustement du modèle (dans le contexte de la régression linéaire, l'e.g un modèle d'ordre 1 (affine)) à un modèle d'ordre 0 (juste à côté d'une constante), à la fois par minimisation d'un carré de perte. La constante de minimiser l'erreur quadratique est la moyenne. Puisque vous faites de la croix de validation avec le bouton gauche de données, il peut arriver que la moyenne de votre jeu de test est très différent de la moyenne de votre formation. Cela seul peut induire beaucoup plus engagés erreur quadratique de prédiction rapport à la prévision de la moyenne des données de test, ce qui donne un résultat négatif r^2 score.

Dans le pire des cas, si vos données ne permettent pas d'expliquer à votre cible, ces scores peuvent devenir très fortement négatif. Essayez
```
import numpy as np
rng = np.random.RandomState(42)
X = rng.randn(100, 80)
y = rng.randn(100)  # y has nothing to do with X whatsoever
from sklearn.linear_model import LinearRegression
from sklearn.cross_validation import cross_val_score
scores = cross_val_score(LinearRegression(), X, y, cv=5, scoring='r2')
```
Ce qui devrait résulter en négatif r^2 valeurs.
```
In [23]: scores
Out[23]: 
array([-240.17927358,   -5.51819556,  -14.06815196,  -67.87003867,
    -64.14367035])
```
La grande question est maintenant de savoir si cela est dû au fait que les modèles linéaires il suffit de ne pas trouver quelque chose dans vos données, ou à autre chose qui peut être fixé dans le pré-traitement de vos données. Avez-vous essayé de mise à l'échelle de vos colonnes pour avoir de moyenne 0 et de variance 1? Vous pouvez faire cela en utilisant sklearn.preprocessing.StandardScaler. Comme une question de fait, vous devez créer un nouvel estimateur par la concaténation d'un StandardScaler et la LinearRegression dans un pipeline à l'aide sklearn.pipeline.Pipeline.
Ensuite, vous pouvez essayer de régression Ridge.

Merci pour votre aide. Je sais que R^2 peut être négatif, mais je pensais que c'était censé être limité à l'intervalle [-1, 1]. N'est-ce pas le cas?
R^2 est délimitée au-dessus de 1,0, mais il n'est pas délimitée ci-dessous. Corrélation est toujours délimitée entre -1 et 1.
Tout simplement parce que R^2 peut être négatif, il ne signifie pas que nous devrions attendre d'elle. Veuillez voir ma réponse ci-dessous pour des raisons de R^2 peut être négatif et comment les corriger.

OriginalL'auteur eickenberg
6

R2 = 1 - RSS /TSS, où RSS est la somme résiduelle des carrés ∑(y - f(x))2 et le TSS est la somme totale des carrés ∑(y - mean(y))2. Maintenant, pour R2 ≥ -1, il est nécessaire que le RSS/TSS ≤ 2, mais il est facile de construire un modèle de dataset et pour qui ce n'est pas vrai:
```
>>> x = np.arange(50, dtype=float)
>>> y = x
>>> def f(x): return -100
...
>>> rss = np.sum((y - f(x)) ** 2)
>>> tss = np.sum((y - y.mean()) ** 2)
>>> 1 - rss / tss
-74.430972388955581
```
Exactement, le modèle doit être "assez mal", ce qui n'est pas difficile si vous choisissez quelque chose qui ne correspond pas du tout.

OriginalL'auteur Fred Foo
5

Juste parce que R^2 peut être négatif ne signifie pas qu'il devrait être.

Possibilité 1: un bug dans votre code.

Une commune bug que vous devriez vérifier est que vous êtes de passage dans les paramètres correctement:
```
r2_score(y_true, y_pred) # Correct!
r2_score(y_pred, y_true) # Incorrect!!!!
```
Possibilité 2: les petits jeux de données

Si vous êtes l'obtention d'un négatif de R^2, vous pouvez aussi consulter pour plus de côté. Gardez à l'esprit que cross_validation.cross_val_score() ne fait pas de manière aléatoire shuffle vos entrées, donc si votre échantillon sont envoyés par inadvertance (par date, par exemple), alors vous pouvez construire des modèles sur chaque pli qui ne sont pas prédictifs pour les autres plis.

Essayez de réduire le nombre de fonctionnalités, l'augmentation du nombre d'échantillons, et en diminuant le nombre de plis (si vous utilisez cross_validation). Il n'existe pas de règle officielle ici, votre m x n dataset (où m est le nombre d'échantillons et n est le nombre de fonctionnalités) devraient être d'une forme où
```
m > n^2
```
et quand vous à l'aide de la validation croisée avec f que le nombre de plis, vous devriez viser pour
```
m/f > n^2
```
Bon point de vue pour les bugs. Négatif R^2 est certainement la peine d'enquêter! Cependant, même si vous faites tout droit de R^2 peut toujours être négatif par pure stochasticité. Comme une question de fait, la distribution nulle de prévision des R^2 plus de bruit Gaussien (pour les données non prévisibles par le prédicteur) à l'aide d'un prédicteur linéaire est négatif. (La moyenne estimée est fausse, c'est à dire pas 0, et la pente sera presque certainement pas être égal à 0)
vrai, mais je crois que dans la plupart des cas, il sera légèrement négative. la raison en fait, j'ai découvert cette question était parce que j'étais un R^2 d'environ -0.99, et il s'est avéré que je n'avais tout simplement renversé y_true et y_pred dans r2_score. J'imagine que beaucoup d'utilisateurs ont de même idiot de bugs.
Oui, observation intéressante! En effet, si les prévisions ont moins de variance que la cible (ce qui est généralement le cas si par exemple bruit additif est impliqué) ce qui va rendre la R^2 arbitrairement bas. Bon pour avoir ce qui est écrit ici, il peut conduire à beaucoup de gens passent moins de temps avec ce type de bug.

OriginalL'auteur mgoldwasser
0

Si vous obtenez négatif de régression r^2 scores, assurez-vous de retirer tout identifiant unique (par exemple, "id" ou "rownum") à partir de votre jeu de données avant le montage de la notation du modèle. Vérification Simple, mais il va vous faire économiser des maux de tête de temps.

OriginalL'auteur Alexus Wong

Vous devez vous connecter pour publier un commentaire.