Numpy - le coefficient de corrélation et liées à des fonctions statistiques ne donnent pas les mêmes résultats

Pour les données X = [0,0,1,1,0]et Y = [1,1,0,1,1]

>> np.corrcoef(X,Y)

retourne

array([[ 1.        , -0.61237244],
       [-0.61237244,  1.        ]])

Cependant, je ne peux pas reproduire ce résultat à l'aide np.var et np.cov compte tenu de l'équation montré dans http://docs.scipy.org/doc/numpy/reference/generated/numpy.corrcoef.html:

>> np.cov([0,0,1,1,0],[1,1,0,1,1])/sqrt(np.var([0,0,1,1,0])*np.var([1,1,0,1,1]))

array([[ 1.53093109, -0.76546554],
       [-0.76546554,  1.02062073]])

Ce qui se passe ici?

OriginalL'auteur neither-nor | 2014-04-05

4

C'est parce que, np.var par défaut delta degrés de liberté est 0, pas 1.
```
In [57]:

X = [0,0,1,1,0]
Y = [1,1,0,1,1]
np.corrcoef(X,Y) 
Out[57]:
array([[ 1.        , -0.61237244],
       [-0.61237244,  1.        ]])
In [58]:

V = np.sqrt(np.array([np.var(X, ddof=1), np.var(Y, ddof=1)])).reshape(1,-1)
np.matrix(np.cov(X,Y))
Out[58]:
matrix([[ 0.3 , -0.15],
        [-0.15,  0.2 ]])
In [59]:

np.matrix(np.cov(X,Y))/(V*V.T)
Out[59]:
matrix([[ 1.        , -0.61237244],
        [-0.61237244,  1.        ]])
```
Ou regarde la dans le cas contraire:
```
In [70]:

V=np.diag(np.cov(X,Y)).reshape(1,-1) #the diagonal elements
In [71]:

np.matrix(np.cov(X,Y))/np.sqrt(V*V.T)
Out[71]:
matrix([[ 1.        , -0.61237244],
        [-0.61237244,  1.        ]])
```
Ce qui se passe vraiment, np.cov(m, y=None, rowvar=1, bias=0, ddof=None), quand bias et ddof les deux ne sont pas fournies, la valeur par défaut de normalisation est par N-1, N étant le numéro de l'observation. C'est donc l'équivalent d'avoir delta degrés de liberté de 1. Malheureusement, la valeur par défaut pour np.var(a, axis=None, dtype=None, out=None, ddof=0, keepdims=False) a le défaut delta degrés de liberté de 0.

Chaque fois que le doute, le moyen le plus sûr est de saisir les éléments de la diagonale de la matrice de covariance plutôt que de calculer var séparément, afin d'assurer la cohérence du comportement.

2 rapide et, éventuellement, des questions élémentaires: Pourquoi êtes-vous en multipliant V avec ses de transposer au lieu de simplement en multipliant les deux écarts? Et quelle est la signification de ddof, en particulier, quand je fais 1 au lieu de la valeur par défaut de 0?
Si vous venez de V*V, il va être un elememnt-sage de l'opération et le résultat n'est pas le 2 par 2 de la matrice que nous voulons. La deuxième question voir msu.edu/user/sw/statrev/strv155.htm (variance de l'échantillon c. s. variance de population). Mais ce n'est pas exactement la question ici, voir modifier.

OriginalL'auteur CT Zhu

En fonction de votre lien ( http://docs.scipy.org/doc/numpy/reference/generated/numpy.corrcoef.html ), vous devez être conscient des indices...

c = np.cov([0,0,1,1,0],[1,1,0,1,1])
corrcoef = [[ c[0,0]/np.sqrt(c[0,0]*c[0,0]), c[0,1]/np.sqrt(c[0,0]*c[1,1]) ],
           [ c[1,0]/np.sqrt(c[1,1]*c[0,0]), c[1,1]/np.sqrt(c[1,1]*c[1,1]) ]]

print corrcoef
# [[1.0, -0.61237243569579447], [-0.61237243569579447, 1.0]]

C'est à droite!

OriginalL'auteur Travis D.

Vous devez vous connecter pour publier un commentaire.