Les coefficients de corrélation et les valeurs de p pour toutes les paires de lignes d'une matrice

J'ai une matrice data avec m lignes et n colonnes. J'ai utilisé pour calculer les coefficients de corrélation entre toutes les paires de lignes à l'aide de np.corrcoef:

import numpy as np
data = np.array([[0, 1, -1], [0, -1, 1]])
np.corrcoef(data)

Maintenant, je voudrais aussi avoir un regard sur les p-valeurs de ces coefficients. np.corrcoef ne fournit pas ces; scipy.les stats.pearsonr. Cependant, scipy.stats.pearsonr ne pas accepter une matrice sur entrée.

Est-il un moyen rapide comment calculer le coefficient et la p-valeur pour toutes les paires de lignes (en arrivant par exemple à deux m par m matrices, l'une avec des coefficients de corrélation, l'autre correspondant aux valeurs de p) sans avoir à sélectionner manuellement toutes les paires?

Est-il une raison de ne pas simplement itérer sur la ligne de paires? Il est un peu maladroit, mais le code n'est pas très long, et très probablement, il ne va pas être un problème de performance, comme la plupart du temps est de toute façon passé le calcul de la pearsons. (I. e. voulez-vous dire "rapide" comme dans les temps de programmation ou "rapide", comme dans la performance.) Je vous suggère de prendre le trivial de l'itinéraire et du profil de la performance réelle.

OriginalL'auteur John Manak | 2014-06-26

J'ai rencontré le même problème aujourd'hui.

Après une demi-heure de recherche sur google, je ne trouve pas de code dans numpy/scipy bibliothèque peut m'aider à le faire.

J'ai donc écrit ma propre version de corrcoef

import numpy as np
from scipy.stats import pearsonr, betai

def corrcoef(matrix):
    r = np.corrcoef(matrix)
    rf = r[np.triu_indices(r.shape[0], 1)]
    df = matrix.shape[1] - 2
    ts = rf * rf * (df / (1 - rf * rf))
    pf = betai(0.5 * df, 0.5, df / (df + ts))
    p = np.zeros(shape=r.shape)
    p[np.triu_indices(p.shape[0], 1)] = pf
    p[np.tril_indices(p.shape[0], -1)] = pf
    p[np.diag_indices(p.shape[0])] = np.ones(p.shape[0])
    return r, p

def corrcoef_loop(matrix):
    rows, cols = matrix.shape[0], matrix.shape[1]
    r = np.ones(shape=(rows, rows))
    p = np.ones(shape=(rows, rows))
    for i in range(rows):
        for j in range(i+1, rows):
            r_, p_ = pearsonr(matrix[i], matrix[j])
            r[i, j] = r[j, i] = r_
            p[i, j] = p[j, i] = p_
    return r, p

La première version utiliser le résultat de la np.corrcoef, puis de calculer la valeur de p basée sur le triangle-haut les valeurs de corrcoef de la matrice.

La deuxième boucle de la version juste une itération sur les lignes, ne pearsonr manuellement.

def test_corrcoef():
    a = np.array([
        [1, 2, 3, 4],
        [1, 3, 1, 4],
        [8, 3, 8, 5]])

    r1, p1 = corrcoef(a)
    r2, p2 = corrcoef_loop(a)

    assert np.allclose(r1, r2)
    assert np.allclose(p1, p2)

Le test réussi, ils sont les mêmes.

def test_timing():
    import time
    a = np.random.randn(100, 2500)

    def timing(func, *args, **kwargs):
        t0 = time.time()
        loops = 10
        for _ in range(loops):
            func(*args, **kwargs)
        print('{} takes {} seconds loops={}'.format(
            func.__name__, time.time() - t0, loops))

    timing(corrcoef, a)
    timing(corrcoef_loop, a)


if __name__ == '__main__':
    test_corrcoef()
    test_timing()

La performance sur mon Macbook contre 100x2500 matrice

corrcoef prend 0.06608104705810547 secondes boucles=10

corrcoef_loop prend 7.585600137710571 secondes boucles=10

Ce code ne fonctionne pas avec scipy 1.0.0 parce que le betai fonction a été supprimée après l'autodérision. On devrait utiliser betainc dans le scipy.module spécial à la place.

OriginalL'auteur jingchao

Les plus consice façon de faire pourrait être le bâtiment de la méthode .corr dans pandas, pour obtenir r:

In [79]:

import pandas as pd
m=np.random.random((6,6))
df=pd.DataFrame(m)
print df.corr()
          0         1         2         3         4         5
0  1.000000 -0.282780  0.455210 -0.377936 -0.850840  0.190545
1 -0.282780  1.000000 -0.747979 -0.461637  0.270770  0.008815
2  0.455210 -0.747979  1.000000 -0.137078 -0.683991  0.557390
3 -0.377936 -0.461637 -0.137078  1.000000  0.511070 -0.801614
4 -0.850840  0.270770 -0.683991  0.511070  1.000000 -0.499247
5  0.190545  0.008815  0.557390 -0.801614 -0.499247  1.000000

Pour obtenir les valeurs de p en utilisant le test t:

In [84]:

n=6
r=df.corr()
t=r*np.sqrt((n-2)/(1-r*r))

import scipy.stats as ss
ss.t.cdf(t, n-2)
Out[84]:
array([[ 1.        ,  0.2935682 ,  0.817826  ,  0.23004382,  0.01585695,
         0.64117917],
       [ 0.2935682 ,  1.        ,  0.04363408,  0.17836685,  0.69811422,
         0.50661121],
       [ 0.817826  ,  0.04363408,  1.        ,  0.39783538,  0.06700715,
         0.8747497 ],
       [ 0.23004382,  0.17836685,  0.39783538,  1.        ,  0.84993082,
         0.02756579],
       [ 0.01585695,  0.69811422,  0.06700715,  0.84993082,  1.        ,
         0.15667393],
       [ 0.64117917,  0.50661121,  0.8747497 ,  0.02756579,  0.15667393,
         1.        ]])
In [85]:

ss.pearsonr(m[:,0], m[:,1])
Out[85]:
(-0.28277983892175751, 0.58713640696703184)
In [86]:
#be careful about the difference of 1-tail test and 2-tail test:
0.58713640696703184/2
Out[86]:
0.2935682034835159 #the value in ss.t.cdf(t, n-2) [0,1] cell

Aussi vous pouvez simplement utiliser le scipy.stats.pearsonr vous avez mentionné à l'OP:

In [95]:
#returns a list of tuples of (r, p, index1, index2)
import itertools
[ss.pearsonr(m[:,i],m[:,j])+(i, j) for i, j in itertools.product(range(n), range(n))]
Out[95]:
[(1.0, 0.0, 0, 0),
 (-0.28277983892175751, 0.58713640696703184, 0, 1),
 (0.45521036266021014, 0.36434799921123057, 0, 2),
 (-0.3779357902414715, 0.46008763115463419, 0, 3),
 (-0.85083961671703368, 0.031713908656676448, 0, 4),
 (0.19054495489542525, 0.71764166168348287, 0, 5),
 (-0.28277983892175751, 0.58713640696703184, 1, 0),
 (1.0, 0.0, 1, 1),
#etc, etc

OriginalL'auteur CT Zhu

4

Sorte de hackish et probablement inefficace, mais je pense que cela pourrait être ce que vous cherchez:
```
import scipy.spatial.distance as dist

import scipy.stats as ss

# Pearson's correlation coefficients
print dist.squareform(dist.pdist(data, lambda x, y: ss.pearsonr(x, y)[0]))    

# p-values
print dist.squareform(dist.pdist(data, lambda x, y: ss.pearsonr(x, y)[1]))
```
Scipy est pdist est une fonction très utile, qui est principalement destinée pour trouver Les distances entre les observations en n dimensions de l'espace.

Mais il permet à l'utilisateur défini appelables à distance de mesure, qui peuvent être exploitées pour réaliser tout type de paire opération. Le résultat est renvoyé dans un condensé de distance de la matrice de la forme, qui peut être facilement modifié pour la matrice carrée formulaire à l'aide de Scipy " squareform fonction.

Plutôt que de passer votre propre fonction Python pour le calcul du coefficient de corrélation, vous pouvez utiliser metric='correlation' qui est égal à (1 - coefficient de corrélation), et est codé en C (donc devrait être beaucoup plus efficace).
Il est à la recherche pour les p-valeurs. Vous n'obtiendrez pas les valeurs de p si vous utilisez la fonction intégrée de corrélation statistique.
Vous pouvez dériver de p-valeurs des coefficients de corrélation assez facilement (voir jingchao la réponse de ici)
(aussi CT Zhu réponse)
Cette approche satisfait mes besoins, et, il semble simple pour moi. Veuillez suivre toutes les réponse qui vous convient le plus.

OriginalL'auteur Ketan
0

Si vous n'avez pas à utiliser coefficient de corrélation de pearson, vous pouvez utiliser le corrélation de spearman, car il renvoie à la fois la matrice de corrélation et les valeurs de p (notez que le premier exige que vos données sont normalement distribuées, alors que la corrélation de spearman est un non-paramétrique de mesure, donc pas en supposant que la distribution normale de vos données). Un exemple de code:
```
from scipy import stats
import numpy as np

data = np.array([[0, 1, -1], [0, -1, 1], [0, 1, -1]])
print 'np.corrcoef:', np.corrcoef(data)
cor, pval = stats.spearmanr(data.T)
print 'stats.spearmanr - cor:\n', cor
print 'stats.spearmanr - pval\n', pval
```
OriginalL'auteur Sahar

Vous devez vous connecter pour publier un commentaire.