python - comment calculer la corrélation de la matrice avec nans données de la matrice

Je coundn pas trouver une fonction qui calcule une matrice de coefficients de corrélation pour les tableaux contenant les observations de plus de deux variables lorsqu'il y a NaNs les données. Il y a des fonctions de le faire pour les paires de variables (ou juste le masquage des tableaux à l'aide de ~est.nan()). Mais l'utilisation de ces fonctions en boucle sur un grand nombre de variables, le calcul de la corrélation pour chaque paire peut être très coûteuse en temps.

J'ai donc essayé sur mon propre et vite rendu compte que la complexité de la faire, c'est une question de bon normalisation de la Covariance. Je serais très intérêt dans votre opinions sur la façon de le faire.

Voici le code:

def nancorr(X,nanfact=False):
    X = X - np.nanmean(X,axis=1,keepdims = True)*np.ones((1,X.shape[1]))

    if nanfact:
        mask = np.isnan(X).astype(int)
        fact = X.shape[1] - np.dot(mask,mask.T) - 1    

    X[np.isnan(X)] = 0
    if nanfact:
        cov = np.dot(X,X.T)/fact
    else:
        cov = np.dot(X,X.T)

    d = np.diag(cov)
    return cov/np.sqrt(np.multiply.outer(d,d))

La fonction suppose que chaque ligne est une variable. Il s'agit essentiellement d'une adaptation de code à partir de numpy est corrcoeff().
Je crois qu'il y a trois façons de le faire:

(1) Pour chaque paire de variables, vous prenez uniquement les observations pour lesquelles ni l'un ni l'autre variable est NaN. C'est sans doute le plus précis, mais aussi plus difficile à programmer, si vous voulez faire le calcul pour de plus d'une paire simultanément et ne sont pas couverts dans le code ci-dessus. Pourquoi, d'ailleurs, de jeter de l'information sur la moyenne et la variance de chaque variable, juste parce que l'entrée correspondante de l'autre variable est NaN? Par conséquent, les deux autres options.

(2) Nous rabaisser chaque variable, il nanmean et de la variance de chaque variable est son nanvariance. Pour la covariance, chaque observation où l'une ou l'autre variable est NaN, mais pas les deux, est un constat de non-covariation et, par conséquent, la valeur zéro. Le facteur de la covariance est alors 1/(# d'observation où les deux variables sont de NaN - 1), dénoté par n. Les deux écarts dans le dénominateur du coefficient de corrélation sont pondérées par leur nombre correspondant de non-NaN observations moins 1, notée par n1 et n2 respectivement. Ceci est réalisé par la mise en nanfact=True dans la fonction ci-dessus.

(3) On peut souhaiter que la covariance et les écarts ont le même facteur, comme c'est le cas pour le coefficient de corrélation sans NaNs. La seule façon de le faire ici (si l'option (1) n'est pas réalisable), est tout simplement de l'ignorer (1/n)/sqrt(1/n1*n2). Puisque ce nombre est inférieur à un, l'estimation des coefficients de corrélation sera plus grande (en valeur absolue) que dans (2), mais restera entre -1,1. Ceci est réalisé par la mise en nanfact=False.

Je serais très intéressé par vos avis sur les approches (2) et (3) et surtout, j'aimerais beaucoup voir une solution de (1) sans l'utilisation de boucles.

OriginalL'auteur user3820991 | 2014-11-24

Je pense que la méthode que vous cherchez est corr() de pandas. Par exemple, un dataframe de la manière suivante. Vous pouvez aussi vous référer à cette question. La façon la plus efficace d'obtenir la matrice de corrélation (valeurs p) d'un bloc de données avec des valeurs NaN?

import pandas as pd
df = pd.DataFrame({'A': [2, None, 1, -4, None, None, 3],
                   'B': [None, 1, None, None, 1, 3, None],
                   'C': [2, 1, None, 2, 2.1, 1, 0],
                   'D': [-2, 1.1, 3.2, 2, None, 1, None]})

df

    A       B       C       D
0   2       NaN     2       -2
1   NaN     1       1       1.1
2   1       NaN     NaN     3.2
3   -4      NaN     2       2
4   NaN     1       2.1     NaN
5   NaN     3       1       1
6   3       NaN     0       NaN

rho = df.corr()
rho

       A          B            C           D
A   1.000000     NaN       -0.609994    -0.441784
B   NaN          1.0       -0.500000    -1.000000
C   -0.609994    -0.5       1.000000    -0.347928
D   0.041204     -1.0       -0.347928    1.000000

Si les pandas est apparemment fournir ce que j'ai décrit dans l'option (1) ci-dessus. C'est, dans le calcul de l'paires de corrélation, il utilise seulement ceux observation qui ne sont pas Nan dans les deux colonnes respectives - même pour le calcul de la moyenne et les écarts. Un problème supplémentaire que je n'ai pas soulevé ci-dessus, c'est que je ne suis pas sûr que cela assure une semi-définie positive Cov. Btw, vous semblez avoir donné la mauvaise corr-matrice à votre exemple dataframe. E. g. le C,D entrée doit lire -0.347928.
Correction de la corr-matrice des résultats.
panda.corr est sacrément lent pour des tableaux avec des nans. C'est fondamentalement une main écrit en python la boucle.

OriginalL'auteur ju.

Vous devez vous connecter pour publier un commentaire.