numpy corrcoef - calculer la matrice de corrélation tout en ignorant les données manquantes
Je suis en train de calculer une matrice de corrélation de plusieurs valeurs. Ces valeurs comprennent certains 'nan' valeurs. Je suis l'aide de numpy.corrcoef. Pour l'élément(i,j) en sortie de la matrice de corrélation j'aimerais avoir la corrélation calculée à l'aide de toutes les valeurs qui existent pour les deux variables i et la variable j.
C'est ce que j'ai maintenant:
In[20]: df_counties = pd.read_sql("SELECT Median_Age, Rpercent_2008, overall_LS, population_density FROM countyVotingSM2", db_eng)
In[21]: np.corrcoef(df_counties, rowvar = False)
Out[21]:
array([[ 1. , nan, nan, -0.10998411],
[ nan, nan, nan, nan],
[ nan, nan, nan, nan],
[-0.10998411, nan, nan, 1. ]])
Trop nan 🙁
OriginalL'auteur Selah | 2015-07-24
Vous devez vous connecter pour publier un commentaire.
L'une des principales caractéristiques de
pandas
estNaN
sympathique. Pour calculer la matrice de corrélation, il suffit d'appelerdf_counties.corr()
. Ci-dessous est un exemple pour démontrerdf.corr()
estNaN
tolérant alors quenp.corrcoef
ne l'est pas.Épique réponse! Vous venez de m'a aidé à traiter les données manquantes et supprimé imbriquée pour la boucle de mon code. Merci!
OriginalL'auteur Jianxun Li