En Python, comment puis-je calculer la corrélation et de la signification statistique entre les deux tableaux de données?
J'ai ensembles de données avec les deux de façon égale long de tableaux de données, ou je peux faire un tableau de deux entrées d'option, et je voudrais calculer la corrélation et la signification statistique représentée par les données (qui peut être étroitement corrélées, ou peut avoir aucune corrélation statistiquement significative).
Je suis à la programmation en Python et ont scipy et numpy installé. J'ai cherché et trouvé Le calcul de corrélation de Pearson et de leur importance dans Python, mais qui semble vouloir le manipuler les données de sorte qu'il tombe dans une plage spécifiée.
Quelle est la bonne voie pour, je suppose, demandez scipy ou numpy pour me donner la corrélation et la signification statistique de deux tableaux?
scipy.stats.pearsonr
veut que les données soient manipulées de sorte qu'il tombe dans une plage spécifiée?Le coefficient de corrélation se situe entre -1 et +1. C'est la sortie, pas l'entrée.
OriginalL'auteur JonathanHayward | 2012-06-20
Vous devez vous connecter pour publier un commentaire.
Si vous souhaitez calculer le Coefficient de Corrélation de Pearson, alors
scipy.stats.pearsonr
est le chemin à parcourir, bien que, la signification n'est significatif que pour les grands ensembles de données. Cette fonction ne requiert pas de manipuler les données pour tomber dans une plage spécifiée. La valeur de la corrélation tombe dans l'intervalle[-1,1]
, c'était peut-être la confusion?Si la signification n'est pas trop importante, vous pouvez utiliser
numpy.corrcoef()
.La distance de Mahalanobis prend en compte la corrélation entre les deux tableaux, mais il fournit une mesure de la distance, pas une corrélation. (Mathématiquement, la distance de Mahalanobis est pas une véritable fonction de distance; néanmoins, il peut être utilisé en tant que tel, dans certains contextes, pour grand avantage.)
OriginalL'auteur cjohnson318
Vous pouvez utiliser le La distance de Mahalanobis entre ces deux tableaux, qui prend en compte la corrélation entre eux.
La fonction est dans la scipy package:
scipy.spatial.distance.mahalanobis
Il y a un bel exemple ici
OriginalL'auteur Oriol Nieto
scipy.spatiales.distance.euclidienne()
Cela donne de la distance euclidienne entre 2 points, 2 np tableaux, 2 listes, etc
Vous pouvez trouver plus d'infos ici http://docs.scipy.org/doc/scipy/reference/spatial.distance.html
OriginalL'auteur Froyo