Comment trouver des corrélations significatives dans un grand jeu de données

Je suis l'aide de R.
Mon dataset a environ 40 différentes Variables/Vektors et chacun a environ 80 entrées. J'essaie de trouver des corrélations significatives, cela signifie que je veux choisir une variable et soit R le calcul de toutes les corrélations de cette variable pour les 39 autres variables.

J'ai essayé de faire cela en utilisant un modèle linéaire avec un expliquant variable qui signifie: Y=a*X+b.
Ensuite, le lm() la commande me donne un estimateur pour une p-valeur de l'estimateur pour un. Je voudrais ensuite aller sur et utiliser l'une des autres variables que j'ai pour X et essayez à nouveau jusqu'à ce que je trouve une valeur de p c'est vraiment petit.

Je suis sûr que c'est un problème commun, est-il une sorte de package ou de la fonction que peut essayer toutes ces possibilités (Brute force),de leur montrer et puis peut-être même les trie par la p-valeur?

Bienvenue DONC. Avant de poursuivre avec votre analyse, la lecture de xkcd.com/882
C'est un bel outil de visualisation: statpics.blogspot.cz/2013/11/correlation-ellipse-matrix.html
Vous n'avez rien hypothèse basée sur la théorie? Pourquoi avez-vous effectuer ces mesures?
Partie du point de modèles linéaires, c'est que vous pouvez prédire votre réponse varient en fonction de plusieurs autres variables à la fois, plutôt que d'avoir à exécuter des modèles individuels pour chaque variable prédictive.

OriginalL'auteur user3279779 | 2014-02-06

correlation r

4

Voici un exemple de données pour la reproductibilité.
```
m <- 40
n <- 80
the_data <- as.data.frame(replicate(m, runif(n), simplify = FALSE))
colnames(the_data) <- c("y", paste0("x", seq_len(m - 1)))
```
Vous pouvez calculer la corrélation entre deux colonnes à l'aide de cor. Ce code passe en boucle sur toutes les colonnes à l'exception de la première (qui contient notre réponse), et calcule la corrélation entre cette colonne et la première colonne.
```
correlations <- vapply(
  the_data[, -1],
  function(x)
  {
    cor(the_data[, 1], x)
  },
  numeric(1)
)
```
Vous trouverez ensuite la colonne avec le plus grand de l'ampleur de la corrélation avec y à l'aide de:
```
correlations[which.max(abs(correlations))]
```
Donc, sachant que les variables sont corrélées qui que d'autres variables peuvent être intéressant, mais s'il vous plaît ne pas tirer de grandes conclusions à partir de cette connaissance. Vous avez besoin d'un bon de penser à ce que vous essayez de comprendre, et quelles sont les techniques que vous devez utiliser. Les gens de plus en Croix Validé peut vous aider.

Wow, merci beaucoup!

OriginalL'auteur Richie Cotton

Afin d'imprimer une liste des corrélations significatives (p > 0,05) de, vous pouvez utiliser ce qui suit.

En utilisant les mêmes données démo de @Richie:

m <- 40
n <- 80
the_data <- as.data.frame(replicate(m, runif(n), simplify = FALSE))
colnames(the_data) <- c("y", paste0("x", seq_len(m - 1)))

Installer Hmisc
```
install.packages("Hmisc")
```
Importation de bibliothèque et de trouver les corrélations (@Carlos)
```
library(Hmisc)
correlations <- rcorr(as.matrix(the_data))
```

Boucle sur les valeurs de l'impression de les corrélations significatives

for (i in 1:m){
  for (j in 1:m){
    if ( !is.na(correlations$P[i,j])){
      if ( correlations$P[i,j] < 0.05 ) {
        print(paste(rownames(correlations$P)[i], "-" , colnames(correlations$P)[j], ": ", correlations$P[i,j]))
      }
    }
  }
}

OriginalL'auteur toto_tico

Vous pouvez utiliser la fonction rcorr de l'emballage Hmisc.

En utilisant les mêmes données de démonstration de Richie:

m <- 40
n <- 80
the_data <- as.data.frame(replicate(m, runif(n), simplify = FALSE))
colnames(the_data) <- c("y", paste0("x", seq_len(m - 1)))

Alors:

library(Hmisc)
correlations <- rcorr(as.matrix(the_data))

Pour accéder aux valeurs de p:

correlations$P

De visualiser, vous pouvez utiliser le package corrgram

library(corrgram)
corrgram(the_data)

Qui va produire:
Comment trouver des corrélations significatives dans un grand jeu de données

OriginalL'auteur Carlos Cinelli

0

Si vous êtes en essayant de prédire y à l'aide d'une seule variable que vous avez à prendre celui qui est principalement corrélée avec y.
Pour ce faire, utilisez la commande which.max(abs(cor(x,y))). Si vous souhaitez utiliser plus d'une variable dans le modèle, alors vous devez envisager quelque chose comme l'estimateur lasso

OriginalL'auteur Donbeo

Vous devez vous connecter pour publier un commentaire.