calculer la moyenne de plusieurs colonnes de données.cadre

Demandais juste si il est possible de calculer signifie pour plusieurs colonnes en utilisant simplement la moyenne de la fonction

par exemple

mean(iris[,1])

est possible, mais pas

mean(iris[,1:4])

essayé:

mean(iris[,c(1:4)])

ai ce message d'erreur:

Message d'avertissement: Dans la moyenne.par défaut(iris[, 1:4]) : l'argument n'est pas
numérique ou logique: le retour de NA

Je sais que je peux utiliser
lapply(iris[,1:4],moyenne)
ou
sapply(iris[,1:4],moyenne)

Que diriez -colMeans(iris[,1:4]). En prenant la moyenne des données.cadre a été désapprouvée. Je ne suis pas sûr pourquoi vous devriez que le travail lorsque vous savez déjà à propos de la sapply/lapply solutions.
Utilisation ?colMeans ou un apply approche, mais peut-être que pour une telle question, le mieux serait d'avoir une recherche de stackoverflow.

InformationsquelleAutor Kuan Hoong | 2015-06-19

Essayer colMeans:

Mais la colonne doit être numérique. Vous pouvez ajouter un test pour il pour de plus grands ensembles de données.

colMeans(iris[sapply(iris, is.numeric)])
Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
    5.843333     3.057333     3.758000     1.199333

De référence

Semble long pour dplyr et data.table. Peut-être que quelqu'un peut reproduire les résultats de véracité.

microbenchmark(
  plafort = colMeans(big.df[sapply(big.df, is.numeric)]),
  Carlos  = colMeans(Filter(is.numeric, big.df)),
  Cdtable = big.dt[, lapply(.SD, mean)],
  Cdplyr  = big.df %>% summarise_each(funs(mean))
  )
#Unit: milliseconds
#    expr       min        lq     mean    median       uq       max
# plafort  9.862934 10.506778 12.07027 10.699616 11.16404  31.23927
#  Carlos  9.215143  9.557987 11.30063  9.843197 10.21821  65.21379
# Cdtable 57.157250 64.866996 78.72452 67.633433 87.52451 264.60453
#  Cdplyr 62.933293 67.853312 81.77382 71.296555 91.44994 182.36578

Données

m <- matrix(1:1e6, 1000)
m2 <- matrix(rep('a', 1000), ncol=1)
big.df <- as.data.frame(cbind(m2, m), stringsAsFactors=F)
big.df[,-1] <- lapply(big.df[,-1], as.numeric)
big.dt <- as.data.table(big.df)

Merci, je suis resté avec le lapply trop longtemps avec elle le retour des listes.
@user20650 colMeans(Filter(is.numeric,iris))
sympa .. je n'arrive plus à l'utiliser et à Nier etc etc. en regardant le Filtre c'est juste unlist(lapply(..)), mais plus succunct de nouveau
il semble un peu plus vite.

InformationsquelleAutor Pierre Lafortune

Avec sapply + Filter:

sapply(Filter(is.numeric, iris), mean)
Sepal.Length  Sepal.Width Petal.Length  Petal.Width 
    5.843333     3.057333     3.758000     1.199333

Avec dplyr:

library(dplyr)
iris %>% summarise_each(funs(mean))
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1:     5.843333    3.057333        3.758    1.199333      NA

Avec des données.tableau:

library(data.table)
iris <- data.table(iris)
iris[,lapply(.SD, mean)]
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1:     5.843333    3.057333        3.758    1.199333      NA

Peut-être iris %>% summarise_each(funs(mean), -Species)

InformationsquelleAutor Carlos Cinelli

0

Votre solution ci-dessus ne fonctionne en supposant que les colonnes sont dans la bonne est.format numérique. Voir exemple ci-dessous:
```
a <- c(1,2,3)
mean(a)

b <- c(2,4,6)
mean(b)

d <- c(3,6,9)

mydata <- cbind(b,a,d)


mean(mydata[,1:3])
```
- Ce n'est pas tout à fait droit . L'exemple ci-dessus est un data.frame et il n'y a pas une méthode pour utiliser la moyenne sur un ensemble de données.cadre. Votre exemple (sorte de) œuvres que vous pouvez prendre la moyenne d'un matrix (class(mydata)): mais ça donne une moyenne globale plutôt que par colonne.
InformationsquelleAutor Tminer

Vous devez vous connecter pour publier un commentaire.