Calculer la moyenne de toutes les 13 lignes dans le bloc de données

J'ai un bloc de données avec 2 colonnes et 3659 ligne df

Je suis en train de réduire l'ensemble de données en moyenne tous les 10 ou 13 lignes dans ce bloc de données, j'ai donc essayé le suivant :

# number of rows per group
n=13
# number of groups
n_grp=nrow(df)/n
round(n_grp,0)
# row indices (one vector per group)
idx_grp <- split(seq(df), rep(seq(n_grp), each = n))

# calculate the col means for all groups
res <- lapply(idx_grp, function(i) {
  # subset of the data frame
  tmp <- dat[i]
  # calculate row means
  colMeans(tmp, na.rm = TRUE)
})
# transform list into a data frame
dat2 <- as.data.frame(res)

Cependant, je ne peux pas partager mon nombre de lignes par 10 ou 13 parce que la longueur des données n'est pas un multiple de split variable. Donc, je ne suis pas sûr de ce que doit faire alors (je veux juste peut-être pour calculer la moyenne du dernier groupe d'-même avec moins de 10 éléments)

J'ai aussi essayé celui-ci, mais le résultat est le même:

df1=split(df, sample(rep(1:301, 10)))

Quelqu'un de posé une question similaire aujourd'hui. Combiner split et cut. Voir si cela aide les stackoverflow.com/questions/30356275/r-divide-data-into-groups
le problème que je ne peux pas diviser par le nombre de groupes que je veux. car j'ai un nombre impair de colonnes et je veux avoir 10 groupes par exemple

OriginalL'auteur user3617715 | 2015-05-20

dataframe r split

9

Voici une solution à l'aide de aggregate() et rep().
```
df <- data.frame(a=1:12, b=13:24 );
df;
##     a  b
## 1   1 13
## 2   2 14
## 3   3 15
## 4   4 16
## 5   5 17
## 6   6 18
## 7   7 19
## 8   8 20
## 9   9 21
## 10 10 22
## 11 11 23
## 12 12 24
n <- 5;
aggregate(df,list(rep(1:(nrow(df)%/%n+1),each=n,len=nrow(df))),mean)[-1];
##      a    b
## 1  3.0 15.0
## 2  8.0 20.0
## 3 11.5 23.5
```
La partie importante de cette solution qui gère la question de la non-divisibilité des nrow(df) par n est de spécifier la len paramètre (en fait le nom complet de paramètre est length.out) de rep() automatiquement caps le groupe de vecteur à la longueur appropriée.

Ce qui ne l' [-1] de faire à la fin? Supprimer les col ajoutée? C'est bizarrement pas de travail pour moi, je suis à l'aide d'une boucle for avec une liste de DFs.

OriginalL'auteur bgoldst
6

Si df est un ensemble de données.table, vous pouvez utiliser %/% de groupe, comme dans
```
library(data.table)
setDT(df)
n <- 13 # every 13 rows
```
```
df[, mean(z), by= (seq(nrow(df)) - 1) %/% n]
```
si au contraire, vous voulez chaque nième ligne, l'utilisation %% au lieu de %/%
```
df[, mean(z), by= (seq(nrow(df)) - 1) %% n]
```
OriginalL'auteur Ricardo Saporta

Cela devrait fonctionner. Utiliser n = 13 pour l'agglutination 13 lignes ensemble. Si vous avez 27 lignes, vous allez obtenir des groupes de taille 13, 13, 1.

n.colmeans = function(df, n = 10){
    aggregate(x = df,
              by = list(gl(ceiling(nrow(df)/n), n)[1:nrow(df)]),
              FUN = mean)
}

n.colmeans(state.x77, 10)

  Group.1 Population Income Illiteracy Life Exp Murder HS Grad Frost     Area
1       1     4892.8 4690.8       1.44   70.508   9.53   53.63  75.1 116163.6
2       2     3570.5 4419.4       1.12   71.110   7.07   53.35  99.8  44406.6
3       3     3697.9 4505.5       0.93   70.855   6.64   55.25 131.7  60873.0
4       4     5663.9 4331.2       1.33   70.752   7.12   49.59 103.6  56949.5
5       5     3407.0 4232.1       1.03   71.168   6.53   53.72 112.1  75286.7

OriginalL'auteur Vlo

Vous devez vous connecter pour publier un commentaire.