Comment remplir NA avec une médiane?

De données, par exemple:

set.seed(1)
df <- data.frame(years=sort(rep(2005:2010, 12)), 
                 months=1:12, 
                 value=c(rnorm(60),NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA))

head(df)
  years months      value
1  2005      1 -0.6264538
2  2005      2  0.1836433
3  2005      3 -0.8356286
4  2005      4  1.5952808
5  2005      5  0.3295078
6  2005      6 -0.8204684

Dites-moi s'il vous plaît, comment je peux remplacer NA dans le df$de la valeur de la médiane des autres mois? "valeur" doit contenir la médiane de la valeur de toutes les valeurs précédentes pour le même mois. Qui est, si le courant du mois de Mai, la "valeur" doit contenir la valeur médiane pour toutes les valeurs précédentes du mois de Mai.

+1 parce que vous avez réussi à crochet 5 réponses différentes dans les 10 minutes.
J'ai édité la question d'inclure set.seed(1)

OriginalL'auteur Sheridan | 2012-08-15

data.table plyr r statistics

Ou avec ave

df <- data.frame(years=sort(rep(2005:2010, 12)),
months=1:12,
value=c(rnorm(60),NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA))
df$value[is.na(df$value)] <- with(df, ave(value, months, 
   FUN = function(x) median(x, na.rm = TRUE)))[is.na(df$value)]

Car il ya tellement de nombreuses réponses nous allons voir qui est plus rapide.

plyr2 <- function(df){
medDF <- ddply(df,.(months),summarize,median=median(value,na.rm=TRUE))
df$value[is.na(df$value)] <- medDF$median[match(df$months,medDF$months)][is.na(df$value)]
df
}
library(plyr)
library(data.table)
DT <- data.table(df)
setkey(DT, months)
benchmark(ave = df$value[is.na(df$value)] <- 
with(df, ave(value, months, 
FUN = function(x) median(x, na.rm = TRUE)))[is.na(df$value)],
tapply = df$value[61:72] <- 
with(df, tapply(value, months, median, na.rm=TRUE)),
sapply = df[61:72, 3] <- sapply(split(df[1:60, 3], df[1:60, 2]), median),
plyr = ddply(df, .(months), transform, 
value=ifelse(is.na(value), median(value, na.rm=TRUE), value)),
plyr2 = plyr2(df),
data.table = DT[,value := ifelse(is.na(value), median(value, na.rm=TRUE), value), by=months],
order = "elapsed")
test replications elapsed relative user.self sys.self user.child sys.child
3     sapply          100   0.209 1.000000     0.196    0.000          0         0
1        ave          100   0.260 1.244019     0.244    0.000          0         0
6 data.table          100   0.271 1.296651     0.264    0.000          0         0
2     tapply          100   0.271 1.296651     0.256    0.000          0         0
5      plyr2          100   1.675 8.014354     1.612    0.004          0         0
4       plyr          100   2.075 9.928230     2.004    0.000          0         0

J'aurais pu parier que les données.le tableau a été le plus rapide.

[ Matthieu Dowle ] La tâche chronométrée prend ici tout au plus de 0,02 secondes (2.075/100). data.table estime qu'insignifiant. Essayez de définir replications à 1 et l'augmentation de la taille des données, à la place. Ou le moment le plus rapide des 3 essais est également un principe de base commun. Plus de commentaires de discussion de ces liens :

Je vous remercie. Je pense qu'il fonctionne correctement
+1 très clairement fait. data.table brille vraiment une fois les données est grand et/ou le regroupement de la variable a beaucoup de niveaux. avec un ensemble de données différent, tous vos timings serait très différent.
Comment est ave vraiment différent de tapply? Est-il juste tapply avec mean comme valeur par défaut et une syntaxe légèrement différente?
La principale différence réside dans la valeur retournée. ave sera de retour un vecteur de la même longueur que le df dans ce cas, tout tapply retourne un vecteur de longueur unique(months). C'est juste une question de ce que la production est plus pratique pour vous.
Ah je vois, Merci.

OriginalL'auteur Luciano Selzer

7

vous souhaitez utiliser le test is.na fonction:
```
df$value[is.na(df$value)] <- median(df$value, na.rm=TRUE)
```
qui dit que pour toutes les valeurs où df$value est NA, remplacez-la par le côté droit. Vous avez besoin de la na.rm=TRUE meuble ou la median fonction sera de retour NA

pour ce faire mois par mois, il y a beaucoup de choix, mais je pense que plyr a la syntaxe la plus simple:
```
library(plyr)
ddply(df, 
.(months), 
transform, 
value=ifelse(is.na(value), median(value, na.rm=TRUE), value))
```
vous pouvez également utiliser data.table. c'est surtout un bon choix si vos données est importante:
```
library(data.table)
DT <- data.table(df)
setkey(DT, months)
DT[,value := ifelse(is.na(value), median(value, na.rm=TRUE), value), by=months]
```
Il existe de nombreuses autres façons, mais il y a deux!

+1 pour l'explication. Je n'utilise pas plyr beaucoup, donc je suis juste curieux, quelle est la principale différence entre transform (que vous avez utilisé) et summarize qui Sacha utilisé?
transform est de modifier ou d'ajouter une colonne à une data.frame. comme ce sera le retour de l'ensemble de la trame de données de donnée plus toutes les nouvelles lignes que vous avez ajouté. summarise retourne un "résumé" en moyenne, par mois ou quelque chose et de ne retourner que les lignes spécifié.
Nice, tu ne connaissais pas transform. J'ai pensé qu'il devrait y avoir un moyen de le faire en une seule ligne avec plyr.
La même question posée ici: stackoverflow.com/questions/9322773/... mais avec une moyenne de

OriginalL'auteur Justin

Voici le plus robuste solution je pense. Il assure le ans sont classés correctement et correctement calculer la médiane pour tous les mois précédents dans le cas où vous avez plusieurs années avec des valeurs manquantes.

# first, reshape your data so it is years by months:
library(reshape2)
tmp <- dcast(years ~ months, data=df)  # convert data to years x months
tmp <- tmp[order(tmp$years),]          # order years
# now calculate the running median on each month
library(caTools)
# function to replace NA with rolling median
tmpfun <- function(x) {
ifelse(is.na(x), runquantile(x, k=length(x), probs=0.5, align="right"), x)
}
# apply tmpfun to each column and convert back to data.frame
tmpmed <- as.data.frame(lapply(tmp, tmpfun))
# reshape back to long and convert 'months' back to integer
res <- melt(tmpmed, "years", variable.name="months")
res$months <- as.integer(gsub("^X","",res$months))

Beau travail de s'assurer que les données sont organisées avant d'essayer de faire autre chose.
+1 Pour la solution solide.

OriginalL'auteur Joshua Ulrich

3

Coller avec de la base de R, vous pouvez également essayer les suivantes:
```
medians = sapply(split(df[1:60, 3], df[1:60, 2]), median)
df[61:72, 3] = medians
```
Cela ne fonctionne que si exactement seules les lignes 61 - 72 contenir NA, qui n'est probablement pas le cas de l'OP de l'ensemble des données.
et donc un downvote? Désolé, mais je ne vois pas ce que vous en attendez. Est-ce que votre solution de fournir un rouleau médian pour plus d'une année de données manquantes? Si donc, encore une fois, je ne suis pas un régulier plyr utilisateur, veuillez mettre à jour votre réponse avec un exemple concret.
Désolé, c'était inutile, certes, mais qui ne peuvent pas le réparer. Je passe trop de temps sur Reddit vers le bas-droit de vote des choses, cela devient automatique 🙂 Comme pour plyr, Justins réponse est beaucoup mieux.
Ici, je vais upvote de le corriger pour vous. Des acclamations.
ha. J'ai regardé le modifier avant de l'avoir vu votre commentaire, et de la pensée, "ce qu'un inutile edit" 🙂

OriginalL'auteur A5C1D2H2I1M1N2O1R2T1
2

Il est une autre façon de le faire avec dplyr.

Si vous voulez remplacer toutes les colonnes avec leurs médiane, n':
```
library(dplyr)
df %>% 
mutate_all(~ifelse(is.na(.), median(., na.rm = TRUE), .))
```
Si vous souhaitez remplacer un sous-ensemble de colonnes (comme "valeur" dans OP exemple), faites:
```
df %>% 
mutate_at(vars(value), ~ifelse(is.na(.), median(., na.rm = TRUE), .))
```
C'est la meilleure solution.

OriginalL'auteur Sam H.

C'est une façon, à l'aide de plyr, il n'est pas très jolie, mais je pense que c'est ce que vous voulez:

library("plyr")
# Make a separate dataframe with month as first column and median as second:
medDF <- ddply(df,.(months),summarize,median=median(value,na.rm=TRUE))
# Replace `NA` values in `df$value` with medians from the second data frame
# match() here ensures that the medians are entered in the correct elements.
df$value[is.na(df$value)] <- medDF$median[match(df$months,medDF$months)][is.na(df$value)]

OriginalL'auteur Sacha Epskamp

Vous devez vous connecter pour publier un commentaire.