Méthode efficace de sous-ensemble déplacer lignes avec NA des valeurs dans R

Fond
Avant d'exécuter une série d'étapes de sélection de modèle, j'ai besoin de supprimer des valeurs manquantes pour un de mes termes du modèle. Avec très peu de termes dans mon modèle, il y a donc assez peu de vecteurs que j'ai besoin de regarder dans pour NA de valeurs (et de la chute de toutes les lignes qui ont NA des valeurs dans l'un de ces vecteurs). Cependant, il y a aussi des vecteurs qui contiennent NA des valeurs que je ne veux pas l'utiliser comme conditions /critères de l'abandon de lignes.

Question
Comment puis-je déposer des lignes à partir d'un dataframe qui contiennent NA les valeurs de toute une liste de vecteurs? Je suis actuellement en utilisant le maladroit méthode d'une longue série !est.na

> my.df[!is.na(my.df$termA)&!is.na(my.df$termB)&!is.na(my.df$termD),]

mais je suis sûr qu'il est plus élégant de la méthode.

Avez-vous essayé: na.omettre(mon.df)
Je n'avais pas, et ce qu'est une fonction utile, merci! Dans ce cas, j'ai d'autres vecteurs avec NA des valeurs, que je ne suis pas en utilisant et en des termes si ne souhaitez pas utiliser l'abandon de critères, de sorte qu'il ne fonctionne pas parfaitement ici.
J'ai ajouté que les détails de la question.

OriginalL'auteur Oreotrephes | 2013-12-03

dataframe indexing na r subset

12

Laisser dat être un bloc de données et cols un vecteur de colonne des noms ou des numéros de colonne d'intérêt. Ensuite, vous pouvez utiliser
```
dat[!rowSums(is.na(dat[cols])), ]
```
à exclure toutes les lignes avec au moins un NA.

C'est, haut la main, la meilleure solution au problème de l'élimination de NAs dans des colonnes spécifiques. J'aime toujours le with une solution, car il permet de faire d'autres conditions bien et puis aussi fonctionne bien avec modification de données in situ à l'aide de within.

OriginalL'auteur Sven Hohenstein
7

Edit: j'ai complètement omis de subset, la fonction intégrée est faite pour les sous-paramètre de choses:
```
my.df <- subset(my.df, 
  !(is.na(termA) |
    is.na(termB) |
    is.na(termC) )
  )
```
J'ai tendance à utiliser with() pour ce genre de choses. N'utilisez pas de attach, vous êtes lié pour couper vous-même.
```
my.df <- my.df[with(my.df, {
  !(is.na(termA) |
    is.na(termB) |
    is.na(termC) )
}), ]
```
Mais si vous souvent de le faire, vous pourriez également une fonction d'assistance, is_any()
```
is_any <- function(x){
  !is.na(x)
}
```
Si vous finissez par faire beaucoup de ce genre de chose, à l'aide de SQL est souvent va être une belle interaction avec les sous-ensembles de données. dplyr peut également s'avérer utile.

OriginalL'auteur Tyler
1

De cette manière:
```
#  create some random data
df <- data.frame(y=rnorm(100),x1=rnorm(100), x2=rnorm(100),x3=rnorm(100))
# introduce random NA's
df[round(runif(10,1,100)),]$x1 <- NA
df[round(runif(10,1,100)),]$x2 <- NA
df[round(runif(10,1,100)),]$x3 <- NA

# this does the actual work...
# assumes data is in columns 2:4, but can be anywhere
for (i in 2:4) {df <- df[!is.na(df[,i]),]}
```
Et en voici un autre, à l'aide de sapply(...) et Reduce(...):
```
xx <- data.frame(!sapply(df[2:4],is.na))
yy <- Reduce("&",xx)
zz <- df[yy,]
```
La première instruction "s'applique" la fonction is.na(...) aux colonnes 2:4 de df, et à l'inverse le résultat (nous voulons !NA). La deuxième déclaration s'applique la logique & opérateur pour les colonnes de xx dans la succession. La troisième instruction extrait uniquement les lignes avec yy=T. Clairement, ce peut être combiné dans un terrifiant compliqué déclaration.
```
zz <-df[Reduce("&",data.frame(!sapply(df[2:4],is.na))),]
```
À l'aide de sapply(...) et Reduce(...) peut être plus rapide si vous avez de très nombreuses colonnes.

Enfin, la plupart des fonctions de modélisation ont des paramètres qui peuvent être définis pour traiter NA directement (sans avoir à recourir à tout cela). Voir, par exemple, le na.action paramètre dans lm(...).

Ceux-ci sont clairement mieux que ma solution lorsque vous traitez avec NAs. De taille raisonnable, des trames de données pour la boucle a aussi l'avantage d'être facilement compris. J'aime la solution à l'aide de with pour l'avantage qu'il traduit bien à plusieurs des critères disparates (couleur = = "vert", les espèces %in% c ("setosa', 'versicolor'), etc.)

OriginalL'auteur jlhoward

Vous devez vous connecter pour publier un commentaire.