Sélectionnez NA dans un ensemble de données.table en R

Comment puis-je sélectionner toutes les lignes qui ont une valeur manquante dans la clé primaire dans une table de données.

DT = data.table(x=rep(c("a","b",NA),each=3), y=c(1,3,6), v=1:9)
setkey(DT,x)

Sélection pour une valeur particulière est facile

DT["a",]

Sélection pour les valeurs manquantes semble avoir besoin d'un vecteur de recherche. On ne peut pas utiliser les binaires de recherche. Suis-je la corriger?

DT[NA,]# does not work
DT[is.na(x),] #does work

InformationsquelleAutor Farrel | 2012-09-28

data.table missing-data na r select

22

Heureusement, DT[is.na(x),] est presque aussi rapide que (par exemple) DT["a",], si dans la pratique, cela ne peut pas vraiment beaucoup d'importance:
```
library(data.table)
library(rbenchmark)

DT = data.table(x=rep(c("a","b",NA),each=3e6), y=c(1,3,6), v=1:9)
setkey(DT,x)  

benchmark(DT["a",],
          DT[is.na(x),],
          replications=20)
#             test replications elapsed relative user.self sys.self user.child
# 1      DT["a", ]           20    9.18    1.000      7.31     1.83         NA
# 2 DT[is.na(x), ]           20   10.55    1.149      8.69     1.85         NA
```
===

Plus de Matthieu (ne rentre pas dans les commentaires) :

Les données ci-dessus a 3 groupes de très grande taille, cependant. Donc, l'avantage de rapidité de recherche binaire est dominée ici par le temps de créer un grand sous-ensemble (1/3 des données est copié).
```
benchmark(DT["a",],  # repeat select of large subset on my netbook
    DT[is.na(x),],
    replications=3)
          test replications elapsed relative user.self sys.self
     DT["a", ]            3   2.406    1.000     2.357    0.044
DT[is.na(x), ]            3   3.876    1.611     3.812    0.056

benchmark(DT["a",which=TRUE],   # isolate search time
    DT[is.na(x),which=TRUE],
    replications=3)
                      test replications elapsed relative user.self sys.self
     DT["a", which = TRUE]            3   0.492    1.000     0.492    0.000
DT[is.na(x), which = TRUE]            3   2.941    5.978     2.932    0.004
```
Que la taille du sous-ensemble retourné diminue (par exemple l'ajout de plusieurs groupes), la différence devient évidente. Vecteur des analyses sur une seule colonne ne sont pas trop mauvais, mais sur 2 ou plusieurs colonnes, il se dégrade rapidement.

Peut-être le NAs doit être joignable à. Il me semble me rappeler d'un chat avec qui, si. Voici un peu d'histoire liée à partir de FR#1043 d'Autoriser ou d'interdire NA clés?. Il mentionne qu'il y NA_integer_ est à l'intérieur d'un nombre entier négatif. L'accord sur les adpic jusqu'radix/comptage de tri (iirc), résultant en setkey va plus lentement. Mais c'est sur la liste à revoir.
- À l'aide de which=TRUE pour isoler le temps de recherche est propre idée. Aussi, DT[is.na(x),] semble encore à battre autre chose que je ai été en mesure de venir avec. J'ai d'abord essayé DT[-DT[na.omit(unique(DT[,1,with=FALSE])), which=TRUE],], mais c'est comme sloow comme vous pouvez le deviner. Non pas que c'est le problème ci-dessus, mais est unique() vraiment le moyen le plus rapide pour extraire les niveaux uniques d'un détrompeur colonne (ou un ensemble de incrustée colonnes)?
- Salut Josh. J'ai eu de coup d'œil. Semble que [,1,with=FALSE] conserve la touche ok, donc unique.data.table doit appeler duplist qui fonctionne comme which(diff!=0) mais sur des listes de colonnes. Donc oui, la partie unique devrait être aussi rapide comme un vecteur d'analyse, parce qu'il sait que c'est trié. Mais parce que tous les groupes sont en train d'être rejoint à, il pourrait être de frapper connu (pour moi) de la ride. La recherche de données.table.R pour mapply et le commentaire. Je suppose que c'est de croquer dans ce cas. En espérant pour le remplacer par de bit::vecseq le plus vite possible!
- Aussi, qui pourraient bénéficier de la colonne de références, ce qui n'est pas encore mis en œuvre. Actuellement, DT[,j,with=FALSE] une copie de la j colonnes dans la nouvelle table. Une copie instantanée, mais il a besoin de marquer, donc un copier-sur-changement au niveau des colonnes peut être fait si := est utilisé plus tard.
- Josh, j'ai finalement zappé l'horrible appel interne à mapply. En fin de compte bit::vecseq a été mis en œuvre dans R, donc je l'ai fait en C, et de l'utiliser à l'interne. Le ralentissement de plusieurs minutes à quelques secondes maintenant comme il se doit. Solution de contournement de mult="first" n'est plus nécessaire. Dans v1.8.3 sur R-Forge. Eh bien, j'espère. Au moins, dans mes tests.
InformationsquelleAutor Josh O'Brien
19

C'est maintenant mis en place en v1.8.11. De NOUVELLES:

o Binaire de recherche est maintenant capable de subsetting NA/NaNs et également effectuer joins et merges par correspondance NAs/NaNs.

Bien que vous aurez à fournir le bon NA (NA_real_, NA_character_ etc..) explicitement à l'heure actuelle.

Sur les OP de données:
```
DT[J(NA_character_)] # or for characters simply DT[NA_character_]
#     x y v
# 1: NA 1 7
# 2: NA 3 8
# 3: NA 6 9
```
Aussi, ici, de la même référence de @JoshOBrien post, avec cette recherche binaire pour NA a ajouté:
```
library(data.table)
library(rbenchmark)

DT = data.table(x=rep(c("a","b",NA),each=3e6), y=c(1,3,6), v=1:9)
setkey(DT,x)  

benchmark(DT["a",],
          DT[is.na(x),],
          DT[NA_character_], 
          replications=20)

            test replications elapsed relative user.self sys.self
1      DT["a", ]           20   4.763    1.238     4.000    0.567
2 DT[is.na(x), ]           20   5.399    1.403     4.537    0.794
3         DT[NA]           20   3.847    1.000     3.215    0.600 # <~~~ 
```
- +1 Grande! Dans la dernière ligne, il ressemble à DT[NA] fait maintenant une jointure?
- pas de rbenchmark semble changer pour NA de NA_character_ à afficher pour une raison quelconque.
- Très beau travail!
- Sympa, mais vous ne pouvez pas obtenir 1.8.11 de CRAN, vous avez besoin de R-Forge, et leurs binaire bâtiment est actuellement cassé: stackoverflow.com/questions/18772277/... CRAN donne juste 1.8.10
- nice (+1). Comment avez-vous filtre pas NA. Par exemple: DT[J(!NA_real_)] n'a pas de travail.
- essayez DT[!J(NA_real_)].
- Comment utilisez-vous cette dans une colonne qui n'est pas la clé?
InformationsquelleAutor Arun

Vous devez vous connecter pour publier un commentaire.

C'est maintenant mis en place en v1.8.11. De NOUVELLES: