La différence entre le sous-ensemble et le filtre de dplyr

Il me semble que ce sous-ensemble et le filtre (à partir de dplyr) sont d'avoir le même résultat.
Mais ma question est: est-il à un certain point, une différence de potentiel, par ex. la vitesse, la taille des données qu'il peut gérer, etc? Y sont reprises qu'il est préférable d'utiliser l'un ou l'autre?

Exemple:

library(dplyr)

df1<-subset(airquality, Temp>80 & Month > 5)
df2<-filter(airquality, Temp>80 & Month > 5)

summary(df1$Ozone)
# Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
# 9.00   39.00   64.00   64.51   84.00  168.00      14 

summary(df2$Ozone)
# Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
# 9.00   39.00   64.00   64.51   84.00  168.00      14

Ce post compare subset, filter,with et [, how-to-use-or-and-in-dplyr-to-subset-a-data-frame
La principale différence est que subset est livré avec un avertissement dans ?subset: "C'est une fonction de commodité prévu pour une utilisation interactive. Pour la programmation, il est préférable d'utiliser la norme. fonctions comme [, et en particulier du non-standard de l'évaluation de l'argument sous-ensemble peuvent avoir des conséquences imprévues." filter est conçu pour fonctionner de manière robuste avec le reste de dplyr et la tidyverse, de façon interactive et par programme, et a une norme distincte-eval version filter_ lorsque nécessaire. Aussi, il traite des virgules comme &.

OriginalL'auteur Ruthger Righart | 2016-10-05

filter r subset

32

Ils sont, en effet, de produire le même résultat, et ils sont très similaires dans leur concept.

L'avantage de subset est qu'elle est partie de la base de R et ne nécessite pas de paquets supplémentaires. Avec des échantillons de petite taille, il semble être un peu plus rapide que filter (6 fois plus vite dans votre exemple, mais c'est mesurée en microsecondes).

Que les ensembles de données de croître, filter semble avantagé en terme d'efficacité. À 15 000 dossiers, filter dépasse subset par environ 300 microsecondes. Et soit 153 000 dossiers, filter est trois fois plus rapide (mesurée en millisecondes).

Donc, en termes de temps de l'homme, je ne pense pas qu'il y a beaucoup de différence entre les deux.

L'autre avantage (et c'est un peu d'un avantage particulier), c'est que filter peut fonctionner sur des bases de données SQL sans tirer sur les données en mémoire. subset n'a tout simplement pas le faire.

Personnellement, j'ai tendance à utiliser filter, mais seulement parce que je suis déjà à l'aide de la dplyr cadre. Si vous ne travaillez pas avec des données de la mémoire, il ne fera pas beaucoup de différence.
```
library(dplyr)
library(microbenchmark)

# Original example
microbenchmark(
  df1<-subset(airquality, Temp>80 & Month > 5),
  df2<-filter(airquality, Temp>80 & Month > 5)
)

Unit: microseconds
   expr     min       lq     mean   median      uq      max neval cld
 subset  95.598 107.7670 118.5236 119.9370 125.949  167.443   100  a 
 filter 551.886 564.7885 599.4972 571.5335 594.993 2074.997   100   b


# 15,300 rows
air <- lapply(1:100, function(x) airquality) %>% bind_rows

microbenchmark(
  df1<-subset(air, Temp>80 & Month > 5),
  df2<-filter(air, Temp>80 & Month > 5)
)

Unit: microseconds
   expr      min        lq     mean   median       uq      max neval cld
 subset 1187.054 1207.5800 1293.718 1216.671 1257.725 2574.392   100   b
 filter  968.586  985.4475 1056.686 1023.862 1036.765 2489.644   100  a 

# 153,000 rows
air <- lapply(1:1000, function(x) airquality) %>% bind_rows

microbenchmark(
  df1<-subset(air, Temp>80 & Month > 5),
  df2<-filter(air, Temp>80 & Month > 5)
)

Unit: milliseconds
   expr       min        lq     mean    median        uq      max neval cld
 subset 11.841792 13.292618 16.21771 13.521935 13.867083 68.59659   100   b
 filter  5.046148  5.169164 10.27829  5.387484  6.738167 65.38937   100  a 
```
Monsieur, pour moi les résultats sont juste en face! Pour les deux cas de sous-ensemble est mieux que celle de filtre sur ma machine.
il pourrait y avoir une demi-douzaine de raisons pour cela. est la différence dans l'exécution assez grand pour s'en inquiéter?
sous-ensemble 1.164632 1.220479 1.717666 1.266967 1.421527 , filtre 5.314198 5.440985 5.669854 5.595846 5.793876

OriginalL'auteur Benjamin

Une autre différence pas encore mentionné, c'est que le filtre de rejets rownames, tout sous-ensemble n'est pas:

filter(mtcars, gear == 5)

  mpg    cyl   disp      hp  drat wt    qsec  vs am   gear carb
1 26.0   4     120.3     91  4.43 2.140 16.7  0  1    5    2
2 30.4   4     95.1      113 3.77 1.513 16.9  1  1    5    2
3 15.8   4     351.0     264 4.22 3.170 14.5  0  1    5    4
4 19.7   4     145.0     175 3.62 2.770 15.5  0  1    5    6
5 15.0   4     301.0     335 3.54 3.570 14.6  0  1    5    8

subset(mtcars, gear == 5)
               mpg    cyl   disp      hp  drat wt    qsec vs  am   gear carb
Porsche 914-2  26.0   4     120.3     91  4.43 2.140 16.7  0  1    5    2
Lotus Europa   30.4   4     95.1      113 3.77 1.513 16.9  1  1    5    2
Ford Pantera L 15.8   4     351.0     264 4.22 3.170 14.5  0  1    5    4
Ferrari Dino   19.7   4     145.0     175 3.62 2.770 15.5  0  1    5    6
Maserati Bora  15.0   4     301.0     335 3.54 3.570 14.6  0  1    5    8

Cela peut être critique dans certains usecases, où les noms de lignes sont essentielles et il y a des avantages pour les garder hors de la main des données comme pour le calcul de la matrice de distance pour la mise en cluster

OriginalL'auteur rsmith54

Intéressant. J'essayais de voir la différence de dataset et je coulnd pas obtenir une explication sur le pourquoi de la "[" opérateur se sont comportés différemment (c'est à dire, pourquoi il a renvoyé NAs):

# Subset for year=2013
sub<-brfss2013 %>% filter(iyear == "2013")
dim(sub)
#[1] 486088    330
length(which(is.na(sub$iyear))==T)
#[1] 0

sub2<-filter(brfss2013, iyear == "2013")
dim(sub2)
#[1] 486088    330
length(which(is.na(sub2$iyear))==T)
#[1] 0

sub3<-brfss2013[brfss2013$iyear=="2013", ]
dim(sub3)
#[1] 486093    330
length(which(is.na(sub3$iyear))==T)
#[1] 5

sub4<-subset(brfss2013, iyear=="2013")
dim(sub4)
#[1] 486088    330
length(which(is.na(sub4$iyear))==T)
#[1] 0

OriginalL'auteur Maria Wollestonecraft

0

Une différence aussi est que ce sous-ensemble ne fait plus de choses que ce filtre vous pouvez également sélectionner et déposez alors que vous avez deux fonctions différentes dans dplyr
```
subset(df, select=c("varA", "varD"))

dplyr::select(df,varA, varD)
```
OriginalL'auteur R. Prost
0

Un avantage supplémentaire de la filter est qu'il joue à nice avec des données groupées. subset ignore groupements.

Ainsi, lorsque les données sont regroupées, subset fera toujours référence à l'ensemble des données, mais filter uniquement de référence du groupe.
```
# setup
library(tidyverse)

data.frame(a = 1:2) %>% group_by(a) %>% subset(length(a) == 1) 
# returns empty table

data.frame(a = 1:2) %>% group_by(a) %>% filter(length(a) == 1) 
# returns all rows
```
OriginalL'auteur Albert

Vous devez vous connecter pour publier un commentaire.