Sous-ensemble de données d'image basé sur le nombre de lignes par groupe

J'ai des données de ce genre, où certains "nom" produire plus de 3 fois:

df <- data.frame(name = c("a", "a", "a", "b", "b", "c", "c", "c", "c"), x = 1:9)

Je souhaite sous-ensemble (filtre) les données sont basées sur le nombre de lignes (observations) au sein de chaque niveau de la "nom de variable". Si un certain niveau de "nom" se produit plus que de dire 3 fois, je veux supprimer toutes les lignes appartenant à ce niveau.

J'ai écrit ce code, mais ne peut pas le faire fonctionner.

as.data.frame(table(unique(df)$name))
subset(df, name > 3)

OriginalL'auteur SJSU2013 | 2013-11-25

dataframe r r-faq subset

37

Tout d'abord, deux base alternatives. L'un s'appuie sur table, et l'autre sur ave et length. Ensuite, deux data.table façons.

1. table
```
tt <- table(df$name)

df2 <- subset(df, name %in% names(tt[tt < 3]))
# or
df2 <- df[df$name %in% names(tt[tt < 3]), ]
```
Si vous voulez marcher à travers étape par étape:
```
# count each 'name', assign result to an object 'tt'
tt <- table(df$name)

# which 'name' in 'tt' occur more than three times?
# Result is a logical vector that can be used to subset the table 'tt'
tt < 3

# from the table, select 'name' that occur < 3 times
tt[tt < 3]

# ...their names
names(tt[tt < 3])

# rows of 'name' in the data frame that matches "the < 3 names"
# the result is a logical vector that can be used to subset the data frame 'df'
df$name %in% names(tt[tt < 3])

# subset data frame by a logical vector
# 'TRUE' rows are kept, 'FALSE' rows are removed.
# assign the result to a data frame with a new name
df2 <- subset(df, name %in% names(tt[tt < 3]))
# or
df2 <- df[df$name %in% names(tt[tt < 3]), ]
```
2. ave et length

Comme suggéré par @flodel:
```
df[ave(df$x, df$name, FUN = length) < 3, ]
```
3. data.table: .N et .SD:
```
library(data.table)
setDT(df)[, if (.N < 3) .SD, by = name]
```
4. data.table: .N et .I:
```
setDT(df)
df[df[, .I[.N < 3], name]$V1] 
```
Reportez-vous à la Q&Un Compter le nombre d'observations/nombre de lignes par groupe et ajouter le résultat à la trame de données.

Et beaucoup plus courte serait: df[ave(df$x, df$name, FUN = length) < 3, ]
Merci! Je suis d'accord, j'ai juste essayé de rester très simple et de construire sur ce que l'OP avait déjà tenté, parce qu'ils semblaient être un débutant
J'apprécie l'aide de tous. Henrik code du sens complet. Elle m'aide à comprendre R. Flodel du code est maintenant compréhensible après la lecture de Henrik.
En fait, [.data.table n'est pas appelée pour chaque groupe dans df[, if (.N < 3) .SD, by = name]. (Contrairement à la question que vous avez un lien où .SD est en train d'être sous-ensemble). L'autre option ne semble pas être plus rapide. Test avec df <- data.table(name = sample(1:1e6, 3e6, T), a = runif(30), b = runif(30), c = runif(30)); microbenchmark( df[, if (.N < 3) .SD, by = name], df[df[, .I[.N < 3], name]$V1] )
Merci pour le heads-up. Je vais modifier!

OriginalL'auteur Henrik

À l'aide de la dplyr package:

df %>%
  group_by(name) %>%
  filter(n() < 4)

OriginalL'auteur Joe

Vous devez vous connecter pour publier un commentaire.

Sous-ensemble de données d'image basé sur le nombre de lignes par groupe

1. `table`

2. `ave` et `length`

3. `data.table`: `.N` et `.SD`:

4. `data.table`: `.N` et `.I`:

1. table

2. ave et length

3. data.table: .N et .SD:

4. data.table: .N et .I:

1. `table`

2. `ave` et `length`

3. `data.table`: `.N` et `.SD`:

4. `data.table`: `.N` et `.I`: