Sous-ensemble de cas uniques, basés sur plusieurs colonnes

J'aimerais sous-ensemble d'un dataframe pour inclure uniquement les lignes qui ont des combinaisons de trois colonnes. Ma situation est similaire à celle présentée dans cette question, mais je tiens à préserver les autres colonnes dans mes données. Voici mon exemple:

> df
  v1  v2  v3   v4  v5
1  7   1   A  100  98 
2  7   2   A   98  97
3  8   1   C   NA  80
4  8   1   C   78  75
5  8   1   C   50  62
6  9   3   C   75  75

La demande de sortie serait quelque chose comme cela, où je suis à la recherche de cas en fonction de v1, v2, et v3 uniquement:

> df.new
  v1  v2  v3   v4  v5
1  7   1   A  100  98 
2  7   2   A   98  97
3  8   1   C   NA  80
6  9   3   C   75  75

Si j'ai pu récupérer le non-lignes uniques qui serait beaucoup trop:

> df.dupes
  v1  v2  v3   v4  v5
3  8   1   C   NA  80
4  8   1   C   78  75
5  8   1   C   50  62

J'ai vu une question connexe de savoir comment le faire en sql (ici), mais je ne peux pas obtenir ce dans R. je suis sûr que c'est simple mais de jouer avec unique() et de sous-ensemble() n'a pas été fructueuse. Merci à l'avance.

InformationsquelleAutor user1202761 | 2012-07-06

r subset unique

54

Vous pouvez utiliser le duplicated() fonction pour trouver les combinaisons uniques:
```
> df[!duplicated(df[1:3]),]
  v1 v2 v3  v4 v5
1  7  1  A 100 98
2  7  2  A  98 97
3  8  1  C  NA 80
6  9  3  C  75 75
```
Pour obtenir uniquement les doublons, vous pouvez vérifier cela dans deux directions:
```
> df[duplicated(df[1:3]) | duplicated(df[1:3], fromLast=TRUE),]
  v1 v2 v3 v4 v5
3  8  1  C NA 80
4  8  1  C 78 75
5  8  1  C 50 62
```
- La première partie fonctionne, mais pour la deuxième partie sera que seulement récupérer les deux doublons (j'ai édité l'exemple de démontrer qu'il peut y avoir plus de deux doubles)
- Vous devriez essayer de Ken le code à nouveau. Elle retourne tous les trois les lignes en double pour moi.
- vous avez raison! S'avère après examen que mes données n'ont pas plus de deux doubles, et c'est pourquoi je ne pouvais pas obtenir trois de spectacle! Merci pour le heads up.
- Je préfère ne pas en poser une nouvelle question à ce sujet, donc: comment puis-je faire la même basé sur la colonne 1 et 3, mais PAS la colonne 2? J'ai essayé de 1,3 au lieu de 1:3, mais il ne fonctionne pas.
- Que serait c(1,3).
- Merci, mais j'ai essayé et a échoué! Où exactement faut la c d'être dans le présent: df[!dupliqué (df[1,3]),]
- Comme: df[!duplicated( df[c(1,3)] ), ]
- Merci beaucoup, Ken!
InformationsquelleAutor Ken Williams

Vous pouvez utiliser le plyr package:

library(plyr)

ddply(df, c("v1","v2","v3"), head, 1)
#   v1 v2 v3  v4 v5
# 1  7  1  A 100 98
# 2  7  2  A  98 97
# 3  8  1  C  NA 80
# 4  9  3  C  75 75

ddply(df, c("v1","v2","v3"), function(x) if(nrow(x)>1) x else NULL)
#   v1 v2 v3 v4 v5
# 1  8  1  C NA 80
# 2  8  1  C 78 75
# 3  8  1  C 50 62

InformationsquelleAutor flodel

À l'aide de dplyr que vous pouvez faire:

library(dplyr)

# distinct
df %>% 
  distinct(v1, v2, v3, .keep_all = T)

# non-distinct only
df %>% 
  group_by(v1, v2, v3) %>% 
  filter(n() > 1)

# exclude any non-distinct
df %>% 
  group_by(v1, v2, v3) %>% 
  filter(n() == 1)

InformationsquelleAutor sbha

2

ouais, mais à l'aide de plyr et ddply est très très lent si vous avez trop de données.

vous shd essayer quelque chose de ce genre:
```
df[ cbind( which(duplicated(df[1:3])), which(duplicated(df[1:3], fromLast=TRUE))),]
```
ou::
```
from = which(duplicated(df[1:3])
to = which(duplicated(df[1:3], fromLast=TRUE))
df[cbind(from,to),]
```
shd être plus rapide pour la plupart.

de la tester et laissez-nous savoir

il y a quelques erreurs, mais im deviner que vous pourriez faire aussi longtemps que vous obtenez l'idée.

également essayer d'unique et de tout ce qui
- dplyr a pratiquement remplacé plyr et ddply, Maintenant à la fois la syntaxe est propre et logique ET il s'exécute plus rapidement que la base de R.
InformationsquelleAutor monis rahman
1

Un non-élégant, mais fonctionnel est de coller les entrées de ligne et de trouver qui sont uniques (ou non-unique) lignes, quelque chose comme:
```
df.vector=apply(df,1,FUN=function(x) {paste(x,collapse="")})
df.table=table(df.vector)
```
puis obtenir les indices des doublons avec quelque chose comme:
```
which(df.vector%in%names(which(df.table>1)))
```
InformationsquelleAutor nullalleles

Vous devez vous connecter pour publier un commentaire.