Trouver TOUTES les lignes en double, y compris les “éléments avec de petits indices”

R duplicated retourne un vecteur indiquant si chaque élément d'un vecteur ou d'une trame de données est une copie d'un élément avec un plus petit indice. Donc, si les lignes 3, 4, et 5 de 5 ligne de bloc de données sont les mêmes, duplicated va me donner le vecteur

FALSE, FALSE, FALSE, TRUE, TRUE

Mais dans ce cas je veux obtenir

FALSE, FALSE, TRUE, TRUE, TRUE

qui est, je veux savoir si une ligne est reproduit par une ligne avec un plus indice trop.

InformationsquelleAutor Lauren Samuels | 2011-10-21

duplicates r r-faq

105

duplicated a un fromLast argument. La section "Exemple" de ?duplicated vous montre comment l'utiliser. Appelez simplement duplicated deux fois, une fois avec fromLast=FALSE et une fois avec fromLast=TRUE et de prendre les lignes où sont TRUE.

La fin de certaines Edit:
Vous n'avez pas fourni un exemple reproductible, donc voici une illustration aimablement contribué par @jbaums
```
vec <- c("a", "b", "c","c","c") 
vec[duplicated(vec) | duplicated(vec, fromLast=TRUE)]
## [1] "c" "c" "c"
```
- Tenez-vous bien, j'ai juste couru un test et j'ai trouvé que j'avais tort: x <- c(1:9, 7:10, 5:22); y <- c(letters, letters[1:5]); test <- data.frame(x, y); test[duplicated(test$x) | duplicated(test$x, fromLast=TRUE), ] Retourné tous les trois-il des copies de 7, 8 et 9. Pourquoi est-ce que le travail?
- Car le milieu de ceux qui sont capturés peu importe si vous démarrez à partir de la fin ou de l'avant. Par exemple, duplicated(c(1,1,1)) vs duplicated(c(1,1,1,), fromLast = TRUE) donne c(FALSE,TRUE,TRUE) et c(TRUE,TRUE,FALSE). Valeur moyenne TRUE dans les deux cas. La prise de | de deux vecteurs donne c(TRUE,TRUE,TRUE).
InformationsquelleAutor Joshua Ulrich
32

Vous devez assembler l'ensemble de duplicated valeurs, appliquer unique, puis de tester avec %in%. Comme toujours, un exemple de problème pour rendre plus vivant.
```
> vec <- c("a", "b", "c","c","c")
> vec[ duplicated(vec)]
[1] "c" "c"
> unique(vec[ duplicated(vec)])
[1] "c"
>  vec %in% unique(vec[ duplicated(vec)]) 
[1] FALSE FALSE  TRUE  TRUE  TRUE
```
- Strictement parlant, n'est pas besoin pour appliquer unique.
- D'accord. Pourrait même ralentir le traitement, mais peu probable de le ralentir beaucoup.
- %in% ne fonctionne pas avec dataframes
- Tout à fait vrai. L'OP n'offre pas un exemple de données de test pour les "jamais dupliqué" lignes dans un dataframe. Je pense que ma suggestion de l'utilisation de duplicated, unique et %in% pourrait être facilement généralisée à un dataframe si l'on devait d'abord paste chaque ligne avec un singulier caractère de séparation. (Accepté la réponse est mieux).
InformationsquelleAutor 42-
3

J'ai eu le même question, et si je ne me trompe pas, c'est aussi une réponse.
```
vec[col %in% vec[duplicated(vec$col),]$col]
```
Ne sais pas lequel est le plus rapide, cependant, le jeu de données que j'utilise actuellement n'est pas assez grand pour faire des tests qui produisent d'importants écarts.
- Cette réponse semble utiliser vec les deux atomique vecteur et comme un dataframe. Je soupçonne qu'une réelle datframe il serait un échec.
InformationsquelleAutor François M.

Si vous êtes intéressé dans laquelle les lignes sont répétées pour certaines colonnes, vous pouvez utiliser un plyr approche:

ddply(df, .(col1, col2), function(df) if(nrow(df) > 1) df else c())

L'ajout d'un nombre variable avec dplyr:

df %>% add_count(col1, col2) %>% filter(n > 1)  # data frame
df %>% add_count(col1, col2) %>% select(n) > 1  # logical vector

Pour les lignes en double (en tenant compte de toutes les colonnes):

df %>% group_by_all %>% add_tally %>% ungroup %>% filter(n > 1)
df %>% group_by_all %>% add_tally %>% ungroup %>% select(n) > 1

L'avantage de ces approches est que vous pouvez spécifier le nombre de doublons comme une coupure.

InformationsquelleAutor qwr

0

Les lignes en double dans un dataframe pourrait être obtenu avec dplyr en faisant
```
df = bind_rows(iris, head(iris, 20)) # build some test data
df %>% group_by_all() %>% filter(n()>1)
```
À exclure certaines colonnes group_by_at(vars(-var1, -var2)) pourrait être utilisé pour regrouper les données.

Si les indices de ligne et pas seulement les données nécessaires, vous pouvez les ajouter en premier comme dans:
```
df %>% add_rownames %>% group_by_at(vars(-rowname)) %>% filter(n()>1) %>% pull(rowname)
```
InformationsquelleAutor Holger Brandl

Vous devez vous connecter pour publier un commentaire.