Rechercher des lignes dupliquées (basées sur 2 colonnes) dans Data Frame in R

J'ai un bloc de données dans R, ce qui ressemble à:

| RIC    | Date                | Open   |
|-------- | --------------------- | --------|
| S1A.PA | 2011-06-30 20:00:00 | 23.7   |
| ABC.PA | 2011-07-03 20:00:00 | 24.31  |
| EFG.PA | 2011-07-04 20:00:00 | 24.495 |
| S1A.PA | 2011-07-05 20:00:00 | 24.23  |

Je veux savoir si il y a des doublons quant à la combinaison de RIC et de la Date. Est-il une fonction pour que dans la R?

source d'informationauteur user802231

31

Vous pouvez toujours essayer simplement de passage de ces deux premières colonnes de la fonction duplicated:
```
duplicated(dat[,1:2])
```
en supposant que votre bloc de données est appelé dat. Pour plus d'informations, on peut consulter les fichiers d'aide pour la duplicated fonction en tapant ?duplicated à la console. Cela permettra de fournir les phrases suivantes:

Détermine les éléments d'un vecteur ou d'une trame de données sont des doublons de
les éléments avec de petits indices, et retourne un vecteur logique
en indiquant les éléments (lignes) sont des doublons.

Donc duplicated renvoie une logique de vecteur, ce qui nous permet ensuite d'extraire un sous-ensemble de dat:
```
ind <- duplicated(dat[,1:2])
dat[ind,]
```
ou vous pouvez sauter la cession distincte de l'étape et utilisez simplement:
```
dat[duplicated(dat[,1:2]),]
```
7

dplyr est tellement plus agréable pour ce genre de chose:
```
library(dplyr)
yourDataFrame %>%
    distinct(RIC, Date, .keep_all = TRUE)
```
(l' ".keep_all est facultatif. si pas utilisé, il sera de retour que le deduped 2 colonnes. une fois utilisé, il renvoie le deduped ensemble de la trame de données)

Si vous souhaitez supprimer les enregistrements en double fondée sur des valeurs de Colonnes Date et État dans dataset de données.cadre:

#Indexes of the duplicate rows that will be removed: 
duplicate_indexes <- which(duplicated(dataset[c('Date', 'State')]),) 
duplicate_indexes 

#new_uniq will contain unique dataset without the duplicates. 
new_uniq <- dataset[!duplicated(dataset[c('Date', 'State')]),] 
View(new_uniq)

Je pense que vous êtes à la recherche d'un moyen de retour d'un bloc de données de la les lignes en double dans le même format que vos données d'origine. Il y a probablement un moyen plus élégant de le faire, mais cela fonctionne:

dup <- data.frame(as.numeric(duplicated(df$var))) #creates df with binary var for duplicated rows
colnames(dup) <- c("dup") #renames column for simplicity
df2 <- cbind(df, dup) #bind to original df
df3 <- subset(df2, dup == 1) #subsets df using binary var for duplicated`

Vous devez vous connecter pour publier un commentaire.