Rechercher des lignes dupliquées (basées sur 2 colonnes) dans Data Frame in R
J'ai un bloc de données dans R, ce qui ressemble à:
| RIC | Date | Open |
|-------- | --------------------- | --------|
| S1A.PA | 2011-06-30 20:00:00 | 23.7 |
| ABC.PA | 2011-07-03 20:00:00 | 24.31 |
| EFG.PA | 2011-07-04 20:00:00 | 24.495 |
| S1A.PA | 2011-07-05 20:00:00 | 24.23 |
Je veux savoir si il y a des doublons quant à la combinaison de RIC et de la Date. Est-il une fonction pour que dans la R?
source d'informationauteur user802231
Vous devez vous connecter pour publier un commentaire.
Vous pouvez toujours essayer simplement de passage de ces deux premières colonnes de la fonction
duplicated
:en supposant que votre bloc de données est appelé
dat
. Pour plus d'informations, on peut consulter les fichiers d'aide pour laduplicated
fonction en tapant?duplicated
à la console. Cela permettra de fournir les phrases suivantes:Donc
duplicated
renvoie une logique de vecteur, ce qui nous permet ensuite d'extraire un sous-ensemble dedat
:ou vous pouvez sauter la cession distincte de l'étape et utilisez simplement:
dplyr est tellement plus agréable pour ce genre de chose:
(l' ".keep_all est facultatif. si pas utilisé, il sera de retour que le deduped 2 colonnes. une fois utilisé, il renvoie le deduped ensemble de la trame de données)
Si vous souhaitez supprimer les enregistrements en double fondée sur des valeurs de Colonnes Date et État dans dataset de données.cadre:
Je pense que vous êtes à la recherche d'un moyen de retour d'un bloc de données de la les lignes en double dans le même format que vos données d'origine. Il y a probablement un moyen plus élégant de le faire, mais cela fonctionne: