Supprimer les doublons combinaisons de colonnes à partir d'un dataframe dans la R

Je veux supprimer les doublons de combinaisons de sessionid, qf et qn de données suivantes

               sessionid             qf        qn         city
1  9cf571c8faa67cad2aa9ff41f3a26e38     cat   biddix          fresno
2  e30f853d4e54604fd62858badb68113a   caleb     amos                
3  2ad41134cc285bcc06892fd68a471cd7  daniel  folkers                
4  2ad41134cc285bcc06892fd68a471cd7  daniel  folkers                
5  63a5e839510a647c1ff3b8aed684c2a5 charles   pierce           flint
6  691df47f2df12f14f000f9a17d1cc40e       j    franz prescott+valley
7  691df47f2df12f14f000f9a17d1cc40e       j    franz prescott+valley
8  b3a1476aa37ae4b799495256324a8d3d  carrie mascorro            brea
9  bd9f1404b313415e7e7b8769376d2705    fred  morales       las+vegas
10 b50a610292803dc302f24ae507ea853a  aurora      lee                
11 fb74940e6feb0dc61a1b4d09fcbbcb37  andrew    price       yorkville

J'ai lu dans les données en tant que données.cadre et l'appeler mydata. Heree est le code que j'ai à ce jour, mais j'ai besoin de savoir comment trier les données.image correctement. Deuxièmement, supprimer les doublons de combinaisons de sessionid, qf, et qn. Et enfin le graphique en histogramme des caractères dans la colonne qf

sortDATA<-function(name)
{
#sort the code by session Id, first name, then last name
sort1.name <- name[order("sessionid","qf","qn") , ]
#create a vector of length of first names
sname<-nchar(sort1.name$qf)
hist(sname)
}

merci!

Travail à partir de la fin de @Joran réponse, vous pouvez ensuite tracer un simple histogramme avec plot(dat$qf, las=2). (Le las argument est là pour faire tourner la xlabels de 90 degrés).

OriginalL'auteur megv | 2011-12-07

duplicated() a une méthode pour data.frames, qui est conçu pour ce genre de tâche:

df <- data.frame(a = c(1:4, 1:4), 
                 b = c(4:1, 4:1), 
                 d = LETTERS[1:8])

df[!duplicated(df[c("a", "b")]),]
#   a b d
# 1 1 4 A
# 2 2 3 B
# 3 3 2 C
# 4 4 1 D

comment faire pour supprimer ces doublons? Peut-Il être fait en fonction dupliquer?

OriginalL'auteur Josh O'Brien

3

Dans votre exemple, les lignes répétées ont été entièrement répété. unique fonctionne avec des données.les cadres.
```
udf <- unique( my.data.frame )
```
Comme pour le tri... joran viens de poster la réponse.

OriginalL'auteur John

Pour répondre à vos problèmes de tri, en première lecture, dans votre exemple de données:

dat <- read.table(text = "               sessionid             qf        qn         city
1  9cf571c8faa67cad2aa9ff41f3a26e38     cat   biddix          fresno
2  e30f853d4e54604fd62858badb68113a   caleb     amos             NA   
3  2ad41134cc285bcc06892fd68a471cd7  daniel  folkers             NA   
4  2ad41134cc285bcc06892fd68a471cd7  daniel  folkers             NA   
5  63a5e839510a647c1ff3b8aed684c2a5 charles   pierce           flint
6  691df47f2df12f14f000f9a17d1cc40e       j    franz prescott+valley
7  691df47f2df12f14f000f9a17d1cc40e       j    franz prescott+valley
8  b3a1476aa37ae4b799495256324a8d3d  carrie mascorro            brea
9  bd9f1404b313415e7e7b8769376d2705    fred  morales       las+vegas
10 b50a610292803dc302f24ae507ea853a  aurora      lee              NA  
11 fb74940e6feb0dc61a1b4d09fcbbcb37  andrew    price       yorkville ",sep = "",header = TRUE)

et puis vous pouvez utiliser arrange de plyr,

arrange(dat,sessionid,qf,qn)

ou à l'aide de la base de fonctions,

with(dat,dat[order(sessionid,qf,qn),])

OriginalL'auteur joran

Il fonctionne si vous utilisez dupliqué deux fois:

> df

  a  b c    d
1 1  2 A 1001
2 2  4 B 1002
3 3  6 B 1002
4 4  8 C 1003
5 5 10 D 1004
6 6 12 D 1004
7 7 13 E 1005
8 8 14 E 1006

> df[!(duplicated(df[c("c","d")]) | duplicated(df[c("c","d")], fromLast = TRUE)), ]

a  b c    d
1 1  2 A 1001
4 4  8 C 1003
7 7 13 E 1005
8 8 14 E 1006

OriginalL'auteur Prakhar Agarwal

Vous devez vous connecter pour publier un commentaire.