La fusion de deux trames de données tout en gardant la ligne d'origine afin

Je veux fusionner les deux trames de données en gardant l'original de ligne de commande de l'un d'entre eux (df.2 dans l'exemple ci-dessous).

Voici quelques exemples de données (toutes les valeurs de class colonne sont définis dans les deux trames de données):

df.1 <- data.frame(class = c(1, 2, 3), prob = c(0.5, 0.7, 0.3))
df.2 <- data.frame(object = c('A', 'B', 'D', 'F', 'C'), class = c(2, 1, 2, 3, 1))

Si je fais:

merge(df.2, df.1)

De sortie est:

  class object prob
1     1      B  0.5
2     1      C  0.5
3     2      A  0.7
4     2      D  0.7
5     3      F  0.3

Si j'ajoute sort = FALSE:

merge(df.2, df.1, sort = F)

Résultat est:

  class object prob
1     2      A  0.7
2     2      D  0.7
3     1      B  0.5
4     1      C  0.5
5     3      F  0.3

Mais ce que je voudrais, c'est:

  class object prob
1     2      A  0.7
2     1      B  0.5
3     2      D  0.7
4     3      F  0.3    
5     1      C  0.5

Le problème n'est pas bien défini. Que faire si vous avez, dans le résultat fusionné, plus ou moins de lignes que le df.2?
Impossible parce que je utiliser df.2 comme première variable en fonction de fusion...
Pas de. c'est à tort. encore mal défini. prenons le cas où vous avez une classe dans le df;2 qui n'existent pas dans le df.1.Par exemple : df.2<-data.frame(object=c('A','B','D','F','C'), class=c(2,1,2,4,1))
Ok, peut-être, l'édition est de plus précisé. De toute façon, la PAC réponse fait le travail que je cherchais. Merci de m'aider à améliorer la question.
double possible de Comment puis-je les fusionner et de maintenir la ligne de commande d'une entrée?

InformationsquelleAutor DJack | 2013-07-26

dataframe merge r sorting

26

Découvrez la fonction join dans le package plyr. C'est comme de fusion, mais il vous permet de garder la ligne de commande de l'un des ensembles de données. Dans l'ensemble, c'est plus souple que la fusion.

À l'aide de vos données d'exemple, nous pourrions utiliser join comme ceci:
```
> join(df.2,df.1)
Joining by: class
  object class prob
1      A     2  0.7
2      B     1  0.5
3      D     2  0.7
4      F     3  0.3
5      C     1  0.5
```
Ici sont un couple de liens décrivant des correctifs à la fonction de fusion pour garder la ligne de commande:

http://www.r-statistics.com/2012/01/merging-two-data-frame-objects-while-preserving-the-rows-order/

http://r.789695.n4.nabble.com/patching-merge-to-allow-the-user-to-keep-the-order-of-one-of-the-two-data-frame-objects-merged-td4296561.html
- Présenter les solutions ici, ne suffit pas de les référencer. Des liens peuvent devenir invalides assez rapide sur l'internet..
- Chacun de ces liens est une discussion approfondie du problème avec la fonction de fusion, donc je vais laisser comme des liens. (Mais au lieu de cela, je vais à nouveau parler de la fonction join dans le package plyr.)
- Je (et joins de la documentation) seraient en désaccord que c'est "plus souple" que merge: "Jointure est souvent plus rapide que la fusion, même si elle est un peu moins plein de fonctionnalités - elle propose actuellement aucun moyen de renommer de sortie ou fusionner sur différentes variables x et y des trames de données."
- "il vous permet de garder la ligne de commande de l'un des ensembles de données" Pour être plus précis, comme par ?join: "Contrairement à la fusion, conserve l'ordre de x n'importe quel type de jointure est utilisé. Si nécessaire, des lignes de y sera ajouté à la fin."
InformationsquelleAutor user2635373
45

Il vous suffit de créer une variable qui donne le numéro de ligne dans le df.2. Ensuite, une fois que vous avez fusionné vos données, vous triez le nouveau jeu de données en fonction de cette variable. Voici un exemple :
```
df.1<-data.frame(class=c(1,2,3), prob=c(0.5,0.7,0.3))
df.2<-data.frame(object=c('A','B','D','F','C'), class=c(2,1,2,3,1))
df.2$id  <- 1:nrow(df.2)
out  <- merge(df.2,df.1, by = "class")
out[order(out$id), ]
```
InformationsquelleAutor PAC
11

De les données.tableau v1.9.5+, vous pouvez le faire:
```
require(data.table) # v1.9.5+
setDT(df.1)[df.2, on="class"]
```
La effectue une jointure sur la colonne class par trouver les lignes correspondantes dans df.1 pour chaque ligne de df.2 et l'extraction de colonnes correspondantes.
- Est-il indiqué explicitement dans la documentation partout de la ligne de commande est-elle préservée?
- Il ne semble pas être avec quelques données que j'ai.
InformationsquelleAutor Arun
9

Vous pouvez aussi consulter les inner_join fonction de Hadley est dplyr paquet (prochaine itération de plyr). Il préserve la ligne de commande de la première série de données. La différence mineure désirée pour votre solution, c'est qu'il préserve également l'original de l'ordre des colonnes de la première série de données. Donc, il n'est pas nécessairement la colonne, nous avons utilisé pour la fusion à la première position.

À l'aide de votre exemple ci-dessus, le inner_join résultat ressemble à ceci:
```
inner_join(df.2,df.1)
Joining by: "class"
  object class prob
1      A     2  0.7
2      B     1  0.5
3      D     2  0.7
4      F     3  0.3
5      C     1  0.5
```
InformationsquelleAutor alex23lemm
5

Par souci d'exhaustivité, mise à jour dans une jointure conserve l'original de la ligne de commande ainsi. Ce pourrait être une alternative à Arun est de données.la table réponse si il y a seulement quelques colonnes à ajouter:
```
library(data.table)
setDT(df.2)[df.1, on = "class", prob := i.prob][]
```
```
   object class prob
1:      A     2  0.7
2:      B     1  0.5
3:      D     2  0.7
4:      F     3  0.3
5:      C     1  0.5
```
Ici, df.2 est droit joint à df.1 et les gains d'une nouvelle colonne prob qui est copié à partir de la correspondance des lignes de df.1.

InformationsquelleAutor Uwe

La accepté de répondre à propose un manuel de façon à maintenir l'ordre lors de l'utilisation de merge, qui fonctionne la plupart du temps, mais nécessite inutile le travail manuel. Cette solution vient sur le dos de Comment ddply() sans le tri?, qui traite de la question du maintien de l'ordre mais un split-appliquer-combiner contexte:

C'est venu sur le plyr liste de diffusion en retournant soulevées par @kohske pas moins) et c'est une solution offerte par Peter Meilstrup pour un nombre limité de cas:

#Peter's version used a function gensym to
# create the col name, but I couldn't track down
# what package it was in.
keeping.order <- function(data, fn, ...) { 
  col <- ".sortColumn"
  data[,col] <- 1:nrow(data) 
  out <- fn(data, ...) 
  if (!col %in% colnames(out)) stop("Ordering column not preserved by function") 
  out <- out[order(out[,col]),] 
  out[,col] <- NULL 
  out 
}

Alors maintenant, vous pouvez utiliser ce générique keeping.order fonction de garder la ligne d'origine afin de merge appel:

df.1<-data.frame(class=c(1,2,3), prob=c(0.5,0.7,0.3))
df.2<-data.frame(object=c('A','B','D','F','C'), class=c(2,1,2,3,1))
keeping.order(df.2, merge, y=df.1, by = "class")

Qui donnera, comme l'a demandé:

> keeping.order(df.2, merge, y=df.1, by = "class")
  class object id prob
3     2      A  1  0.7
1     1      B  2  0.5
4     2      D  3  0.7
5     3      F  4  0.3
2     1      C  5  0.5

Donc keeping.order efficacement automatise l'approche de la accepté de répondre.

InformationsquelleAutor landroni

Grâce à @PAC , je suis venu avec quelque chose comme ceci:

merge_sameord = function(x, y, ...) {
    UseMethod('merge_sameord')
}

merge_sameord.data.frame = function(x, y, ...) {
    rstr = paste(sample(c(0:9, letters, LETTERS), 12, replace=TRUE), collapse='')
    x[, rstr] = 1:nrow(x)
    res = merge(x, y, all.x=TRUE, sort=FALSE, ...)
    res = res[order(res[, rstr]), ]
    res[, rstr] = NULL
    res
}

Cela suppose que vous voulez conserver l'ordre de la première trame de données, et les données fusionnées cadre aura le même nombre de lignes que le premier bloc de données. Il vous donnera le propre de la trame de données sans colonnes supplémentaires.

InformationsquelleAutor qed

Dans ce cas précis que vous pourriez nous factor pour un compact-solution de base:

df.2$prob = factor(df.2$class,labels=df.1$prob)

df.2
#   object class prob
# 1      A     2  0.7
# 2      B     1  0.5
# 3      D     2  0.7
# 4      F     3  0.3
# 5      C     1  0.5

Pas une solution générale cependant, il fonctionne si:

Vous avez une table contenant les valeurs uniques
Vous souhaitez mettre à jour une table, de ne pas en créer un nouveau
la table est triée par la fusion de la colonne
La table de recherche n'ont pas de niveaux supplémentaires
Vous voulez un left_join
Si vous êtes bien avec les facteurs de

1 n'est pas négociable, pour le reste on peut le faire:

df.3  <- df.2 # deal with 2.
df.1b <- df.1[order(df.1$class),] # deal with 3
df.1b <- df.1b[df.1$class %in% df.2$class,] # deal with 4.
df.3$prob = factor(df.3$class,labels=df.1b$prob)
df.3 <- df3[!is.na(df.3$prob),] # deal with 5. if you want an `inner join`
df.3$prob <- as.numeric(as.character(df.3$prob)) # deal with 6.

InformationsquelleAutor Moody_Mudskipper

Il y a plusieurs utilisations cas dans lesquels un simple sous-ensemble fera:

# Use the key variable as row.names
row.names(df.1) = df.1$key

# Sort df.1 so that it's rows match df.2
df.3 = df.1[df.2$key, ]

# Create a data.frame with cariables from df.1 and (the sorted) df.2
df.4 = cbind(df.1, df.3)

Ce code permettra de préserver df.2 et c'est l'ordre et d'ajouter que le appariement de données provenant de df.1

Si une seule variable est ajoutée, le cbind() ist en a pas besoin:

row.names(df.1) = df.1$key
df.2$data = df.1[df.2$key, "data"]

InformationsquelleAutor BurninLeo

-1

Il y a peut être un moyen plus efficace dans la base. Ce serait assez simple pour en faire une fonction.

varorder <- names(mydata)  # --- Merge 
mydata <- merge(mydata, otherData, by="commonVar")
restOfvars <- names(mydata[!(names(mydata) %in% varorder)])

mydata[c(varorder,restOfvars)]

InformationsquelleAutor James Holland

Vous devez vous connecter pour publier un commentaire.