Comment fusionner deux données.table par différents noms de colonne?

J'ai deux données.tableau X et Y.

colonnes dans X: area, id, value

les colonnes en Y: ID, price, sales

Créer les deux données.tables:

X = data.table(area=c('US', 'UK', 'EU'),
               id=c('c001', 'c002', 'c003'),
               value=c(100, 200, 300)
              )

Y = data.table(ID=c('c001', 'c002', 'c003'),
               price=c(500, 200, 400),
               sales=c(20, 30, 15)
              )

Et j'ai mis les clés pour X et Y:

setkey(X, id)
setkey(Y, ID)

Maintenant, j'essaie de joindre X et Y par id dans X et ID dans Y:

merge(X, Y)
merge(X, Y, by=c('id', 'ID'))
merge(X, Y, by.x='id', by.y='ID')

Tous soulevé d'erreur en disant que les noms de colonnes dans la by argument invalide.

J'ai fait référence au manuel d'utilisation de données.table et a trouvé le merge fonction ne supportant pas la by.x et by.y arguments.

Comment pourrais-je me joindre deux données.les tables par les différents noms de colonne sans changer les noms de colonne?

Ajouter:

J'ai réussi à joindre les deux tables par X[Y], mais pourquoi merge fonction échoue dans les données.de la table?

Veuillez consulter stackoverflow.com/questions/16047253/... ou stackoverflow.com/questions/27612859/...
Je vous remercie. J'ai vérifié les deux postes. J'ai réussi à joindre X et Y par X[Y], mais je ne pouvais toujours pas à réaliser qu'il en à l'aide de merge fonction. Je suis tout à fait confus au sujet de pourquoi merge échoue dans les données.table.
par.x et par.y sont pas encore mises en œuvre pour les données.des tables. Un FR est déposé. Vérifier stackoverflow.com/questions/14069796/...
le by arguments sont disponibles dans data.table v1.9.6 sur CRAN de Sep 2015. Voir ma réponse pour l'utiliser.

InformationsquelleAutor Zelong | 2015-04-25

16

Utiliser cette opération:
```
X[Y]
#    area   id value price sales
# 1:   US c001   100   500    20
# 2:   UK c002   200   200    30
# 3:   EU c003   300   400    15
```
ou de cette opération:
```
Y[X]
#      ID price sales area value
# 1: c001   500    20   US   100
# 2: c002   200    30   UK   200
# 3: c003   400    15   EU   300
```
Modifier après avoir édité votre question, j'ai lu l'Article 1.12 du FAQ: "qu'est-Ce que le didifference entre X[Y] et de fusion(X,Y)?", ce qui m'a conduit à la caisse ?merge et j'ai découvert il y a deux différentes fonctions de fusion en fonction du forfait que vous utilisez. La valeur par défaut est merge.data.frame mais les données.table utilise merge.data.table. Comparer
```
merge(X, Y, by.x = "id", by.y = "ID") # which is merge.data.table
# Error in merge.data.table(X, Y, by.x = "id", by.y = "ID") : 
# A non-empty vector of column names for `by` is required.
```
avec
```
merge.data.frame(X, Y, by.x = "id", by.y = "ID")
#     id area value price sales
# 1 c001   US   100   500    20
# 2 c002   UK   200   200    30
# 3 c003   EU   300   400    15
```
Modifier pour l'exhaustivité basée sur une commentaire par @Michael Bernsteiner, il semble que la data.table équipe de planification de la mise en œuvre de by.x et by.y dans le merge.data.table de la fonction, mais n'a pas encore fait.

InformationsquelleAutor Richard Erickson
26

De data.table version 1.9.6 (sur CRAN sur sep 2015), vous pouvez spécifier le by.x et by.y arguments en data.table::merge
```
merge(x=X, y=Y, by.x="id", by.y="ID")[]
#     id area value price sales
#1: c001   US   100   500    20
#2: c002   UK   200   200    30
#3: c003   EU   300   400    15
```
Cependant, dans les données.tableau 1.9.6 vous pouvez aussi specfy la on argument dans le X[Y] notation

X[Y] syntaxe peut désormais rejoindre sans avoir à mettre les clés à l'aide de la nouvelle sur l'argument. Par exemple: DT1[DT2, on=c(x = "y")] serait colonne de jointure "y" de DT2 avec "x" de DT1. DT1[DT2, sur l'="y"] rejoindra la colonne "y" à la fois de données.des tables.
```
X[Y, on=c(id = "ID")]
#   area   id value price sales
#1:   US c001   100   500    20
#2:   UK c002   200   200    30
#3:   EU c003   300   400    15
```
cette réponse par le data.table auteur a plus de détails
- c'est la vraie réponse à ce point...
- Est-il préférable d'utiliser la première merthod ou le second?
- Je ne suis pas sûr que je peux dire lequel est le "mieux". Juste être conscient que data.table::merge jeux de sort = TRUE par défaut, ce qui permettra de définir une clé sur les données qui en résultent. C'est quelque chose à regarder dehors pour si vous n'êtes pas à l'aide des touches
InformationsquelleAutor tospig
4

Fusion échoue lorsque vous utilisez by.x et by.y avec data.table. La prise de vos données:
```
> merge(X,Y, by.x='id', by.y='ID')
Error in merge.data.table(X, Y, by.x = "id", by.y = "ID")
```
Vous pouvez utiliser data.table avec fusion , mais vous devez l'utiliser by argument en faveur de l'adhésion (donc renommer les colonnes ont la même colnames)
```
Y = setNames(Y,c('id','price','sales'))
```
Ce ne sera toujours pas de travail:
```
merge(X,Y, by.x='id', by.y='id')
Error in merge.data.table(X, Y, by.x = "id", by.y = "id") :
```
Mais cela va fonctionner:
```
> merge(X,Y, by='id')
#     id area value price sales
#1: c001   US   100   500    20
#2: c002   UK   200   200    30
#3: c003   EU   300   400    15
```
Sinon, vous devez convertir data.table à data.frame afin d'utiliser merge avec by.x et by.y arguments:
```
merge(data.frame(X), data.frame(Y), by.x='id', by.y='ID')
```
- Vous pouvez également faire de library(dplyr); XY <- setDT(left_join(tbl_df(X), tbl_df(Y), by = c("id" = "ID")))
- Étant donné que les mises à jour data.table cette réponse n'est plus correct
InformationsquelleAutor Colonel Beauvel

Vous pouvez également fusionner à l'aide de plusieurs colonnes ayant des noms différents. voir l'exemple ci-dessous

# create data frame authors
authors <- data.frame(
FirstName=c("Lorne", "Loren", "Robin",
              "Robin", "Billy"),
LastName=c("Green", "Jaye", "Green",
             "Howe", "Jaye"),
Age=c(82, 40, 45, 2, 40),
Income=c(1200000, 40000, 25000, 0, 27500),
Home=c("California", "Washington", "Washington",
    "Alberta", "Washington"))

# create data frame books Note First name in authors is same as AuthorFirstname same thing with lastname.
books <- data.frame(
        AuthorFirstName=c("Lorne", "Loren", "Loren",
            "Loren", "Robin", "Rich"),
        AuthorLastName=c("Green", "Jaye", "Jaye", "Jaye",
            "Green", "Calaway"),
        Book=c("Bonanza", "Midwifery", "Gardening",
        "Perennials", "Who_dun_it?", "Support"))

merge(authors, books, by.x=c("FirstName", "LastName"),
      by.y=c("AuthorFirstName", "AuthorLastName"),
      all.x=TRUE)

InformationsquelleAutor Akshay Kadidal

Vous devez vous connecter pour publier un commentaire.