L'affichage codé en UTF-8 caractères Chinois dans la R

J'essaye d'ouvrir une codé en UTF-8 .fichier csv qui contient (traditionnel) des caractères Chinois dans R. Pour une raison quelconque, R affiche les informations parfois comme des caractères Chinois, parfois sous forme de caractères unicode.

Par exemple:

data <-read.csv("mydata.csv", encoding="UTF-8")

data

va produire des caractères unicode, alors que:

data <-read.csv("mydata.csv", encoding="UTF-8")

data[,1]

sera effectivement afficher les caractères Chinois.

Si je la transformer en une matrice, il permettra également d'afficher les caractères Chinois, mais si j'essaie de regarder les données (commande de la Vue(de données) ou fixe(données)), il est en unicode à nouveau.

J'ai demandé des conseils auprès de personnes qui utilisent un Mac (je suis sur un PC, Windows 7), et certains d'entre eux ont des caractères Chinois dans l'ensemble, d'autres n'ont pas. J'ai essayé d'enregistrer les données d'origine comme un tableau et de le lire dans la R de cette façon - même résultat. J'ai essayé de lancer le script dans RStudio, de Révolution R, et RGui. J'ai essayé d'ajuster les paramètres régionaux (p. ex. pour les chinois), mais la R ne m'a pas laissé le modifier ou l'autre, le résultat était du charabia au lieu de caractères unicode.

Mes paramètres régionaux actuels:

"LC_COLLATE=French_Switzerland.1252;LC_CTYPE=French_Switzerland.1252;LC_MONETARY=French_Switzerland.1252;LC_NUMERIC=C;LC_TIME=French_Switzerland.1252"

Toute l'aide pour obtenir des R de toujours afficher les caractères Chinois serait grandement apprécié...

  • Hm, ça ressemble à un bug. Pour ceux que cela intéresse, il est facilement reproductible avec ce code: x=c('中華民族');x;data.frame(x). N'essayez pas de les coller ce code dans les R de l'Éditeur, il suffit de le coller à droite dans la console ou il ne fonctionnera pas.
  • Voir ma réponse à stackoverflow.com/questions/22876746/...
InformationsquelleAutor user1445297 | 2012-06-08