Comment identifier/supprimer des non-caractères UTF-8 dans la R

Lorsque j'importe une Stata dataset dans R (à l'aide de la foreign paquet), l'importation contient parfois des personnages qui ne sont pas valides UTF-8. C'est assez désagréable en soi, mais il casse tout dès que j'essaie de transformer l'objet de JSON (à l'aide de la rjson package).

Comment je peux identifier les non-valides-UTF-8de caractères dans une chaîne de caractères et de les supprimer après que?

InformationsquelleAutor Marcel Hebing | 2013-06-25

r stata utf-8

21

Une autre solution à l'aide de iconv et c'argument sub: chaîne de caractères. Si pas NA(ici je l'ai mis à "), il est utilisé pour remplacer les non-convertibles octets dans l'entrée.
```
x <- "fa\xE7ile"
Encoding(x) <- "UTF-8"
iconv(x, "UTF-8", "UTF-8",sub='') ## replace any non UTF-8 by ''
"faile"
```
Ici noter que si l'on choisit le bon encodage:
```
x <- "fa\xE7ile"
Encoding(x) <- "latin1"
xx <- iconv(x, "latin1", "UTF-8",sub='')
facile
```
InformationsquelleAutor agstudy
1

Au lieu de les supprimer, vous pouvez essayer de les convertir en UTF-8 à l'aide de la chaîne iconv.
```
require(foreign)
dat <- read.dta("data.dta")

for (j in seq_len(ncol(dat))) {
   if (class(dat[, j]) == "factor")
       levels(dat[, j]) <- iconv(levels(dat[, j]), from = "latin1", to = "UTF-8")
}
```
Vous pouvez remplacer latin1 par un plus adapté enconding dans votre cas.
Puisque nous n'avons pas accès à vos données est difficile de savoir laquelle sera la plus adaptée.

InformationsquelleAutor dickoa
1

Une autre approche pour enlever le mauvais caractères à l'aide dplyr sur le jeu de données entier:
```
library(dplyr)

MyDate %>%
    mutate_at(vars(MyTextVar1, MyTextVar2), function(x){gsub('[^ -~]', '', x)})
```
Où MyData et MyTextVar sont l'ensemble de données et les variables de texte pour supprimer les mauvaises pommes de. Ce sont peut-être moins robuste que la modification de l'encodage mais c'est souvent fine et plus facile de les supprimer.
- Immeuble sur Tyler réponse, vous pourriez aussi envisager MyDate %>% mutate_if(is.character, ~gsub('[^ -~]', '', .)) qui cible toutes les colonnes de caractères ou MyData %>% mutate_all(~gsub('[^ -~]', '', .)) qui cible toutes les colonnes.
- Cela supprime de façon plus de caractères que nécessaire. La question posée pour les non-UTF8, pas de non-ASCII.
InformationsquelleAutor Tyler Rinker
0

Yihui de xfun paquet a une fonction, read_utf8, qui tente de lire un fichier et suppose qu'il est codé en UTF-8. Si le fichier contient des non-UTF-8 lignes, une alerte est déclenchée, vous permettant de savoir qui de ligne(s) contiennent des caractères UTF-8. Sous le capot, il utilise une autre fonction exportée xfun:::invalid_utf8() qui est tout simplement la suivante: which(!is.na(x) & is.na(iconv(x, "UTF-8", "UTF-8"))).

À détecter spécifiques de non-UTF-8 mots dans une chaîne de caractères, vous pouvez modifier le dessus légèrement et faire quelque chose comme:
```
invalid_utf8_ <- function(x){

  !is.na(x) & is.na(iconv(x, "UTF-8", "UTF-8"))

}

detect_invalid_utf8 <- function(string, seperator){

  stringSplit <- unlist(strsplit(string, seperator))

  invalidIndex <- unlist(lapply(stringSplit, invalid_utf8_))

  data.frame(
    word = stringSplit[invalidIndex],
    stringIndex = which(invalidIndex == TRUE)
  )

}

x <- "This is a string fa\xE7ile blah blah blah fa\xE7ade"

detect_invalid_utf8(x, " ")

#     word stringIndex
# 1 façile    5
# 2 façade    9
```
InformationsquelleAutor conrad-mac

Vous devez vous connecter pour publier un commentaire.