Lire un fichier texte UTF-8 avec BOM
J'ai un fichier texte avec la marque d'ordre des Octets (U+FEFF) au début. Je suis en train de lire le fichier dans R. Est-il possible d'éviter la marque d'ordre d'Octet?
La fonction fread
(à partir de la data.table
package) lit le fichier, mais ajoute ļ»æ
au début de la première nom de la variable:
> names(frame_pers)[1]
[1] "ļ»æreg_date"
La même chose est avec read.csv
fonction.
Actuellement, j'ai fait une fonction qui supprime la NOMENCLATURE à partir de la première colonne nom, mais je crois qu'il devrait y avoir une façon de comment automatiquement la bande de la NOMENCLATURE.
remove.BOM <- function(x) setnames(x, 1, substring(names(x)[1], 4))
> names(frame_pers)[1]
[1] "ļ»æreg_date"
> remove.BOM(frame_pers)
> names(frame_pers)[1]
[1] "reg_date"
Je suis à l'aide de l'encodage natif pour la R session:
> options("encoding" = "")
> options("encoding")
$encoding
[1] ""
Vous devez vous connecter pour publier un commentaire.
Avez-vous essayé
read.csv(..., fileEncoding = "UTF-8-BOM")
?.?file
dit:Cela a été traité entre les versions 1.9.6 et 1.9.8 avec ce commit; mise à jour de votre
data.table
installation de résoudre ce problème.Une fois cela fait, vous pouvez simplement utiliser
fread
: