Lire un fichier texte UTF-8 avec BOM

J'ai un fichier texte avec la marque d'ordre des Octets (U+FEFF) au début. Je suis en train de lire le fichier dans R. Est-il possible d'éviter la marque d'ordre d'Octet?

La fonction fread (à partir de la data.table package) lit le fichier, mais ajoute ļ»æ au début de la première nom de la variable:

> names(frame_pers)[1]
[1] "ļ»æreg_date"

La même chose est avec read.csv fonction.

Actuellement, j'ai fait une fonction qui supprime la NOMENCLATURE à partir de la première colonne nom, mais je crois qu'il devrait y avoir une façon de comment automatiquement la bande de la NOMENCLATURE.

remove.BOM <- function(x) setnames(x, 1, substring(names(x)[1], 4))

> names(frame_pers)[1]
[1] "ļ»æreg_date"
> remove.BOM(frame_pers)
> names(frame_pers)[1]
[1] "reg_date"

Je suis à l'aide de l'encodage natif pour la R session:

> options("encoding" = "")
> options("encoding")
$encoding
[1] ""

InformationsquelleAutor djhurio | 2014-02-07

26

Avez-vous essayé read.csv(..., fileEncoding = "UTF-8-BOM")?. ?file dit:

Que de R 3.0.0 l'encodage ‘"UTF-8 BOM"’ est accepté et l'enlever
une Marque d'Ordre d'Octet si présent (qui c'est souvent le cas pour les fichiers et les pages web
générés par les applications Microsoft).
- Aussi ne fonctionne pas pour moi. Mes données brutes ressemble "31.1" lors de copier-coller à partir de notepad++ mais en R avec fread, il se divise en 2 colonnes, et à lire.csv j'ai le préfixe "ï»¿" (à l'aide que.est = TRUE). J'ai utilisé autohotkey et convert2txt pour obtenir de l'ocr à partir d'un affichage de gui, et je l'ai écrit dans un fichier. Cela me donne le problème "31.2" devient "ï»¿.331"
InformationsquelleAutor hadley
5

Cela a été traité entre les versions 1.9.6 et 1.9.8 avec ce commit; mise à jour de votre data.table installation de résoudre ce problème.

Une fois cela fait, vous pouvez simplement utiliser fread:
```
fread("file_name.csv")
```
- pas de travail pour moi. Mes données avec le préfixe "ï»¿"
- qu'est-ce que vos données.version de table
- Je suis en utilisant 1.10.4. J'ai fini par utiliser "read_csv" et l'option "col_types = "c" ", puis de tailler le premier caractère avant de se convertir au numérique. C'était une bidouille.
- merci de nous le signaler sur les données.tablr outil de suivi, y compris le fichier d'origine si vous le pouvez, tant que le problème devrait être résolu. Aussi s'il vous plaît essayer avec la version de développement au préalable (1.10.5), je me souviens d'une mise à jour couvrant BOM récemment.
InformationsquelleAutor MichaelChirico

Vous devez vous connecter pour publier un commentaire.