D'étranges caractères unicode lors de la lecture du fichier en node.js app

J'essaie d'écrire un nœud application qui lit dans un ensemble de fichiers, les divise en lignes, et place les lignes dans un tableau. Assez simple. Il fonctionne sur pas mal de fichiers à l'exception de certains fichiers SQL que je suis en train de travailler avec. Pour une raison que je semble être obtenir une sorte de l'unicode de sortie lorsque j'ai divisé les lignes vers le haut. L'application ressemble à quelque chose comme ceci:

fs = require("fs");
var data = fs.readFileSync("test.sql", "utf8");
console.log(data);
lines = data.split("\n");
console.log(lines);

Le fichier d'entrée ressemble à quelque chose comme ceci:

use whatever
go

La sortie ressemble à ceci:

��use whatever
go

[ '��u\u0000s\u0000e\u0000 \u0000w\u0000h\u0000a\u0000t\u0000e\u0000v\u0000e\u0000r\u0000',
  '\u0000g\u0000o\u0000',
  '\u0000' ]

Comme vous pouvez le voir il y a une sorte de non reconnue personnage au début du fichier. Après la lecture des données dans et directement de la sortie, il semble ok, sauf pour ce personnage. Cependant, si je puis tenter de les diviser en lignes, je reçois toutes ces unicode comme les personnages. En gros, c'est tous les caractères avec "\u0000" au début de chacun d'eux.

J'ai aucune idée de ce qui se passe ici, mais il semble avoir quelque chose à voir avec les caractères dans le fichier lui-même. Si je l'ai copier et coller le texte du fichier dans un autre nouveau fichier et exécutez l'application sur le nouveau fichier, il fonctionne très bien. Je suppose que tout ce qui est à l'origine de ce problème est en train d'être supprimés au cours de la copie et de la pâte.

InformationsquelleAutor d512 | 2013-01-18

18

Votre fichier est en UTF-16 Peu de ~~Big~~ - Boutiste, pas en UTF-8.
```
var data = fs.readFileSync("test.sql", "utf16le"); //Not sure if this eats the BOM
```
Malheureusement node.js prend uniquement en charge UTF-16 Little Endian ou UTF-16LE (ne Peut pas être sûr de lire des docs, il y a une légère différence entre eux; à savoir que l'UTF-16LE ne pas utiliser les Nomenclatures), de sorte que vous avez à utiliser iconv ou à convertir le fichier en UTF-8 d'une autre façon.

Exemple:
```
var Iconv  = require('iconv').Iconv,
    fs = require("fs");

var buffer = fs.readFileSync("test.sql"),
    iconv = new Iconv( "UTF-16", "UTF-8");

var result = iconv.convert(buffer).toString("utf8");
```
- Wow, vous avez cloué. Je vous remercie. Donc, juste par curiosité, comment avez-vous connu ce fichier est big endian UTF-16? Est-il un moyen de détecter que dans le nœud? Je suis le traitement de plusieurs fichiers et ils ne sont pas codés de la même manière.
- en raison des valeurs null à même les postes, s'ils étaient en position impaire, il aurait été de little-endian. La détection de l'encodage automatiquement nécessite quelques heuristiques par l'analyse de la valeur null positions pour déterminer qui UTF-16 et UTF-8 a de très modèles uniques. Mais la plupart des autres encodages ne peut être détectée sans juste d'essayer et de voir si le texte est hors de la droite.
- Pour info, j'ai trouvé quelque chose qui a l'air prometteur pour le jeu de caractères de détection avec le noeud: github.com/mooz/node-icu-charset-detector. N'ai pas encore essayé, mais si je le faire fonctionner, je vais rendre compte.
- ouais, mais notez qu'il est impossible de détecter l'encodage de manière fiable. Il vaut la peine d'essayer si vous avez beaucoup de fichiers et/ou ne peut pas manuellement les détecter
- Ouais, je l'ai essayé et trouvé qu'il n'était pas d'une grande aide. À la fin, j'ai réécrit l'outil .NET et il fonctionne beaucoup mieux.
- Les valeurs null sont en position impaire, donc il est vraiment little endian (qui est la forme la plus commune de l'UTF-16 comme Windows préfère), donc il ne devrait pas être un problème.
- ouais n'ai pas remarqué les u après la nomenclature :X fix
- FWIW: Analyse d'un fichier texte exporté à partir d'un script VBA Excel comme XlFileFormat.xlUnicodeText, il semble être en UTF-16 LE aussi bien, donc j'ai seulement besoin de spécifier le "utf16le" format du nœud (puis diviser par le "\r\n" pour des lignes distinctes). Merci pour cette réponse!
InformationsquelleAutor Esailija
0

Est-ce peut-être le BOM (Octet de Commande d'interrogation)? Assurez-vous de sauvegarder vos fichiers sans la BOM ou inclure le code à la bande BOM.

La BOM est habituellement invisible dans les éditeurs de texte.

Je sais que Notepad++ dispose d'une fonction où vous pouvez facilement enlever un BOM à partir d'un fichier. Encoding > Encode in UTF-8 without BOM.
- Tours de le premier caractère est la NOMENCLATURE. Toutefois, la suppression il ne semble pas résoudre le "\u0000" de l'émission.
InformationsquelleAutor Halcyon

Utiliser la version lite de Iconv-lite

var result= "";
var iconv = require('iconv-lite');
var stream = fs.createReadStream(sourcefile)
    .on("error",function(err){
        //handle error
    })
    .pipe(iconv.decodeStream('win1251'))
    .on("error",function(err){
        //handle error
    })
    .on("data",function(data){
        result += data;
    })
    .on("end",function(){
       //use result
    });

InformationsquelleAutor Vikas

0

J'ai fait les opérations suivantes dans l'invite de commandes Windows pour convertir l'endianness:
```
type file.txt > file2.txt
```
InformationsquelleAutor Chong Lip Phang

Vous devez vous connecter pour publier un commentaire.