comment lire un fichier qui peut être enregistré en ansi ou unicode en python?

Je dois écrire un script qui prennent en charge la lecture d'un fichier qui peut être enregistré en Unicode ou Ansi (à l'aide de MS est le bloc-notes).

Je n'ai pas d'indication du format d'encodage dans le fichier, comment puis-je supporter les deux formats d'encodage? (le genre d'une façon générique de la lecture de fichiers avec out savoir le format avancé).

Qui version de Python que vous utilisez? 2.x et 3.x poignée Unicode différemment.
Pour l'unicode, vous pouvez utiliser un ByteOrderMark (BOM) en UTF-16 fichiers pour montrer qu'il est en fait unicode, et l'ordre dans lequel les octets sont dans. régulière "ansi" (ascii, je suppose?) il est rare de commencer avec un marqueur.
J'utilise Python 2.7
Méfiez-vous que "ANSI" n'est pas un codage de caractères: John Machin réponse est le seul à ce jour avec une définition précise de ce qu'est "ANSI".

OriginalL'auteur YSY | 2011-12-11

MS Notepad donne à l'utilisateur un choix de 4 codages, exprimée en maladroite confusion terminologique:

"Unicode" UTF-16, écrit little-endian. "Unicode big endian" UTF-16, écrite big-endian. Dans les deux UTF-16 cas, cela signifie que le MOB va être écrit. Utilisation utf-16 pour décoder un tel fichier.

"UTF-8" UTF-8; le bloc-notes explicitement écrit une "UTF-8 BOM". Utilisation utf-8-sig pour décoder un tel fichier.

"ANSI" est un choc. C'est MME de la terminologie de "quelle que soit la valeur par défaut héritage de codage est sur cet ordinateur".

Voici une liste de Windows encodages que je connais et les langues/les scripts qu'ils sont utilisés pour:

cp874  Thai
cp932  Japanese 
cp936  Unified Chinese (P.R. China, Singapore)
cp949  Korean 
cp950  Traditional Chinese (Taiwan, Hong Kong, Macao(?))
cp1250 Central and Eastern Europe 
cp1251 Cyrillic ( Belarusian, Bulgarian, Macedonian, Russian, Serbian, Ukrainian)
cp1252 Western European languages
cp1253 Greek 
cp1254 Turkish 
cp1255 Hebrew 
cp1256 Arabic script
cp1257 Baltic languages 
cp1258 Vietnamese
cp???? languages/scripts of India

Si le fichier a été créé sur l'ordinateur où il est lu, alors vous pouvez obtenir le "ANSI" encodage par locale.getpreferredencoding(). Sinon, si vous savez d'où il vient, vous pouvez spécifier quel encodage utiliser si ce n'est pas de l'UTF-16. À défaut, deviner.

Être prudent en utilisant codecs.open() de lire des fichiers Windows. Les docs disent: """Remarque
Les fichiers sont toujours ouvert en mode binaire, même si aucun mode binaire a été spécifié. Ceci est fait pour éviter la perte de données due à des codages à l'aide de 8-bits. Cela signifie que pas de conversion automatique de '\n' est effectuée sur la lecture et l'écriture.""" Cela signifie que vos lignes dans \r\n et vous aurez besoin/envie de dépouiller ceux hors.

Mettant tous ensemble:

Exemple de fichier texte, enregistré avec tous les 4 codage des choix, ressemble à ceci dans le bloc-notes:

The quick brown fox jumped over the lazy dogs.
àáâãäå

Voici le code de démonstration:

import locale

def guess_notepad_encoding(filepath, default_ansi_encoding=None):
    with open(filepath, 'rb') as f:
        data = f.read(3)
    if data[:2] in ('\xff\xfe', '\xfe\xff'):
        return 'utf-16'
    if data == u''.encode('utf-8-sig'):
        return 'utf-8-sig'
    # presumably "ANSI"
    return default_ansi_encoding or locale.getpreferredencoding()

if __name__ == "__main__":
    import sys, glob, codecs
    defenc = sys.argv[1]
    for fpath in glob.glob(sys.argv[2]):
        print
        print (fpath, defenc)
        with open(fpath, 'rb') as f:
            print "raw:", repr(f.read())
        enc = guess_notepad_encoding(fpath, defenc)
        print "guessed encoding:", enc
        with codecs.open(fpath, 'r', enc) as f:
            for lino, line in enumerate(f, 1):
                print lino, repr(line)
                print lino, repr(line.rstrip('\r\n'))

et voici la sortie lorsqu'il est exécuté dans une fenêtre "Invite de Commande" de la fenêtre à l'aide de la commande \python27\python read_notepad.py "" t1-*.txt

('t1-ansi.txt', '')
raw: 'The quick brown fox jumped over the lazy dogs.\r\n\xe0\xe1\xe2\xe3\xe4\xe5
\r\n'
guessed encoding: cp1252
1 u'The quick brown fox jumped over the lazy dogs.\r\n'
1 u'The quick brown fox jumped over the lazy dogs.'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5\r\n'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5'

('t1-u8.txt', '')
raw: '\xef\xbb\xbfThe quick brown fox jumped over the lazy dogs.\r\n\xc3\xa0\xc3
\xa1\xc3\xa2\xc3\xa3\xc3\xa4\xc3\xa5\r\n'
guessed encoding: utf-8-sig
1 u'The quick brown fox jumped over the lazy dogs.\r\n'
1 u'The quick brown fox jumped over the lazy dogs.'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5\r\n'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5'

('t1-uc.txt', '')
raw: '\xff\xfeT\x00h\x00e\x00 \x00q\x00u\x00i\x00c\x00k\x00 \x00b\x00r\x00o\x00w
\x00n\x00 \x00f\x00o\x00x\x00 \x00j\x00u\x00m\x00p\x00e\x00d\x00 \x00o\x00v\x00e
\x00r\x00 \x00t\x00h\x00e\x00 \x00l\x00a\x00z\x00y\x00 \x00d\x00o\x00g\x00s\x00.
\x00\r\x00\n\x00\xe0\x00\xe1\x00\xe2\x00\xe3\x00\xe4\x00\xe5\x00\r\x00\n\x00'
guessed encoding: utf-16
1 u'The quick brown fox jumped over the lazy dogs.\r\n'
1 u'The quick brown fox jumped over the lazy dogs.'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5\r\n'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5'

('t1-ucb.txt', '')
raw: '\xfe\xff\x00T\x00h\x00e\x00 \x00q\x00u\x00i\x00c\x00k\x00 \x00b\x00r\x00o\
x00w\x00n\x00 \x00f\x00o\x00x\x00 \x00j\x00u\x00m\x00p\x00e\x00d\x00 \x00o\x00v\
x00e\x00r\x00 \x00t\x00h\x00e\x00 \x00l\x00a\x00z\x00y\x00 \x00d\x00o\x00g\x00s\
x00.\x00\r\x00\n\x00\xe0\x00\xe1\x00\xe2\x00\xe3\x00\xe4\x00\xe5\x00\r\x00\n'
guessed encoding: utf-16
1 u'The quick brown fox jumped over the lazy dogs.\r\n'
1 u'The quick brown fox jumped over the lazy dogs.'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5\r\n'
2 u'\xe0\xe1\xe2\xe3\xe4\xe5'

De choses à connaître:

(1) "cmb" est un fichier système de pseudo-encodage qui n'a pas de pertinence pour le décodage de la contenu de fichiers. Sur un système où le codage par défaut est cp1252, il fait comme latin1 (aarrgghh!!); voir ci-dessous

>>> all_bytes = "".join(map(chr, range(256)))
>>> u1 = all_bytes.decode('cp1252', 'replace')
>>> u2 = all_bytes.decode('mbcs', 'replace')
>>> u1 == u2
False
>>> [(i, u1[i], u2[i]) for i in xrange(256) if u1[i] != u2[i]]
[(129, u'\ufffd', u'\x81'), (141, u'\ufffd', u'\x8d'), (143, u'\ufffd', u'\x8f')
, (144, u'\ufffd', u'\x90'), (157, u'\ufffd', u'\x9d')]
>>>

(2) chardet est très bien à détecter les codages basé sur des scripts non latins (Chinois/Japonais/coréen, Cyrillique, hébreu, en grec), mais pas beaucoup de bon latine, à base de codages (de l'Ouest/Centrale/Europe de l'est, turc, Vietnamien) et n'en connaît pas l'arabe.

OriginalL'auteur John Machin

3

Le bloc-notes enregistre les fichiers Unicode avec une marque d'ordre d'octet. Cela signifie que les premiers octets du fichier sera:
- EF BB BF -- UTF-8
- FF FE -- "Unicode" (en fait, UTF-16 little-endian, ressemble)
- FE FF -- "Unicode big-endian" (qui ressemble à de l'UTF-16 big-endian)
D'autres éditeurs de texte peut ou peut ne pas avoir le même comportement, mais si vous savez que le bloc-notes est utilisé, ce qui vous donnera un décent heuristique de sélection automatique de l'encodage. Toutes ces séquences sont valables dans le codage ANSI que bien, en revanche, il est donc possible pour cette heuristique de faire des erreurs. Il n'est pas possible de garantir que l'encodage correct est utilisé.

+1 pour préciser que d'essayer de détecter le codage par la recherche d'une NOMENCLATURE n'est qu'une heuristique. Notez que faire des suppositions sur les codages de cette façon n'est pas recommandé par l'Unicode comité. Les nomenclatures sont uniquement destinées à indiquer l'ordre des octets de l'encodage. Ils ne sont pas recommandés, même juste pour distinguer entre UTF-32, UTF-16 et UTF-8.
Vos commentaires semblent contrairement à l'avis donné dans l'Unicode Marque d'Ordre d'Octet de la FAQ - particulièrement la section "Q: Où est une NOMENCLATURE utile?". Bien sûr, aucun codage de la signature peut toujours mentir à propos de la véritable encodage d'un fichier. Mais pour la plupart des cas, la NOMENCLATURE est un indicateur raisonnablement fiable.
Ce que les Nomenclatures étaient destinés n'est pas pertinent. La question est, étant donné le comportement du bloc-notes, et la connaissance qu'un fichier a été en fait créé par le bloc-notes, quelle est la meilleure stratégie pour la lecture d'un tel fichier. Le fait qu'une telle stratégie implique l'heuristique devrait aller sans dire.
la méthode recommandée pour déterminer l'encodage est de l'avoir explicitement indiqué externe pour le flux de données elle-même. Cependant, parce qu'il y a des protocoles qui ne sont pas de suivre les meilleures pratiques de Microsoft en particulier, la FAQ de la liste des différentes façons de deviner qui sont généralement fiables. L'utilisation d'une NOMENCLATURE, comme une signature a été développé par des personnes qui ne pas ou ne pouvaient pas utiliser les meilleures pratiques, et parfois, nous avons juste à faire face. Bien sûr, l'OMI a une meilleure solution est de suivre Michael Kaplan, des conseils et de l'arrêter à l'aide de bloc-notes de Windows: blogs.msdn.com/b/michkap/archive/2010/02/23/9967789.aspx
Non, je pense que le fait que la méthode n'est qu'une heuristique doit être explicitement indiqué, parce que c'est important de savoir qu'il n'est pas précis à 100% et qu'il y a des façons de le tromper. Comme je l'ai dit ci-dessus, oui, parfois, nous avons juste à faire face avec elle, mais ce n'est pas une raison pour ne parviennent pas à expliquer ou de comprendre ce que nous faisons.

OriginalL'auteur kindall

Vous devez vous connecter pour publier un commentaire.