Comment faire pour déterminer l'encodage de texte?

J'ai reçu le texte qui est codé, mais je ne sais pas quel jeu de caractères a été utilisé. Est-il un moyen de déterminer l'encodage d'un fichier texte à l'aide de Python? Comment puis-je détecter l'encodage/codepage d'un fichier texte traite avec C#.

InformationsquelleAutor Nope | 2009-01-12

194

Correctement la détection de l'encodage de tous les temps est impossible.

(À partir de chardet FAQ:)

Toutefois, certains encodages sont optimisés
pour des langues spécifiques, et des langues
ne sont pas aléatoires. Certains de ces caractères
les séquences de pop up tout le temps, tout en
d'autres séquences n'ont pas de sens. Un
personne à l'aise en anglais qui ouvre une
journal et trouve “txzqJv 2!dasd0a
QqdKjvz” sera instantanément reconnaître que
ce n'est pas l'anglais (même si c'est
entièrement composé de lettres anglaises).
Par l'étude de beaucoup de “typique” du texte, un
algorithme d'ordinateur peut simuler cette
type de fluidité et de faire de l'éducation de la
devinez à propos d'un texte de langue.

Il est le chardet bibliothèque qui utilise cette étude pour tenter de détecter l'encodage. chardet est un port de la détection automatique de code de Mozilla.

Vous pouvez également utiliser UnicodeDammit. Il va essayer les méthodes suivantes:
- Un encodage découvert dans le document lui-même: par exemple, dans une déclaration XML, ou (pour les documents HTML) http-equiv balise META. Si Belle Soupe de trouver ce genre de codage dans le document, il analyse le document à nouveau depuis le début et donne le nouveau codage de l'essayer. La seule exception est si vous l'avez explicitement spécifié un encodage, et que l'encodage effectivement travaillées: alors qu'il ignore tout de l'encodage qu'il trouve dans le document.
- Un encodage reniflé en regardant les premiers octets du fichier. Si l'encodage détecté à ce stade, il sera l'un de l'UTF-* encodages, EBCDIC, ou ASCII.
- Un encodage repérée par le chardet bibliothèque, si vous l'avez installé.
- UTF-8
- Windows-1252
- Merci pour le chardet de référence. Semble bon, bien qu'un peu lent.
- Pas été en mesure de détecter l'encodage de tous les temps...n'est-ce pas une faille dans la norme de codage? ne devrait-ce pas toujours prévisible?
- Il n'y a pas une telle chose comme "la norme de codage". L'encodage de texte est quelque chose d'aussi vieux que l'informatique, il a pris de l'expansion avec le temps et les besoins, il n'était pas prévu. "Unicode" est une tentative pour résoudre ce problème.
- Et pas une mauvaise, toutes choses considérées. Ce que je voudrais savoir, c'est, comment puis-je savoir ce que le codage d'un texte ouvrir le fichier a été ouvert avec?
- Je suis confus par ce. J'ai un fichier texte j'ai eu du mal à lire en Python, donc je l'ai ouvert dans le Code de Visual Studio. Dans le fond de la gouttière du fichier résultant de la fenêtre, il dit: "UTF-16 LE". Lorsque vous remarquez qu'il est impossible de ne qui signifie que les outils comme les VSCode manquerait trop?
- ce que j'ai dit, c'est que correctement détecter tous les temps est impossible. Tout ce que vous pouvez faire est une supposition, mais il peut échouer parfois, il ne fonctionne pas à chaque fois, en raison de codages de ne pas être vraiment détectable. Pour faire le deviner, vous pouvez utiliser l'un des outils que je l'ai suggéré dans la réponse
- chardet a quelques très belles interface de ligne de commande, je ne suis pas sûr au sujet de votre cas d'utilisation, pour moi j'ai été vraiment juste essayer de deviner le jeu de caractères du fichier à la volée, et de ne pas l'utiliser dans un script ou quelque chose. l'utilisation de la CLI (après pip install chardet) $ chardet filename et vous pouvez utiliser l'aurez deviné codant pour encoder votre fichier texte dans d'autres options, en utilisant des outils comme iconv.
- J'aimerais chardet mais depuis le soutien turc a été ajouté asymétrique les nombres dans une manière que maintenant, il devine le turc pour beaucoup trop de fichiers, je suis venu à travers. Tant et si bien que je devais me débarrasser de chardet.
- Apparemment cchardet est plus rapide, mais nécessite cython.
- Il est étonnant qu'aucun pré-solutions existantes obtenir la droite, mais une simple fonction le fera pour les cas les plus typiques (et peut être personnalisé pour vos besoins locaux): coller.zi.fi/p/décodage.py/vue
- le point de cette réponse est de montrer que corectly la détection de l'encodage impossible; la fonction que vous proposez peut deviner juste pour votre cas, mais est faux, pour de nombreux cas.
- Tout à fait vrai; c'est pourquoi le commentaire dit 8 bits conjecture. Toutefois, sensible priorités devraient être utilisés et maintenant chardet favorise la turque trop. La pâte se révèle clairement des problèmes avec chardet qui ne peut être justifiée par l'ambiguïté (parce que \x81 n'existe pas dans la "découverte" de l'encodage et parce que l'UTF-8 doit toujours être le premier choix lorsqu'il s'inscrit).
InformationsquelleAutor nosklo
49

Une autre option pour l'encodage à utiliser
libmagic (qui est le code de l'
fichier de commande). Il y a une profusion de
liaisons python disponible.

Les bindings python qui vivent dans le fichier source de l'arbre sont disponibles comme
python-magie (ou python3-magie)
paquet debian. Il permet de déterminer l'encodage d'un fichier en faisant:
```
import magic

blob = open('unknown-file').read()
m = magic.open(magic.MAGIC_MIME_ENCODING)
m.load()
encoding = m.buffer(blob)  # "utf-8" "us-ascii" etc
```
Il y a un nom identique, mais incompatibles, python-magie pip paquet sur pypi, qui utilise également libmagic. Il peut aussi faire de l'encodage, en faisant:
```
import magic

blob = open('unknown-file').read()
m = magic.Magic(mime_encoding=True)
encoding = m.from_buffer(blob)
```
- libmagic est en effet une alternative viable à chardet. Et des informations utiles sur les paquets nommé python-magic! Je suis sûr que cette ambiguïté piqûres de beaucoup de gens
- sudo apt-get install python3-magic pour python3
- file n'est pas particulièrement bon pour identifier le langage humain dans des fichiers texte. Il est excellent pour identifier les différents formats de conteneur, bien que parfois vous devez savoir ce que veut dire ("Microsoft Office document" pourrait signifier un message Outlook, etc).
- Vous cherchez un moyen de gérer un fichier de codage de mystère j'ai trouvé ce post. Malheureusement, à l'aide de l'exemple de code, je ne peux pas obtenir passé open(): UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfc in position 169799: invalid start byte. L'encodage du fichier en fonction de vim est :set fileencoding est latin1.
- Si j'utilise l'argument optionnel errors='ignore', la sortie de l'exemple de code est le moins utile binary.
- Parfois, nous avons besoin de la magie pour résoudre les problèmes 🙂
- Vous avez besoin de l'ouvrir en mode binaire, c'est à dire open("filename.txt", "rb").
InformationsquelleAutor Hamish Downer

Certaines stratégies d'encodage, décommentez goût :

#!/bin/bash
#
tmpfile=$1
echo '-- info about file file ........'
file -i $tmpfile
enca -g $tmpfile
echo 'recoding ........'
#iconv -f iso-8859-2 -t utf-8 back_test.xml > $tmpfile
#enca -x utf-8 $tmpfile
#enca -g $tmpfile
recode CP1250..UTF-8 $tmpfile

Vous pouvez vérifier l'encodage par l'ouverture et lecture du fichier dans un formulaire d'une boucle... mais vous pourriez avoir besoin pour vérifier la taille du fichier d'abord :

encodings = ['utf-8', 'windows-1250', 'windows-1252' ...etc]
            for e in encodings:
                try:
                    fh = codecs.open('file.txt', 'r', encoding=e)
                    fh.readlines()
                    fh.seek(0)
                except UnicodeDecodeError:
                    print('got unicode error with %s , trying different encoding' % e)
                else:
                    print('opening the file with encoding:  %s ' % e)
                    break

Vous pouvez également utiliser io, comme io.open(filepath, 'r', encoding='utf-8'), ce qui est plus pratique, parce que codecs ne pas convertir \n automatiquement sur la lecture et l'écriture. Plus sur ICI

InformationsquelleAutor zzart

16

Voici un exemple de la lecture et de la prise à une valeur nominale de un chardet codage de prédiction, la lecture n_lines à partir du fichier dans le cas où il est de grande taille.

chardet vous donne également une probabilité (c'est à dire confidence) de l'encodage de prédiction (n'ai pas regardé comment ils viennent avec cela), qui est retourné avec sa prédiction de chardet.predict(), de sorte que vous pouvez travailler qui, en quelque sorte, si vous le souhaitez.
```
def predict_encoding(file_path, n_lines=20):
    '''Predict a file's encoding using chardet'''
    import chardet

    # Open the file as binary data
    with open(file_path, 'rb') as f:
        # Join binary lines for specified number of lines
        rawdata = b''.join([f.readline() for _ in range(n_lines)])

    return chardet.detect(rawdata)['encoding']
```
- En regardant ce après avoir obtenu un vote et maintenant voir que cette solution pourrait ralentir si il y avait beaucoup de données sur la première ligne. Dans certains cas, il serait préférable de lire les données différemment.
- J'ai modifié cette fonction de cette manière: def predict_encoding(file_path, n=20): ... skip ... and then rawdata = b''.join([f.read() for _ in range(n)]) Ont été essayé cette fonction sur Python 3.6, a parfaitement fonctionné avec "ascii", "cp1252", "utf-8", "unicode" encodages. Donc ce n'est certainement upvote.
InformationsquelleAutor ryanjdillon

# Function: OpenRead(file)
# A text file can be encoded using:
#   (1) The default operating system code page, Or
#   (2) utf8 with a BOM header
#
#  If a text file is encoded with utf8, and does not have a BOM header,
#  the user can manually add a BOM header to the text file
#  using a text editor such as notepad++, and rerun the python script,
#  otherwise the file is read as a codepage file with the 
#  invalid codepage characters removed
import sys
if int(sys.version[0]) != 3:
print('Aborted: Python 3.x required')
sys.exit(1)
def bomType(file):
"""
returns file encoding string for open() function
EXAMPLE:
bom = bomtype(file)
open(file, encoding=bom, errors='ignore')
"""
f = open(file, 'rb')
b = f.read(4)
f.close()
if (b[0:3] == b'\xef\xbb\xbf'):
return "utf8"
# Python automatically detects endianess if utf-16 bom is present
# write endianess generally determined by endianess of CPU
if ((b[0:2] == b'\xfe\xff') or (b[0:2] == b'\xff\xfe')):
return "utf16"
if ((b[0:5] == b'\xfe\xff\x00\x00') 
or (b[0:5] == b'\x00\x00\xff\xfe')):
return "utf32"
# If BOM is not provided, then assume its the codepage
#     used by your operating system
return "cp1252"
# For the United States its: cp1252
def OpenRead(file):
bom = bomType(file)
return open(file, 'r', encoding=bom, errors='ignore')
#######################
# Testing it
#######################
fout = open("myfile1.txt", "w", encoding="cp1252")
fout.write("* hi there (cp1252)")
fout.close()
fout = open("myfile2.txt", "w", encoding="utf8")
fout.write("\u2022 hi there (utf8)")
fout.close()
# this case is still treated like codepage cp1252
#   (User responsible for making sure that all utf8 files
#   have a BOM header)
fout = open("badboy.txt", "wb")
fout.write(b"hi there.  barf(\x81\x8D\x90\x9D)")
fout.close()
# Read Example file with Bom Detection
fin = OpenRead("myfile1.txt")
L = fin.readline()
print(L)
fin.close()
# Read Example file with Bom Detection
fin = OpenRead("myfile2.txt")
L =fin.readline() 
print(L) #requires QtConsole to view, Cmd.exe is cp1252
fin.close()
# Read CP1252 with a few undefined chars without barfing
fin = OpenRead("badboy.txt")
L =fin.readline() 
print(L)
fin.close()
# Check that bad characters are still in badboy codepage file
fin = open("badboy.txt", "rb")
fin.read(20)
fin.close()

InformationsquelleAutor Bill Moore

1

En fonction de votre plate-forme, je viens de choisir d'utiliser le shell linux file de commande. Cela fonctionne pour moi depuis que je suis à l'utiliser dans un script qui exécute exclusivement sur l'une de nos machines.

Évidemment, ce n'est pas un idéal de solution ou de réponse, mais il pourrait être modifié pour s'adapter à vos besoins. Dans mon cas, j'ai juste besoin de déterminer si un fichier est en UTF-8 ou pas.
```
import subprocess
file_cmd = ['file', 'test.txt']
p = subprocess.Popen(file_cmd, stdout=subprocess.PIPE)
cmd_output = p.stdout.readlines()
# x will begin with the file type output as is observed using 'file' command
x = cmd_output[0].split(": ")[1]
return x.startswith('UTF-8')
```
- Bifurquer un nouveau processus n'est pas nécessaire. Le code Python fonctionne déjà à l'intérieur d'un processus, et vous pouvez appeler le bon les fonctions du système lui-même sans les frais de chargement d'un nouveau processus.
InformationsquelleAutor MikeD
0

Il est, en principe, impossible de déterminer l'encodage d'un fichier texte, dans le cas général. Donc non, il n'y a pas de norme bibliothèque Python pour le faire pour vous.

Si vous avez des connaissances plus spécifiques sur le fichier texte (par exemple, qu'il est XML), il pourrait y avoir des fonctions de la bibliothèque.

InformationsquelleAutor Martin v. Löwis
0

Si vous connaissez le contenu de certains le fichier, vous pouvez essayer de le décoder avec plusieurs d'encodage et de voir qui est manquant. En général, il n'y a pas de chemin depuis un fichier texte est un fichier texte et ceux qui sont stupides 😉

InformationsquelleAutor Martin Thurau

-1

Ce site a code python pour la reconnaissance de l'ascii, l'encodage avec les nomenclatures, et utf8 sans bom: https://unicodebook.readthedocs.io/guess_encoding.html. Lire le fichier dans le tableau d'octets (de données): http://www.codecodex.com/wiki/Read_a_file_into_a_byte_array. Voici un exemple. Je suis dans osx.

#!/usr/bin/python                                                                                                  
import sys
def isUTF8(data):
try:
decoded = data.decode('UTF-8')
except UnicodeDecodeError:
return False
else:
for ch in decoded:
if 0xD800 <= ord(ch) <= 0xDFFF:
return False
return True
def get_bytes_from_file(filename):
return open(filename, "rb").read()
filename = sys.argv[1]
data = get_bytes_from_file(filename)
result = isUTF8(data)
print(result)
PS /Users/js> ./isutf8.py hi.txt                                                                                     
True

Un lien vers une solution est la bienvenue, mais assurez-vous que votre réponse est utile sans elle: ajouter un cadre autour du lien ainsi les autres utilisateurs auront une idée de ce qu'il est et pourquoi il est là, alors la citation de la partie la plus pertinente de la page que vous créez un lien dans le cas de la page cible n'est pas disponible. des Réponses qui sont un peu plus qu'un lien peut être supprimé.

InformationsquelleAutor js2010

Vous devez vous connecter pour publier un commentaire.