Lire les caractères Unicode à partir d'arguments de ligne de commande en Python 2.x sur Windows

Je veux que mon script Python pour être en mesure de lire Unicode arguments de ligne de commande dans Windows. Mais il semble que sys.argv est une chaîne de caractères encodée dans certains locaux de l'encodage, plutôt que de l'Unicode. Comment puis-je lire la ligne de commande en Unicode?

Exemple de code: argv.py

import sys

first_arg = sys.argv[1]
print first_arg
print type(first_arg)
print first_arg.encode("hex")
print open(first_arg)

Sur mon PC mis en place pour les Japonais de page de code, j'obtiens:

C:\temp>argv.py "PC・ソフト申請書08.09.24.doc"
PC・ソフト申請書08.09.24.doc
<type 'str'>
50438145835c83748367905c90bf8f9130382e30392e32342e646f63
<open file 'PC・ソフト申請書08.09.24.doc', mode 'r' at 0x00917D90>

C'est Shift-JIS codées je crois, et il "travaille" pour que le nom de fichier. Mais il casse pour les noms de fichiers avec des caractères qui ne sont pas dans le Shift-JIS jeu de caractères—la finale "ouvrir" appel échoue:

C:\temp>argv.py Jörgen.txt
Jorgen.txt
<type 'str'>
4a6f7267656e2e747874
Traceback (most recent call last):
  File "C:\temp\argv.py", line 7,
in <module>
    print open(first_arg)
IOError: [Errno 2] No such file or directory: 'Jorgen.txt'

Remarque—je parle de Python 2.x, pas de Python 3.0. J'ai trouvé que Python 3.0 donne sys.argv comme bon Unicode. Mais c'est un peu tôt encore pour la transition vers Python 3.0 (en raison du manque de 3ème partie de la bibliothèque de support).

Mise à jour:

Quelques réponses ont dit que je doit décoder selon quelle que soit la sys.argv est encodé en. Le problème c'est qu'il n'est pas Unicode complète, de sorte que certains caractères ne sont pas représentable.

Voici les cas d'utilisation qui me donne du chagrin: j'ai permis de glisser-déposer des fichiers sur des .py fichiers dans l'Explorateur Windows. J'ai les noms de fichiers avec toutes sortes de personnages, dont certains pas dans le système de page de code par défaut. Mon script Python ne pas obtenir le droit des noms de fichiers Unicode transmises via sys.argv dans tous les cas, quand les personnages ne sont pas représentable dans le code actuel, le codage de la page.

Il y a certainement des API Windows pour lire la ligne de commande avec Unicode (et Python 3.0 t-il). Je suppose que le Python 2.x interprète n'est pas à l'utiliser.

Cochez cette question posée ici sur un Débordement de Pile, il doit fournir la réponse à votre question: stackoverflow.com/questions/477061/...
Oui, semble être un exact de la dup.
Cette question et ses réponses en parler raw_input() (même si la question de la mention "ligne de commande" une fois). Je suis intéressé dans la ligne de commande, par exemple sys.argv.
Bien essentiellement, vous boucle sur sys.argv comme ceci: pour les arg dans sys.argv: imprimer arg.decode("utf-8"), j'ai utilisé de l'impression, mais vous devez faire ce que vous avez besoin. Vous pouvez également choisir le bon encodage que vous avez besoin.
N'Japonaise de Windows utilisez les polices raster sur la console par défaut? Ce ne serait sans doute de les limiter à un affichage de caractères dans Windows 932 page de code. Voir support.microsoft.com/kb/Q99795 (c'est une question distincte de la lecture de la args, mais peut avoir une certaine incidence)

InformationsquelleAutor Craig McQueen | 2009-05-11

29

Voici une solution qui est juste ce que je suis à la recherche d', de faire un appel à la Windows GetCommandLineArgvW fonction:

Obtenir sys.argv avec les caractères Unicode sous Windows (à partir de ActiveState)

Mais j'ai fait plusieurs modifications pour simplifier son utilisation et de mieux gérer certaines utilisations. Voici ce que j'utilise:

win32_unicode_argv.py
```
"""
win32_unicode_argv.py

Importing this will replace sys.argv with a full Unicode form.
Windows only.

From this site, with adaptations:
      http://code.activestate.com/recipes/572200/

Usage: simply import this module into a script. sys.argv is changed to
be a list of Unicode strings.
"""


import sys

def win32_unicode_argv():
    """Uses shell32.GetCommandLineArgvW to get sys.argv as a list of Unicode
    strings.

    Versions 2.x of Python don't support Unicode in sys.argv on
    Windows, with the underlying Windows API instead replacing multi-byte
    characters with '?'.
    """

    from ctypes import POINTER, byref, cdll, c_int, windll
    from ctypes.wintypes import LPCWSTR, LPWSTR

    GetCommandLineW = cdll.kernel32.GetCommandLineW
    GetCommandLineW.argtypes = []
    GetCommandLineW.restype = LPCWSTR

    CommandLineToArgvW = windll.shell32.CommandLineToArgvW
    CommandLineToArgvW.argtypes = [LPCWSTR, POINTER(c_int)]
    CommandLineToArgvW.restype = POINTER(LPWSTR)

    cmd = GetCommandLineW()
    argc = c_int(0)
    argv = CommandLineToArgvW(cmd, byref(argc))
    if argc.value > 0:
        # Remove Python executable and commands if present
        start = argc.value - len(sys.argv)
        return [argv[i] for i in
                xrange(start, argc.value)]

sys.argv = win32_unicode_argv()
```
Maintenant, la façon dont j'utilise c'est de faire simplement:
```
import sys
import win32_unicode_argv
```
et à partir de là, sys.argv est une liste de chaînes Unicode. Le Python optparse module semble heureux de l'analyser, ce qui est excellent.
- Oui, cela va fonctionner. Juste se débarrasser de ".encode('utf-8')" à la fin
- Ce morceau de code ne fonctionne pas pour moi quand j'ai glisser et déposer des fichiers à py fichier. Toutefois, ce code fonctionne quand je tape le nom de fichier à l'invite de commande. Et j'ai écrit un programme en C++ pour appeler GetCommandLineW, le programme peut afficher le nom de fichier correctement si j'ai faites glisser et déposez le fichier dans le programme.
- Ce qui ne "fonctionne pas" signifie concrètement? Il est nécessaire de activer le glisser-déposer sur des fichiers Python. Il a été un moment (et different company) depuis que je l'ai fait, mais je pense que je dois avoir activé les noms de fichiers longs.
- Je n'ai pas permettre que. Mais mon programme python est encore en mesure d'accepter de glisser et déposer des fichiers. Mon programme accepte les noms de fichier en paramètre. Ensuite, il affichera les noms de fichiers sous forme hexadécimale. J'ai trouvé que certains personnages deviennent 0x3f ('?').
- Je vous suggère de demander qu'une question distincte sur StackOverflow, et d'inclure un exemple de code qui illustre le problème que vous rencontrez.
- Il échoue si un paramater se termine avec \", dans ce cas, ce code ajoute " pour le paramètre. Pouvez-vous résoudre ce problème?
- Que devrait-il faire à la place? Pouvez-vous fournir un exemple d'une telle ligne de commande, et ce que vous vous attendez à voir dans argv?
- paramètre "1\", le code indique qu'il 1". Barre oblique inverse n'échappe pas à " sur windows, est-il?
- href="http://blogs.msdn.com/b/oldnewthing/archive/2010/09/17/10063629.aspx" >blogs.msdn.com/b/oldnewthing/archive/2010/09/17/10063629.aspx Comment résoudre ce problème? AFAIR ` n'est pas le windows caractère d'échappement.
- malheureusement, il ne fonctionne pas avec PyScripter et d'autres programmes qui patch sys.argv. Solutions de contournement et le singe, des correctifs ont leurs limites.
- dois-je comprendre corectly que le code ci-dessus n'a de sens que pour Python 2? Je l'ai essayé avec Python 3 et eu une erreur sur xrange(); quand je l'ai changé pour range(), la valeur retournée n'est pas unicode.
- C'est correct. Python 3 déjà les lit à la ligne de commande comme des chaînes Unicode, donc il n'est pas nécessaire pour ce code.
- J'ai intégré ce code dans la version de développement de mon win-unicode-console package: github.com/Drekin/win-unicode-console.
- faut-il changer Python comportement à l'échelle mondiale? =/
- Dépend de la façon dont vous l'appliquez. Vous pouvez l'activer dans sitecustomize, qui a l'effet global et l'utilisation prévue.
- ouch. C'est un anti-pattern.Les gens vont développer du code et de débogage sur leurs systèmes avec ce hook global installés et ont beaucoup de problèmes en essayant de le corriger dans la production.
- Ce n'est pas une fonctionnalité package, c'est un externe fixer à l'interpréteur Python lui-même. Heureusement, il n'est pas nécessaire en Python 3.6. Idéalement, il devrait être transparent pour Python. Le comparer à des extensions comme pyreadline. Aussi, vous pouvez le désactiver lors de vos tests interactis avec elle.
InformationsquelleAutor Craig McQueen
12

Traiter avec des encodages est très déroutant.

Je croire si votre entrée de données via la ligne de commande, il va encoder les données quel que soit votre système d'encodage est et n'est pas unicode. (Même le copier/coller ce faire)

Donc, il devrait être correct pour décoder en unicode en utilisant le système de codage:
```
import sys

first_arg = sys.argv[1]
print first_arg
print type(first_arg)

first_arg_unicode = first_arg.decode(sys.getfilesystemencoding())
print first_arg_unicode
print type(first_arg_unicode)

f = codecs.open(first_arg_unicode, 'r', 'utf-8')
unicode_text = f.read()
print type(unicode_text)
print unicode_text.encode(sys.getfilesystemencoding())
```
exécutant la commande suivante Permettra de sortie:
Invite> python myargv.py "PC-ソフト申請書08.09.24.txt"
```
PC・ソフト申請書08.09.24.txt
<type 'str'>
<type 'unicode'>
PC・ソフト申請書08.09.24.txt
<type 'unicode'>
?日本語
```
Où l' "PC-ソフト申請書08.09.24.txt" contenait le texte, "日本語".
(J'ai codé le fichier en utf8 à l'aide de bloc-notes de windows, je suis un peu perplexe quant à pourquoi il y a un"? " dans le début lors de l'impression. Quelque chose à voir avec la façon dont le bloc-notes enregistre utf8?)

Les chaînes de "décoder" la méthode ou de l'unicode() builtin peut être utilisé pour convertir un encodage en unicode.
```
unicode_str = utf8_str.decode('utf8')
unicode_str = unicode(utf8_str, 'utf8')
```
Aussi, si vous traitez avec des fichiers encodés vous pouvez utiliser les codecs.fonction open() à la place de l'intégré dans le open(). Il permet de définir l'encodage du fichier, et ensuite utiliser le codage donnée de manière transparente décoder le contenu au format unicode.

Ainsi, lorsque vous appelez content = codecs.open("myfile.txt", "r", "utf8").read() content sera en unicode.

codecs.ouvert:
http://docs.python.org/library/codecs.html?#codecs.open

Si je suis miss-comprendre quelque chose s'il vous plaît laissez-moi savoir.

Si vous ne l'avez pas déjà, je vous recommande la lecture de Joel article sur unicode et l'encodage:
http://www.joelonsoftware.com/articles/Unicode.html

InformationsquelleAutor monkut
2

Essayez ceci:
```
import sys
print repr(sys.argv[1].decode('UTF-8'))
```
Peut-être que vous devez remplacer CP437 ou CP1252 pour UTF-8. Vous devriez être en mesure de déduire le codage approprié le nom de la clé de registre HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Nls\CodePage\OEMCP

InformationsquelleAutor pts
0

De la ligne de commande peut être dans le codage de Windows. Essayez de décoder les arguments en unicode objets:
```
args = [unicode(x, "iso-8859-9") for x in sys.argv]
```
- -1 "iso-8859-9" n'est PAS un codage de Windows. Vous avez juste fait qu'aggraver le problème.
InformationsquelleAutor a paid nerd

Vous devez vous connecter pour publier un commentaire.