UnicodeEncodeError: 'virgule' codec ne peut pas encoder les caractères u'\x00' à la position 8: invalid décimal chaîne Unicode

Cette ligne est de me donner un UnicodeEncodeError

studentID = int(studentID.unicode_markup.encode('utf-8').decode('utf-8', 'ignore'))

Précisément l'erreur est ce UnicodeEncodeError: 'decimal' codec can't encode character u'\x00' in position 8: invalid decimal Unicode string

Si je change la ligne à ceci:

studentID = int(studentID.unicode_markup.encode('utf-8'))

J'obtiens cette erreur:

ValueError: invalid literal for int() with base 10: '\xc2\xa0\xc2\xa0100\xc2\xa0\xc2\xa0'

J'ai essayé de spécifier un encodage différent (comme 'ascii') mais il me donne toujours la même erreur.

Aide est grandement appréciée.

Pourquoi êtes-vous d'encodage et de décodage de la chaîne quand elle est déjà en unicode? Tout ce que vous devez faire est de passer dans la chaîne directement: c'est à dire int(studentID.unicode_markup). La chaîne a de non-rupture des espaces au début et à la fin, mais int() automatiquement la bande de personnes.
int(studentID.unicode_markup) me donne l'erreur: UnicodeEncodeError: 'virgule' codec ne peut pas encoder les caractères u'\x00' à la position 8: invalid décimal chaîne Unicode
Le document html doit contenir des caractères null. Où en êtes-vous ce document? Êtes-vous de le télécharger? Et si oui, comment êtes-vous de la conversion en unicode?

InformationsquelleAutor Vishwa Iyer | 2015-05-10

2

Vous ont des caractères visibles dans votre chaîne de caractères avant et après le 100. Par conséquent, laint fonction est un échec car il ne peut pas convertir cette chaîne en un entier (int).

Essayez la méthode suivante pour analyser les chiffres avant de tenter de les convertir en int:
```
import re

# find all characters in the string that are numeric.
m = re.search(r'\d+', studentID.unicode_markup)
numeric = m.group() # retrieve numeric string
int(numeric) # returns 100
```
- Si je reçois une erreur similaire, cette méthode de travail?
- Maintenant, je reçois cette erreur: UnicodeDecodeError: 'ascii' codec ne peut pas décoder les octets 0xc2 en position 0: ordinal pas in range(128)
- modification de travailler pour tous les cas où la chaîne de caractères contient un certain nombre, et que vous voulez extraire que le nombre à convertir en int.
- C'est probablement la méthode la plus fiable. Vous n'avez pas besoin d'encoder la chaîne de caractères UTF-8 si, il suffit d'utiliser m = re.search(r'\d+', studentID.unicode_markup)
- Cela a fonctionné merci!
- pas de problème. Juste par curiosité, y avait-il une raison pour encoder la chaîne d'origine comme utf-8? Vous devriez être en mesure d'exécuter re.search sur l'original unicode_markup avec le même résultat.
- Honnêtement, je ne sais pas. Je suis nouveau sur le codage et le décodage et le tout est assez confus pour moi. Votre code a travaillé après moi, passer des heures à essayer de résoudre mon problème. Je ne veux vraiment pas de risque, le code ne fonctionne pas encore.
InformationsquelleAutor Martin Konecny

Vous devez vous connecter pour publier un commentaire.