Python et BeautifulSoup problèmes d'encodage

Je suis en train d'écrire un robot avec Python à l'aide de BeautifulSoup, et tout allait à merveille jusqu'à ce que je couru dans ce site:

http://www.elnorte.ec/

Je suis de l'obtention du contenu à la demande de la bibliothèque:

r = requests.get('http://www.elnorte.ec/')
content = r.content

Si je fais une impression du contenu de la variable à ce stade, tous les espagnols caractères spéciaux semble fonctionner correctement. Cependant, une fois que j'ai essayer de nourrir le contenu de la variable à BeautifulSoup tout se foiré:

soup = BeautifulSoup(content)
print(soup)
...
<a class="blogCalendarToday" href="/component/blog_calendar/?year=2011&amp;month=08&amp;day=27&amp;modid=203" title="1009 artÃculos en este dÃa">
...

C'est apparemment fausser tous les espagnols de caractères spéciaux (accents et autres joyeusetés). J'ai essayé de faire du contenu.decode('utf-8'), le contenu.decode ("latin-1"), a également essayé de déconner avec le fromEncoding paramètre de BeautifulSoup, la valeur fromEncoding='utf-8' et fromEncoding= "latin-1", mais toujours pas de dés.

Tous les pointeurs serait très apprécié.

InformationsquelleAutor David | 2011-08-28

19

pourriez-vous essayer:
```
r = urllib.urlopen('http://www.elnorte.ec/')
x = BeautifulSoup.BeautifulSoup(r.read)
r.close()

print x.prettify('latin-1')
```
Je reçois le bon de sortie.
Oh, dans ce cas spécial, vous pouvez également x.__str__(encoding='latin1').

Je suppose que c'est parce que le contenu est en ISO-8859-1(5) et la meta http-equiv type de contenu de manière incorrecte dit "UTF-8".

Pourriez-vous confirmer?
- Salut Gaikokujin, merci pour votre réponse. Vous avez tout à fait raison, si je embellir avec le "latin-1" paramètre, je reçois la chaîne de retour avec tous les accents et tout et tout. Cependant, j'ai besoin de passer par la soupe de traiter les liens, et si j'essaie de faire une soupe de la chaîne de nouveau, il bousille les accents de nouveau.
- En fait, jamais l'esprit, maintenant j'ai une erreur lorsque vous tentez votre suggestion: UnicodeEncodeError: "latin-1" codec ne peut pas encoder des caractères en position 62-63: ordinal pas dans la gamme(256)
- Il semble fonctionner à nouveau si je fais: x = BeautifulSoup.BeautifulSoup(r.read(), fromEncoding= "latin-1"), mais encore une fois, si j'essaie de faire une nouvelle soupe de l'embellie de la chaîne, il sème de nouveau :/
- Enfin, il a obtenu, juste eu à soupe = BeautifulSoup(contenu, fromEncoding= "latin-1") puis quand il a eu le temps d'analyser les liens: i_title = élément.contenu[0].encode ("latin-1").decode('utf-8') qui semblait faire l'affaire. Merci pour votre aide 🙂
- Le code semble être erronée (double BeatifulSoup?): AttributeError: objet de type 'BeautifulSoup' n'a pas d'attribut "BeautifulSoup' - peut-être que l'interface a changé?
- il fonctionne correctement si vous imprimez le résultat, mais si vous écrivez dans le fichier en faisant file.write(str(x.prettify('latin-1'))), elle s'affiche donc beaucoup de caractère générique comme \n et de détruire la mise en forme. Aucune solution de contournement pour qui?
InformationsquelleAutor Gaikokujin Kun
25

Dans votre cas, cette page a de mauvaises données utf-8 qui confond BeautifulSoup et le fait qu'il pense que votre page utilise windows-1252, vous pouvez faire ce truc:
```
soup = BeautifulSoup.BeautifulSoup(content.decode('utf-8','ignore'))
```
ce faisant, vous allez jeter le tort de symboles à partir de la source de la page et BeautifulSoup va deviner le codage correctement.

Vous pouvez remplacer "ignorer" par "remplacer" et vérifier le texte de '?' symboles pour voir ce qui a été mis au rebut.

En fait, c'est une tâche très dure à écrire robot qui peut deviner le codage de la page à chaque fois avec 100% de chance(les Navigateurs sont très bon à cela de nos jours), vous pouvez utiliser les modules comme "chardet", mais, par exemple, dans votre cas, il va deviner l'encodage ISO-8859-2, ce qui n'est pas correct aussi.

Si vous avez vraiment besoin pour être en mesure d'obtenir de l'encodage pour n'importe quelle page l'utilisateur peut éventuellement l'offre vous devez construire un multi-niveau(essayez de l'utf-8, essayez latin1, essayez etc...) de détection de la fonction(comme nous l'avons fait dans notre projet) ou d'utiliser certains de détection de code à partir de firefox ou de chrome en tant que module C.

InformationsquelleAutor Riz

Vous pouvez essayer ce qui fonctionne pour tous les encodages

from bs4 import BeautifulSoup
from bs4.dammit import EncodingDetector
headers = {"User-Agent": USERAGENT}
resp = requests.get(url, headers=headers)
http_encoding = resp.encoding if 'charset' in resp.headers.get('content-type', '').lower() else None
html_encoding = EncodingDetector.find_declared_encoding(resp.content, is_html=True)
encoding = html_encoding or http_encoding
soup = BeautifulSoup(resp.content, 'lxml', from_encoding=encoding)

belle réponse, mais je laisserais tomber le headers (pas vraiment nécessaire, et, puisque vous n'avez pas de définir USERAGENT le code ne peut pas être aveuglément copie-collé).

InformationsquelleAutor Shawn

La première réponse est juste, cette fonctions, à certains moments, sont effective.

    def __if_number_get_string(number):
        converted_str = number
        if isinstance(number, int) or \
            isinstance(number, float):
                converted_str = str(number)
        return converted_str


    def get_unicode(strOrUnicode, encoding='utf-8'):
        strOrUnicode = __if_number_get_string(strOrUnicode)
        if isinstance(strOrUnicode, unicode):
            return strOrUnicode
        return unicode(strOrUnicode, encoding, errors='ignore')

    def get_string(strOrUnicode, encoding='utf-8'):
        strOrUnicode = __if_number_get_string(strOrUnicode)
        if isinstance(strOrUnicode, unicode):
            return strOrUnicode.encode(encoding)
        return strOrUnicode

InformationsquelleAutor Tabares

Je vous suggère de prendre un plus méthodique infaillible approche.

# 1. get the raw data 
raw = urllib.urlopen('http://www.elnorte.ec/').read()

# 2. detect the encoding and convert to unicode 
content = toUnicode(raw)    # see my caricature for toUnicode below

# 3. pass unicode to beautiful soup. 
soup = BeautifulSoup(content)


def toUnicode(s):
    if type(s) is unicode:
        return s
    elif type(s) is str:
        d = chardet.detect(s)
        (cs, conf) = (d['encoding'], d['confidence'])
        if conf > 0.80:
            try:
                return s.decode( cs, errors = 'replace' )
            except Exception as ex:
                pass 
    # force and return only ascii subset
    return unicode(''.join( [ i if ord(i) < 128 else ' ' for i in s ]))

Vous pouvez raison, peu importe ce que vous jeter sur ce, il envoie toujours valide unicode à bs.

Comme un résultat de votre analysé arbre se comporte beaucoup mieux et de ne pas échouer dans de nouveaux plus intéressant à chaque fois que vous avez de nouvelles données.

D'essai et d'Erreur ne fonctionne pas dans le Code - Il y a trop de combinaisons 🙂

InformationsquelleAutor vpathak

Vous devez vous connecter pour publier un commentaire.