Unicode et UTF-8 problème de codage avec Scrapy XPath sélecteur de texte

Je suis l'aide de Scrapy et Python (dans le cadre d'un projet Django) pour gratter un site allemand de contenu. J'ai libxml2 installé comme backend pour Scrapy sélecteurs.

Si je récupérer le mot 'Hüftsitz' (c'est la façon dont il est affiché sur le site) à travers des sélecteurs, j'obtiens: u'H\ufffd\ufffdftsitz' (Scrapy XPath sélecteurs de retour des chaînes Unicode).

Si j'encode en UTF-8, j'obtiens: 'H\xef\xbf\xbd\xef\xbf\xbdftsitz'. Et si j'ai l'impression que j'arrive 'H??ftsitz' qui n'est pas correct. Je me demande pourquoi cela pourrait se produire.

La character-set sur le site est mis à UTF-8. Je suis en train de tester le dessus sur l'interface Python avec sys.getdefaultencoding ensemble de UTF-8. À l'aide de l'application Django là où les données XPath sélecteurs est écrit dans une base de données MySQL avec UTF-8 jeu de caractères, je vois le même comportement.

Suis-je surplombant quelque chose d'évident ici? Tout d'indices ou de l'aide sera grandement appréciée.

OriginalL'auteur ayaz | 2011-04-11