supprimer unicode emoji à l'aide de re en python

J'ai essayé d'enlever l'emoji à partir d'une unicode tweet de texte et d'imprimer le résultat en python 2.7 utilisation

myre = re.compile(u'[\u1F300-\u1F5FF\u1F600-\u1F64F\u1F680-\u1F6FF\u2600-\u26FF\u2700-\u27BF]+',re.UNICODE)
print myre.sub('', text)

mais il semble que presque tous les personnages sont retirés du texte. J'ai vérifié plusieurs réponses d'autres postes, malheureusement, aucun d'entre eux travaille ici. Ai-je fais quelque chose de mal dans la ré.compiler()?

voici un exemple de sortie que tous les personnages ont été supprimés:

“   '   //./” ! # # # …

Est-ce Python 2? Python peut être construire large ou étroit support de l'Unicode; vous avez probablement un UCS-2 construire, plutôt que de l'UCS-4, et qui affecte ce que vous pouvez faire avec des expressions régulières.
Et s'il vous plaît donnez-nous un échantillon d'entrée trop.
J'ai été en mesure de reproduire votre problème, et j'ai aussi vu qu'un UCS-2 construire déclenche une exception lorsque vous essayez de compiler l'expression de toute façon, donc ce n'est pas la question ici.
u'\u1f300' devrait être u'\U0001f300'. La première est '\u1f30' et '0'.

InformationsquelleAutor Young | 2014-10-26

29

Vous n'êtes pas en utilisant la bonne notation pour les non-BMP unicode points; vous souhaitez utiliser \U0001FFFF, un capital U et 8 chiffres:
```
myre = re.compile(u'['
    u'\U0001F300-\U0001F5FF'
    u'\U0001F600-\U0001F64F'
    u'\U0001F680-\U0001F6FF'
    u'\u2600-\u26FF\u2700-\u27BF]+', 
    re.UNICODE)
```
Cela peut être réduite à:
```
myre = re.compile(u'['
    u'\U0001F300-\U0001F64F'
    u'\U0001F680-\U0001F6FF'
    u'\u2600-\u26FF\u2700-\u27BF]+', 
    re.UNICODE)
```
que vos deux premières plages sont à côté.

Votre version était la spécification (avec ajout d'espaces pour des raisons de lisibilité):
```
[\u1F30 0-\u1F5F F\u1F60 0-\u1F64 F\u1F68 0-\u1F6F F \u2600-\u26FF\u2700-\u27BF]+
```
C'est parce que la \uxxxx séquence d'échappement prend toujours seulement 4 chiffres hexadécimaux, pas 5.

Le plus grand de ces plages est 0-\u1F6F (donc, à partir des chiffres 0 grâce à Ὧ), qui couvre une très large bande de la norme Unicode.

De la correction de l'expression œuvres, à condition que vous utilisez un UCS-4 Python exécutable:
```
>>> import re
>>> myre = re.compile(u'['
...     u'\U0001F300-\U0001F64F'
...     u'\U0001F680-\U0001F6FF'
...     u'\u2600-\u26FF\u2700-\u27BF]+', 
...     re.UNICODE)
>>> myre.sub('', u'Some example text with a sleepy face: \U0001f62a')
u'Some example text with a sleepy face: '
```
L'UCS-2 équivalent est:
```
myre = re.compile(u'('
    u'\ud83c[\udf00-\udfff]|'
    u'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
    u'[\u2600-\u26FF\u2700-\u27BF])+', 
    re.UNICODE)
```
Vous pouvez combiner les deux dans votre script avec un gestionnaire d'exception:
```
try:
    # Wide UCS-4 build
    myre = re.compile(u'['
        u'\U0001F300-\U0001F64F'
        u'\U0001F680-\U0001F6FF'
        u'\u2600-\u26FF\u2700-\u27BF]+', 
        re.UNICODE)
except re.error:
    # Narrow UCS-2 build
    myre = re.compile(u'('
        u'\ud83c[\udf00-\udfff]|'
        u'\ud83d[\udc00-\ude4f\ude80-\udeff]|'
        u'[\u2600-\u26FF\u2700-\u27BF])+', 
        re.UNICODE)
```
- Juste ce que j'étais en commentant ci-dessus, mais je reçois sre_constants.error: bad character range sur Python 2 étroites construire.
- oui, vous pouvez uniquement utiliser cette fonction sur un large construire, voir Python, convertir 4-byte char pour éviter MySQL erreur "Incorrect de la chaîne de valeur:" pour une approche (vous aurez pour correspondre à l'UTF-16 paires de substitution à la place).
- ajout d'un UCS-2 version.
- C'est pourquoi j'utilise Python 3.3+ 🙂
- wow, merci! Il semble que l'USC-4 build fonctionne correctement! Je ferais mieux de comprendre plus au sujet de l'USC et de l'unicode des choses. Une chose que je suis curieux, c'est u'[' et \u27BF]. Pourquoi il y a une citation ici [' mais pas de citer la suite de \u27BF?
- J'ai juste cassé l'expression sur plusieurs lignes pour le rendre lisible. Tous vous voir il y a plusieurs unicode littéraux de chaîne (u'...') dans une rangée, qui Python fusionne en une chaîne de caractères pour vous.
- Je ne comprenais pas pourquoi "un capital U et 8 chiffres" est la bonne notation pour les non-BMP unicode points. Quand devrais-je utiliser ce vs les 4 chiffres de la notation. Pouvez-vous démystifier cette s'il vous plaît?
- le BMP utilise codepoints jusqu'à 0xFFFF. C'est à quatre chiffres. Rien en dehors de la BMP utilise plus de quatre chiffres hexadécimaux, de sorte que vous ne pouvez pas utiliser le \uhhhh à 4 chiffres de la syntaxe pour ceux-ci, vous devez utiliser le \Uhhhhhhhh 8 chiffres au lieu de la syntaxe.
- Grâce Martijn
- Nice! Pour convertir la chaîne de caractères en unicode dans une fonction, je n'ai lambda txt : myre.sub("", unicode(txt, "utf-8")) et cela a fonctionné sans aucun problème. Merci.
InformationsquelleAutor Martijn Pieters

Vous devez vous connecter pour publier un commentaire.