Python: Vérifier si une chaîne contient des caractères chinois?

Une chaîne de caractères peut-être que ce

ipath= "./data/NCDC/上海/虹桥/9705626661750dat.txt"

ou ce

ipath = './data/NCDC/ciampino/6240476818161dat.txt'

Comment puis-je savoir la première chaîne contient chinois?

Je trouve cette réponse peut-être utile:
Trouver tous les Chinois de texte dans une chaîne de caractères à l'aide de Python et de Regex

mais ça n'a pas fonctionné:

import re
ipath= "./data/NCDC/上海/虹桥/9705626661750dat.txt"
re.findall(ur'[\u4e00-\u9fff]+', ipath) # => []

Êtes-vous à l'aide de Python 2? En Python 3, il semble de travail sans r lors de la déclaration de la regex.
ipath= u"./data/NCD, manqué u avant de la chaîne.
Jetez un oeil à cette Python 2 demo - faut-il travailler pour vous?

OriginalL'auteur cqcn1991 | 2016-01-04

9

Correspondant à la chaîne unicode ainsi
```
>>> import re
>>> ipath= u"./data/NCDC/上海/虹桥/9705626661750dat.txt"
>>> re.findall(ur'[\u4e00-\u9fff]+', ipath)
[u'\u4e0a\u6d77', u'\u8679\u6865']
```
Une raison quelconque, ajouter u me donne une erreur de syntaxe, supprimer, ça marche pour moi re.findall(r"[\u4e00-\u9fff]+", ipath)
J'obtiens le même problème (et la solution) mentionné par @LYu ci-dessus. S'il vous plaît pouvez-vous expliquer ce que le u est nécessaire et pourquoi il en est à l'origine des problèmes qui peuvent être résolus en le supprimant de votre code?

OriginalL'auteur xecgr

Si vous voulez simplement savoir si il y a un caractère chinois dans votre chaîne vous n'avez pas besoin re.findall, utilisez re.search et le fait que correspondre à des objets sont truthy.

>>> import re
>>> ipath= u'./data/NCDC/上海/虹桥/9705626661750dat.txt'
>>> ipath2 = u'./data/NCDC/ciampino/6240476818161dat.txt'
>>> for x in (ipath, ipath2):
...     if re.search(u'[\u4e00-\u9fff]', x):
...         print 'found chinese character in ' + x
... 
found chinese character in ./data/NCDC/上海/虹桥/9705626661750dat.txt

OriginalL'auteur timgeb

5

Et pour ceux d'entre nous qui ne se soucie pas re:
```
>>> ipath= u"./data/NCDC/上海/虹桥/6240476818161dat.txt"
>>> for i in range(len(ipath)):
...  if ipath[i] > u'\u4e00' and ipath[i] < u'\u9fff':
...   print ipath[i]
... 
上
海
虹
桥
```
Edit: pour la liste complète des caractères Chinois ce DONC, le lien est intéressant de voir que la gamme U+4E00..U+9FFF n'est pas complète.
Quelle est la gamme complète des caractères Chinois en Unicode?

OriginalL'auteur Rolf of Saxony

import re
ipath= raw_input()
print re.findall(ur'[\u4e00-\u9fff]+', ipath.decode("utf-8"))

De sortie:./data/NCDC/上海/虹桥/9705626661750dat.txt [u'\u4e0a\u6d77', u'\u8679\u6865']

Vous avez besoin pour décoder l'entrée pour le rendre unicode.

 import re
 ipath= unicode(raw_input(),encoding="utf-8")
 print re.findall(ur'[\u4e00-\u9fff]+', ipath)

OriginalL'auteur vks

1

'' est un bytestring sur Python 2. Ajouter from __future__ import unicode_literals en haut du module ou de l'utilisation de l'unicode des littéraux: u'':
```
>>> import re
>>> ipath= u"./data/NCDC/上海/虹桥/9705626661750dat.txt"
>>> re.findall(ur'[\u4e00-\u9fff]+', ipath)
[u'\u4e0a\u6d77', u'\u8679\u6865']
```
OriginalL'auteur jfs

En python 3.6, j'ai utilisé ce

def find_china_symbols(text):
"""

:param text: input text with wrong symbols
:return: True if incorrect char exists in text
"""

for char in text:
    if ord(char) > 10000:
        print(char, ': ', ord(char))
        return True

OriginalL'auteur Максим Стукало

0

Selon cette question, la plage doit être [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC]

OriginalL'auteur Kevin He

À l'aide de ces codepoint plages, nous pouvons écrire un is_cjk fonction:

# list of cjk codepoint ranges
# tuples indicate the bottom and top of the range, inclusive
cjk_ranges = [
        ( 0x4E00,  0x62FF),
        ( 0x6300,  0x77FF),
        ( 0x7800,  0x8CFF),
        ( 0x8D00,  0x9FCC),
        ( 0x3400,  0x4DB5),
        (0x20000, 0x215FF),
        (0x21600, 0x230FF),
        (0x23100, 0x245FF),
        (0x24600, 0x260FF),
        (0x26100, 0x275FF),
        (0x27600, 0x290FF),
        (0x29100, 0x2A6DF),
        (0x2A700, 0x2B734),
        (0x2B740, 0x2B81D),
        (0x2B820, 0x2CEAF),
        (0x2CEB0, 0x2EBEF),
        (0x2F800, 0x2FA1F)
    ]

def is_cjk(char):
    char = ord(char)
    for bottom, top in cjk_ranges:
        if char >= bottom and char <= top:
            return True
    return False

Que nous pouvons ensuite utiliser pour traiter le texte, en utilisant des fonctions comme filter, any, all, et map pour traiter le texte caractère par caractère, ou de composer des fonctions plus complexes:

txt = "./data/NCDC/上海/虹桥/9705626661750dat.txt"
txt_sanitized = "./data/NCDC/9705626661750dat.txt"
any(map(is_cjk, txt)) # True
any(map(is_cjk, txt_sanitized)) # False
''.join(filter(is_cjk, txt)) # '上海虹桥'

Noter que le CJK plages comprendra non seulement des caractères Chinois, mais peuvent également inclure les coréens et les Japonais caractères. Pour les plus complexes d'utilisation, essayez une bibliothèque dédiée comme cjklib.

OriginalL'auteur 9999years

Vous devez vous connecter pour publier un commentaire.