Comment puis-je vérifier si un Python unicode chaîne contient des non-Ouest de lettres?

J'ai un Python chaîne Unicode. Je veux m'assurer qu'il ne contient que des lettres de l'alphabet Romain (A à Z), ainsi que des lettres couramment trouvés dans les alphabets Européens, tels que le ß, ü, ø, é, à, et î. Il devrait pas contenir des caractères à partir d'autres alphabets (Chinois, Japonais, coréen, arabe, Cyrillique, hébreu, etc.). Quelle est la meilleure façon de faire cela?

Actuellement j'utilise ce bout de code, mais je ne sais pas si c'est la meilleure façon:

def only_roman_chars(s):
    try:
        s.encode("iso-8859-1")
        return True
    except UnicodeDecodeError:
        return False

(Je suis à l'aide de Python 2.5. Je fais également présent dans Django, donc si le framework Django arrive à avoir un moyen de gérer ces chaînes, je peux utiliser cette fonctionnalité -- je n'ai pas rencontré quelque chose comme ça, cependant.)

Quel est votre but dans le filtrage de ces personnages? Je ne peux pas penser à une bonne raison de le faire ce qui n'est pas un symptôme de quelque chose de mal, d'ailleurs dans le code.
Le filtrage des adresses postales. Notre service d'expédition ne voulez pas avoir à remplir des étiquettes avec, par exemple, le Chinois des adresses.
Ne pouvez-vous pas de filtre sur le pays à la place alors? (sinon, question intéressante +1)
Pas vraiment. Quelqu'un pourrait sélectionnez "Chine" et encore entrer une adresse appropriée, par exemple.
github.com/EliFinkelshteyn/alphabet-detector/blob/master/...

InformationsquelleAutor mipadi | 2010-06-22

32
```
import unicodedata as ud

latin_letters= {}

def is_latin(uchr):
    try: return latin_letters[uchr]
    except KeyError:
         return latin_letters.setdefault(uchr, 'LATIN' in ud.name(uchr))

def only_roman_chars(unistr):
    return all(is_latin(uchr)
           for uchr in unistr
           if uchr.isalpha()) # isalpha suggested by John Machin

>>> only_roman_chars(u"ελληνικά means greek")
False
>>> only_roman_chars(u"frappé")
True
>>> only_roman_chars(u"hôtel lœwe")
True
>>> only_roman_chars(u"123 ångstrom ð áß")
True
>>> only_roman_chars(u"russian: гага")
False
```
- Envisager uchr.isalpha() au lieu de unicodedata.category(uchr).startswith('L'). Envisagez d'utiliser un ensemble construit au module de temps de chargement: okletters = set(unichr(i) for i in xrange(sys.maxunicode+1) if unicodedata.name(unichr(i), "").startswith('LATIN ')) c'est à dire utiliser uchr in okletters au lieu de 'LATIN' in unicodedata.name(uchr)
- uchr.isalpha est une meilleure suggestion, merci; je vais mettre à jour ma réponse. Pour l'optimisation de la suggestion, j'irais avec un memoizedstyle de fonction.
- Pour le is_latin fonction, une sous-classe de defaultdict de façon appropriée primordial __missing__ serait également s'avérer une bonne solution.
- +1. Cela a été extrêmement non-trivial. Je suis en train de faire quelque chose de similaire, où je veux transformer en Cyrillique au Latin sans le transformer quelque chose d'autre. Merci!
- Encore incomplet, car certains très douteux caractères sont appelés "LATINES" en Unicode. E. g. regardez unicode-table.com/en/A7B7
InformationsquelleAutor tzot
27

Le haut de répondre à cette par @tzot est grande, mais IMO il devrait vraiment être une bibliothèque de ce qui fonctionne pour tous les scripts. Donc, j'en ai fait une (fortement basée sur la réponse).
```
pip install alphabet-detector
```
et ensuite l'utiliser directement:
```
from alphabet_detector import AlphabetDetector
ad = AlphabetDetector()

ad.only_alphabet_chars(u"ελληνικά means greek", "LATIN") #False
ad.only_alphabet_chars(u"ελληνικά", "GREEK") #True
ad.only_alphabet_chars(u'سماوي يدور', 'ARABIC')
ad.only_alphabet_chars(u'שלום', 'HEBREW')
ad.only_alphabet_chars(u"frappé", "LATIN") #True
ad.only_alphabet_chars(u"hôtel lœwe 67", "LATIN") #True
ad.only_alphabet_chars(u"det forårsaker første", "LATIN") #True
ad.only_alphabet_chars(u"Cyrillic and кириллический", "LATIN") #False
ad.only_alphabet_chars(u"кириллический", "CYRILLIC") #True
```
Aussi, quelques méthodes pratiques pour les langues principales:
```
ad.is_cyrillic(u"Поиск") #True  
ad.is_latin(u"howdy") #True
ad.is_cjk(u"hi") #False
ad.is_cjk(u'汉字') #True
```
- Je voulais utiliser la bibliothèque pour détecter si quelqu'un dans mon twitch (irc) chat types en cyrillique, mais je n'aime pas que is_cyrillic renvoie vrai si la chaîne unicode contient un '?'. Aussi je n'aime pas qu'elle ne sera pas déclenché par quelque chose comme ceci: "bonjour Поиск". Je suis l'aide d'une expression régulière avec des plages de maintenant, je voulais juste donner quelques commentaires 🙂
- Merci pour les commentaires et l'utilisation de la bibliothèque! Vous apportez quelques grands points. Auriez-vous l'esprit d'ouverture d'un sujet sur le dépôt github afin que nous puissions en discuter?
InformationsquelleAutor Eli
1

Pour ce que vous dites que vous voulez faire, votre approche est sujet de droit. Si vous êtes en cours d'exécution sur Windows, je vous conseille d'utiliser cp1252 au lieu de iso-8859-1. Vous pouvez également permettre cp1250 ainsi -- ce serait ramasser les pays d'europe orientale comme la Pologne, la République tchèque, la Slovaquie, la Roumanie, la Slovénie, la Hongrie, la Croatie, etc, où l'alphabet est latine. D'autres cp125x comprendrait le turc et le Maltais ...

Vous pouvez également envisager de transcription de l'alphabet Cyrillique au Latin; autant que je sache, il existe plusieurs systèmes, dont l'un peut être endossé par l'UPU (Union Postale Universelle).

Je suis un peu intrigué par votre commentaire "Notre service d'expédition ne voulez pas avoir à remplir des étiquettes avec, par exemple, le Chinois des adresses" ... trois questions: (1) voulez-vous dire par "les adresses dans le pays X" ou "les adresses écrites dans X-ese caractères" (2) ne serait-il pas mieux pour votre système d'imprimer les étiquettes? (3) quel est l'ordre d'obtenir expédiés si elle ne parvient pas votre test?
- (1) ceux-ci (les adresses sont écrites dans X-ese caractères). (2) peut-être. Maintenant, il ne le fait pas. La forme est une partie d'une application web; les données est dirigé vers un autre système, qui prend en charge la gestion des commandes, etc. (3) La forme de l'échec de la validation et invite l'utilisateur à entrer une adresse appropriée.
- Je vous suggère pas à l'aide de cp125x si oui ou non vous êtes sur windows, car il est incompatible avec le bon normalisé jeux de caractères et les codages. Il met juridique de l'ouest de caractères dans ce qui est réservé à la "C1" contrôle de la gamme de caractères en Unicode & ISO. L'ancienne "CP" page de code codages ont été une solution de contournement à des fins limitées de jeu de caractères de l'espace et doit être évitée dans tous les code.
- L'OP a déjà des chaînes Unicode; je suggère qu'il considère la forte possibilité que les personnages qu'il a besoin de regarder dehors pour pourrait être trouvée dans le cp125x jeux de caractères; Windows UTILISATEURS incorrigible avoir des données encodées dans cp125x. C'est un fait de la vie. L'ancien ISO-8859-x codages bien que sanctifié par les normes sont encore plus limitées, et doit être évitée dans le code, d'utiliser l'UTF-8, UTF-16 ou GB18030. Si l'on dispose de données Unicode avec des points de code 0080 à 009F, la probabilité(contrôles C1) == 0.1%, prob(cp125x des données codées en décodé en latin1) == 99.9%
InformationsquelleAutor John Machin
1

La vérification de l'ISO-8559-1 serait manquer raisonnable de l'Ouest de caractères comme 'œ' et '€'. La solution dépend de comment vous définissez "de l'Ouest", et la façon dont vous voulez gérer les non-lettres. Voici une approche:
```
import unicodedata

def is_permitted_char(char):
    cat = unicodedata.category(char)[0]
    if cat == 'L': # Letter
        return 'LATIN' in unicodedata.name(char, '').split()
    elif cat == 'N': # Number
        # Only DIGIT ZERO - DIGIT NINE are allowed
        return '0' <= char <= '9'
    elif cat in ('S', 'P', 'Z'): # Symbol, Punctuation, or Space
        return True
    else:
        return False

def is_valid(text):
    return all(is_permitted_char(c) for c in text)
```
- (1) return unicodedata.name(char, '').startswith('LATIN ') devrait suffire (2) memoising les résultats de la fonction pourrait être une bonne idée, qui pourrait être améliorée par le préchargement les suspects habituels [-A-Za-z0-9,./ '] etc ... dans la note (3) symbole/la ponctuation est assez large (4) si la catégorie de l'Espace être remplacé par '\x20'?
InformationsquelleAutor dan04
0

vérifier le code dans django.template.defaultfilters.slugify
```
import unicodedata
value = unicodedata.normalize('NFKD', value).encode('ascii', 'ignore')
```
est ce que vous cherchez, vous pouvez alors comparer la chaîne résultante à l'original
- Je ne veux pas tourner tout en minuscules ou convertir les espaces en pointillés, il suffit de vérifier pour voir si une chaîne a les caractères indésirables. J'ai changé la question pour éviter d'utiliser le mot "filtre".
InformationsquelleAutor Claude Vedovini

Peut-être cela va faire si vous êtes un django d'utilisateur?

from django.template.defaultfilters import slugify 

def justroman(s):
  return len(slugify(s)) == len(s)

InformationsquelleAutor user378337

Vous devez vous connecter pour publier un commentaire.