Comment puis-je supprimer les caractères non-ASCII, mais des périodes de congé et les espaces à l'aide de Python?

Je travaille avec un .fichier txt. Je veux une chaîne de texte à partir du fichier ayant pas de caractères non-ASCII. Cependant, je tiens à laisser des espaces et des périodes. À l'heure actuelle, je suis le décapage de ceux qui sont trop. Voici le code:

def onlyascii(char):
    if ord(char) < 48 or ord(char) > 127: return ''
    else: return char

def get_my_string(file_path):
    f=open(file_path,'r')
    data=f.read()
    f.close()
    filtered_data=filter(onlyascii, data)
    filtered_data = filtered_data.lower()
    return filtered_data

Comment dois-je modifier onlyascii() pour laisser des espaces et des périodes? J'imagine que c'est pas trop compliqué, mais je ne peux pas le comprendre.

Merci (sincèrement) pour la clarification Jean. J'ai compris que des espaces et des périodes sont des caractères ASCII. Cependant, j'ai enlever les deux d'entre eux, involontairement, tout en essayant de supprimer uniquement les caractères non-ASCII. Je vois comment ma question risque implique le contraire.
Votre problème est encore très sous-spécifiés. Voir ma réponse.

InformationsquelleAutor | 2011-12-31

157

Vous pouvez filtrer tous les caractères de la chaîne qui ne sont pas imprimables à l'aide de chaîne de caractères.imprimable, comme ceci:
```
>>> s = "some\x00string. with\x15 funny characters"
>>> import string
>>> printable = set(string.printable)
>>> filter(lambda x: x in printable, s)
'somestring. with funny characters'
```
chaîne.imprimable sur ma machine contient:
```
0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c
```
- chr(127) in string.printable ?
- c'est quoi ces imprimable caractères qui sont en dessous de l'ordinal de 48 ?
- chr(127) dans la chaîne.printable == False
- Voulez-vous dire 0b 0c et? Ils font partie de la chaîne.des espaces.
- oui, et à partir de l'OP: if ord(char) < 48 or ord(char) > 127. Sur mon deuxième commentaire, je suis en référence à '*' ,'(', et d'autres imprimable qui sont éliminés par l'OP...
- Ouais, j'étais en extrapolant que l'OP probablement dire tous les caractères imprimables, plutôt que ce qui a été dit, mais peut-être pas le cas.
- Merci! Je comprends maintenant. Désolé pour la confusion - jterrace correctement interprété ma question.
- c'est également idéal pour juste un filtrage du chiffres - filter(lambda x: x dans la chaîne.chiffres, s)
- C'est incroyablement lent dans un fichier de grande taille. Toutes les suggestions?
- créer un set(string.printable) et ré-utiliser pour le filtrage. Aussi, ne pas filtrer l'ensemble du dossier à la fois - le faire dans des morceaux de 8K-512K
- Le seul problème avec l'aide de filter est qu'elle renvoie un objet iterable. Si vous avez besoin d'une chaîne de retour (comme je l'ai fait parce que j'avais besoin de ce lorsque vous faites la liste de compression), puis de le faire: ''.join(filter(lambda x: x in string.printable, s).
- commentaire python 3, mais très utile. Merci!
- Pourquoi ne pas utiliser l'expression régulière: re.sub(r'[^\x00-\x7f]',r'', your-non-ascii-string) . Voir ce fil stackoverflow.com/a/20079244/658497
- C'est le plus compatible façon de faire de l'OP de la tâche, j'ai testé à partir de la version 2.6 de Python Python 3.5.
- c'était 4 à 5 fois plus rapide pour moi thatn le rejoindre...filtre...lambda solution, merci.
- Je soupçonne changement de lambda x: x in printable à printable.__contains__ ferait courir plus vite; la lambda signifie plus de Python code au niveau de l'exécution, alors en passant directement intégré dans la composition de la méthode de test supprime octet par caractère exécution de code.
- PyLint se Plaint sur l'utilisation de filter lorsque vous utilisez le code ci-dessus. Étant donné que interprétations de la liste semblent être privilégiées serait, à l'aide de ''.join(x for x in s if x in printable) être un équivalent, et b) mieux?
- Edit: je me rends compte de ce qui précède est un générateur d'expression, mais est-elle la même?
- c'est probablement l'équivalent, mais j'aurais du profil il de savoir pour sûr
- Le résultat est le même, le temps est différent (vous avez besoin de comparer si elle arrive à être un goulot d'étranglement). C'est plus facile pour l'œil le moins de la diversité des outils, le plus rapide est la compréhension de la lecture. Vous pouvez ajouter un [Enter] avant if et de retrait de la deuxième ligne de if commence juste après ( à partir de la première ligne.
InformationsquelleAutor jterrace
73

Un moyen facile de passer à un autre codec, est en utilisant encode() ou decode(). Dans votre cas, vous voulez les convertir en ASCII et ignorer tous les symboles qui ne sont pas pris en charge. Par exemple, le suédois lettre å n'est pas un caractère ASCII:
```
    >>>s = u'Good bye in Swedish is Hej d\xe5'
    >>>s = s.encode('ascii',errors='ignore')
    >>>print s
    Good bye in Swedish is Hej d
```
Edit:

Python3: str -> octets -> str
```
>>>"Hej då".encode("ascii", errors="ignore").decode()
'hej d'
```
Python2: unicode -> str -> unicode
```
>>> u"hej då".encode("ascii", errors="ignore").decode()
u'hej d'
```
Python2: str -> unicode -> str (décoder et encoder dans l'ordre inverse)
```
>>> "hej d\xe5".decode("ascii", errors="ignore").encode()
'hej d'
```
- Je reçois UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 27
- J'ai eu cette erreur quand j'ai mis le véritable caractère unicode dans la chaîne par copier-coller. Lorsque vous spécifiez une chaîne de caractères comme u'thestring " encoder fonctionne correctement.
- Ne fonctionne que sur les Py3, mais il est élégant.
- Pour ceux qui obtiennent la même erreur que @Xodarap777 : vous devez tout d'abord .decode() la chaîne, et seulement après que l'encodage. Par exemple s.decode('utf-8').encode('ascii', errors='ignore')
InformationsquelleAutor Zweedeend
21

Selon @artfulrobot, cela devrait être plus rapide que le filtre et lambda:
```
re.sub(r'[^\x00-\x7f]',r'', your-non-ascii-string) 
```
Voir plus d'exemples ici http://stackoverflow.com/questions/20078816/replace-non-ascii-characters-with-a-single-space/20079244#20079244
- Cette solution répond OP question, mais attention de ne pas supprimer les caractères non imprimables qui sont inclus dans ASCII qui, je pense, est ce que l'OP destiné à le demander.
InformationsquelleAutor Noam Manos
7

Votre question est ambiguë; les deux premières phrases, prises ensemble, implique que vous croyez que l'espace et de la "période" sont des caractères non-ASCII. Ceci est incorrect. Tous les caractères tels que ord(char) <= 127 caractères ASCII. Par exemple, votre fonction exclut ces caractères !"#$%&\'()*+,-./mais il inclut plusieurs autres, par exemple, [] {}.

Veuillez recul, de réfléchir un peu, et de modifier une question à nous dire ce que vous essayez de faire, sans mentionner le mot ASCII, et pourquoi vous pensez que les caractères tels que ord(char) >= 128, ignorable. Aussi: la version de Python? Qu'est-ce que l'encodage de vos données d'entrée?

Veuillez noter que votre code lit tout le fichier d'entrée comme une seule chaîne, et votre commentaire ("solution idéale") à une autre réponse, cela implique que vous ne vous souciez pas des retours à la ligne dans vos données. Si votre fichier contient les deux lignes comme ceci:
```
this is line 1
this is line 2
```
le résultat serait 'this is line 1this is line 2' ... est-ce que vous voulez vraiment?

Une meilleure solution serait d'inclure:
1. un meilleur nom pour le filtre de fonction de onlyascii
2. reconnaissance d'une fonction de filtre a simplement besoin de retourner un truthy valeur si l'argument est d'être retenu:
```
def filter_func(char):
    return char == '\n' or 32 <= ord(char) <= 126
# and later:
filtered_data = filter(filter_func, data).lower()
```
- Cette réponse est très utile pour ceux d'entre nous de venir demander quelque chose de semblable à l'OP, et votre réponse proposée est utile d'pythonic. Toutefois, je trouve étrange qu'il n'y a pas une solution plus efficace pour le problème que vous avez interprété (que j'ai souvent) - caractère par caractère, ce qui prend un temps très long dans un fichier très volumineux.
InformationsquelleAutor John Machin
1

Si vous voulez que des caractères ascii imprimables vous devriez corriger votre code:
```
if ord(char) < 32 or ord(char) > 126: return ''
```
c'est l'équivalent, pour string.printable (réponse de @jterrace), sauf pour l'absence de retours et les onglets ('\t','\n','\x0b','\x0c' et '\r'), mais ne correspondent à la portée de votre question
- Un peu plus simple: lambda x: 32 <= ord(x) <= 126
- ce n'est pas le même comme une chaîne de caractères.imprimable car elle laisse de la chaîne.les espaces, c'est peut-être ce que l'OP veut, dépend des choses comme les \n et \t.
- à droite, comprend de l'espace (ord 32), mais pas les retours et les onglets
- ouais, juste commenter "c'est l'équivalent de la chaîne.imprimable", mais pas en vrai
- J'ai édité la réponse, merci! l'OP question est trompeuse si vous ne lisez pas attentivement.
- d'accord, OP question n'est pas claire
- Désolé pour la confusion! Merci pour votre réponse - c'est une excellente solution.
InformationsquelleAutor joaquin

Travailler mon chemin à travers Couramment Python (Ramalho) - fortement recommandé.
Compréhension de liste un-ish-liners inspiré par le Chapitre 2:

onlyascii = ''.join([s for s in data if ord(s) < 127])
onlymatch = ''.join([s for s in data if s in
              'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz'])

InformationsquelleAutor Matthew Dunn

Vous devez vous connecter pour publier un commentaire.