La suppression non-anglais des mots d'un texte à l'aide de Python
Je suis en train de faire un nettoyage des données de l'exercice sur le langage python et le texte que je suis en train de nettoyer contient les mots italiens que je voudrais supprimer. J'ai été la recherche en ligne si je serais capable de faire cela sur Python à l'aide d'une trousse d'outils comme nltk.
Par exemple du texte :
"Io andiamo to the beach with my amico."
Je voudrais être à gauche avec :
"to the beach with my"
Personne ne sait d'une manière à la façon dont cela pourrait être fait?
Toute aide serait grandement appréciée.
OriginalL'auteur Andre Croucher | 2016-12-22
Vous devez vous connecter pour publier un commentaire.
Vous pouvez utiliser le
words
corpus de NLTK:Malheureusement, Io se trouve être un mot d'anglais. En général, il peut être difficile de décider si un mot est anglais ou pas.
Édité pour préserver les non-mots (signes de ponctuation, des chiffres, etc.)
veuillez envisager d'accepter cette réponse si d'autres personnes savent que vous avez résolu votre problème à l'aide de cette réponse. Merci.
OriginalL'auteur DYZ
Il y a une bonne bibliothèque Python appelé Enchanter. Il peut vérifier si un mot est anglais.
À partir de leur page d'accueil:
De sorte que vous pourriez faire quelque chose comme:
REMARQUE: les petits mots sont difficiles à déterminer la langue, que de nombreux petits mots peuvent être dans de nombreuses langues différentes, donc le résultat du code ci-dessus est:
Où vous avez souhaité que
Io
aurait été excluNote: Enchantement ne détermine pas beaucoup de Mots anglais. Par exemple, si vous essayez d.vérifier("codépendance") il va dire faux, mais "codépendance" est un mot anglais. Aussi, le projet n'est pas le maintien de plus.
OriginalL'auteur JDrost1818