Liste de mots-clés NLTK
J'ai le code en dessous et je suis en train d'appliquer un arrêt de la liste de mots à la liste de mots. Cependant, les résultats montrent encore des mots tels que "un" et "le" je crois qu'il aurait été enlevé par ce processus. Toutes les idées de ce qui a mal tourné .
import nltk
from nltk.corpus import stopwords
word_list = open("xxx.y.txt", "r")
filtered_words = [w for w in word_list if not w in stopwords.words('english')]
print filtered_words
source d'informationauteur saph_top
Vous devez vous connecter pour publier un commentaire.
Quelques choses à noter.
Si vous allez à la vérification de l'appartenance à une liste de plus de et plus, je voudrais utiliser un ensemble au lieu d'une liste.
stopwords.words('english')
renvoie une liste de minuscules des mots vides. Il est fort probable que votre source a des lettres majuscules et ne correspond pas pour cette raison.Vous n'êtes pas de la lecture du fichier correctement, vous vérifiez sur le fichier objet n'est pas une liste de mots à séparer par des espaces.
Mettant tous ensemble: