L'ajout de mots à nltk liste de mots vides
J'ai un code qui supprime les mots vides de mon jeu de données, comme la liste des arrêts ne semble pas supprimer une majorité de mots, je l'aime aussi, je suis à la recherche d'ajouter des mots à cet arrêt de la liste de sorte qu'il va retirer de cette affaire.
Le code que j'utilise pour supprimer les mots vides est:
word_list2 = [w.strip() for w in word_list if w.strip() not in nltk.corpus.stopwords.words('english')]
Je ne suis pas sûr de la syntaxe correcte pour l'ajout de mots et n'arrive pas à trouver le bon n'importe où. Toute aide est appréciée. Merci.
OriginalL'auteur Alex | 2011-04-01
Vous devez vous connecter pour publier un commentaire.
Vous pouvez simplement utiliser la méthode append pour ajouter des mots à elle:
ou s'étendre à ajouter une liste de mots, comme suggéré par Charlie sur les commentaires.
CustomListofWordstoExclude = ['cat','dog'] stopwords.extend(CustomListofWordstoExclude)
J'ai utilisé votre code mais ensuite utiliséextend()
ajouter ma propre liste, ilGrand stade! Venez d'ajouter à votre suggestion de la réponse!
OriginalL'auteur Oziel Carneiro
Je fais toujours
stopset = set(nltk.corpus.stopwords.words('english'))
au-dessus de tout module qui en a besoin. Il est alors facile d'ajouter plus de mots pour la définir, en plus de l'adhésion, les contrôles sont plus rapides.OriginalL'auteur Jacob
Était également à la recherche de solution sur ce point. Après quelques trail et de l'erreur que j'ai eu à ajouter des mots à la liste de mots vides. Espérons que cette aide.
OriginalL'auteur Aubrey_lab
La façon dont je l'ai fait sur ma machine Ubuntu a été, je ctrl + F "mots vides" en root. Il m'a donné un dossier. J'ai marché à l'intérieur de celui-ci avait des fichiers différents. J'ai ouvert "l'anglais", qui avait à peine 128 mots. Ajouté mes mots. Enregistré et fait.
OriginalL'auteur Sankalp
Les anglais mots vides est un fichier à l'intérieur nltk/corpus/stopwords/english.txt (je suppose que ce serait ici...je n'ai pas nltk sur cette machine..meilleure chose serait de rechercher " english.txt dans nltk repo)
Vous pouvez simplement ajouter votre nouvel arrêt mots dans ce fichier.
aussi essayer de regarder les filtres de bloom si votre arrêt de la liste de mots augmente à quelques centaines
href="http://fs1.position2.com/bm/txt/stopwords.txt" >fs1.position2.com/bm/txt/stopwords.txt c'est la liste utilisée par moi dans ma dernière entreprise..
c'est une façon meilleure liste de NLTK! Merci!
OriginalL'auteur Rafi
Sur windows C:\Users\username\AppData\Roaming\nltk_data\corpora aller dans cette voie pour les mots vides et de le modifier en fonction de l'exigence
OriginalL'auteur Kiran
J'utilise ce code pour ajouter de nouveaux mots vides de nltk arrêter liste de mots en python
OriginalL'auteur Jayantha
OriginalL'auteur Snijesh