Comment faire pour supprimer les mots vides à l'aide de nltk ou python
Donc, j'ai un jeu de données que je voudrais supprimer les mots vides de l'aide
stopwords.words('english')
Je suis mal comment utiliser cela dans mon code pour simplement retirer ces mots. J'ai une liste de mots à partir de ces données, déjà, la partie que je suis mal, c'est la comparaison de cette liste et la suppression de l'arrêt de mots.
Toute aide est appréciée.
- Où obtenez-vous les mots vides de? Est-ce à partir de NLTK?
from nltk.corpus import stopwords
pour l'avenir googlers- Il est également nécessaire d'exécuter
nltk.download("stopwords")
afin de rendre le mot vide dictionnaire. - Voir aussi stackoverflow.com/questions/19130512/stopword-removal-with-nltk
- Attention, un mot comme "non", est également considérée comme un mot vide dans nltk. Si vous faites quelque chose comme le sentiment d'analyse, filtrage de spam, une négation peut changer tout le sens de la phrase et si vous le retirez de la phase de traitement, vous risquez de ne pas obtenir des résultats exacts.
Vous devez vous connecter pour publier un commentaire.
stops = set(stopwords.words("english"))
à la place.stopwords.words('english')
sont en minuscules. Donc, assurez-vous d'utiliser uniquement les minuscules des mots dans la liste par exemple[w.lower() for w in word_list]
Vous pouvez également faire un set de diff, par exemple:
Je suppose que vous avez une liste de mots (word_list) à partir de laquelle vous souhaitez supprimer les mots vides. Vous pourriez faire quelque chose comme ceci:
À exclure tout type de stop-mots, y compris nltk stop-words, vous pourriez faire quelque chose comme ceci:
Utilisation textcleaner bibliothèque de supprimer les mots vides de vos données.
Suivez ce lien:https://yugantm.github.io/textcleaner/documentation.html#remove_stpwrds
Suivez ces étapes pour le faire avec cette bibliothèque.
Après l'installation:
Utiliser le code ci-dessus à supprimer les stop-words.
vous pouvez utiliser cette fonction, vous remarquerez que vous avez besoin pour réduire tous les mots
à l'aide de filtre: