Ajout de mots vides personnalisés dans R tm
J'ai un Corpus de R à l'aide de la tm
paquet. Je suis à l'application de la removeWords
fonction pour supprimer les mots vides
tm_map(abs, removeWords, stopwords("english"))
Est-il possible d'ajouter mon propre arrêt de mots de cette liste?
source d'informationauteur Brian Vanover
Vous devez vous connecter pour publier un commentaire.
stopwords
juste vous fournit un vecteur de mots, justec
mélangez votre propre.De sauvegarder votre propre
stop words
dans un fichier csv (ex:word.csv
).Vous pouvez ensuite appliquer
custom words
de votre fichier texte.Vous pouvez créer un vecteur de votre personnalisé des mots vides & utiliser l'instruction de ce genre:
Il est possible d'ajouter vos propres mots vides par défaut de la liste de mots vides qui sont venus avec tm installer. Le "tm" package est livré avec de nombreux fichiers de données, y compris les mots vides, et note que des mots vides de fichiers viennent pour de nombreuses langues. Vous pouvez ajouter, supprimer ou mettre à jour les anglais.fichier dat en vertu de mots vides de répertoire.
Le moyen le plus facile de trouver les mots vides répertoire est à la recherche de "mots vides" répertoire dans votre système par le biais de votre navigateur de fichiers. Et vous devriez le trouver en anglais.dat avec de nombreux autres fichiers de langue. Ouvrez l'anglais.fichier dat de RStudio, qui doit permettre de modifier le fichier - vous pouvez ajouter vos propres mots ou de baisse de mots existants en tant que de besoin.
C'est le même processus si vous souhaitez modifier des mots vides dans une autre langue.
Vous pouvez également utiliser la
textProcessor
paquet. Il fonctionne très bien: