R tm package pour le nombre de mots
J'ai un corpus de plus de 5000 fichiers texte. Je voudrais obtenir le nombre de mots pour chaque fichier après l'exécution de pré-traitement (se tournant vers bas, la suppression de mots vides, etc). Je n'ai pas eu de chance avec le nombre de mots pour les fichiers textes. Toute aide serait appréciée.
library(tm)
revs<-Corpus(DirSource("data/"))
revs<-tm_map(revs,tolower)
revs<-tm_map(revs,removeWords, stopwords("english"))
revs<-tm_map(revs,removePunctuation)
revs<-tm_map(revs,removeNumbers)
revs<-tm_map(revs,stripWhitespace)
dtm<-DocumentTermMatrix(revs)
S'il vous plaît ajouter des données reproductibles à l'ensemble. C'est prévu lorsque vous posez une question.
le vote pour la proximité avec pas un minimum de travail exemple
le vote pour la proximité avec pas un minimum de travail exemple
OriginalL'auteur torentino | 2014-10-22
Vous devez vous connecter pour publier un commentaire.
Tyler notes, ta question est incomplète sans un exemple reproductible. Voici comment faire un exemple reproductible pour ce genre de question - utiliser les données intégré dans le package:
Et voici comment obtenir le nombre de mots par document, chaque ligne de la dtm est un document, de sorte que vous simplement la somme des colonnes d'une ligne et vous avez le nombre de mots du document:
OriginalL'auteur Ben
Vous pouvez aussi faire cela dans le quanteda paquet que j'ai développé avec Paul Nulty. Il est facile de créer votre propre corpus à l'aide de la
quanteda
des outils à cette fin, mais il importe égalementtm
VCorpus objets directement (comme illustré ci-dessous).Vous pouvez obtenir jeton de compte par le document à l'aide de la
summary()
méthode pour le corpus type d'objet, ou par la création d'un document-caractéristique de la matrice à l'aide dedfm()
et puis, à l'aide derowSums()
sur le document qui en résulte-caractéristique de la matrice.dfm()
par défaut s'applique la procédure de nettoyage dont vous avez besoin pour appliquer séparément à l'aide de latm
paquet.Je suis heureux de vous aider avec tout
quanteda
-questions connexes.OriginalL'auteur Ken Benoit
Votre question n'a pas précisé que tu voulais seulement R-base de solutions, donc, ici, est vraiment une solution simple pour le comptage des mots dans les fichiers de texte: utilisation de l'utilitaire Gnu
wc
à un Terminal ou en ligne de commande, avec-w
pour spécifier des mots, par exempleLes chiffres indiqués sont les nombres de mots pour cette série d'illustration des fichiers texte.
wc
est déjà inclus sur OS X et Linux, et peut être installé pour Windows à partir de la Rtools ensemble.OriginalL'auteur Ken Benoit
Vous pouvez essayer de faire ceci:
OriginalL'auteur Rafa