R tm package pour le nombre de mots

J'ai un corpus de plus de 5000 fichiers texte. Je voudrais obtenir le nombre de mots pour chaque fichier après l'exécution de pré-traitement (se tournant vers bas, la suppression de mots vides, etc). Je n'ai pas eu de chance avec le nombre de mots pour les fichiers textes. Toute aide serait appréciée.

library(tm)
revs<-Corpus(DirSource("data/")) 
revs<-tm_map(revs,tolower) 
revs<-tm_map(revs,removeWords, stopwords("english")) 
revs<-tm_map(revs,removePunctuation) 
revs<-tm_map(revs,removeNumbers) 
revs<-tm_map(revs,stripWhitespace) 
dtm<-DocumentTermMatrix(revs)

S'il vous plaît ajouter des données reproductibles à l'ensemble. C'est prévu lorsque vous posez une question.
le vote pour la proximité avec pas un minimum de travail exemple

OriginalL'auteur torentino | 2014-10-22

corpus r text-analysis tm word-count

Tyler notes, ta question est incomplète sans un exemple reproductible. Voici comment faire un exemple reproductible pour ce genre de question - utiliser les données intégré dans le package:

library("tm") # version 0.6, you seem to be using an older version
data(crude)
revs <- tm_map(crude, content_transformer(tolower)) 
revs <- tm_map(revs, removeWords, stopwords("english")) 
revs <- tm_map(revs, removePunctuation) 
revs <- tm_map(revs, removeNumbers) 
revs <- tm_map(revs, stripWhitespace) 
dtm <- DocumentTermMatrix(revs)

Et voici comment obtenir le nombre de mots par document, chaque ligne de la dtm est un document, de sorte que vous simplement la somme des colonnes d'une ligne et vous avez le nombre de mots du document:

# Word count per document
rowSums(as.matrix(dtm))

OriginalL'auteur Ben

Vous pouvez aussi faire cela dans le quanteda paquet que j'ai développé avec Paul Nulty. Il est facile de créer votre propre corpus à l'aide de la quanteda des outils à cette fin, mais il importe également tm VCorpus objets directement (comme illustré ci-dessous).

Vous pouvez obtenir jeton de compte par le document à l'aide de la summary() méthode pour le corpus type d'objet, ou par la création d'un document-caractéristique de la matrice à l'aide de dfm() et puis, à l'aide de rowSums() sur le document qui en résulte-caractéristique de la matrice. dfm() par défaut s'applique la procédure de nettoyage dont vous avez besoin pour appliquer séparément à l'aide de la tm paquet.

data(crude, package="tm")
mycorpus <- corpus(crude)
summary(mycorpus)
## Corpus consisting of 20 documents.
## 
## Text Types Tokens Sentences
## reut-00001.xml    56     90         8
## reut-00002.xml   224    439        21
## reut-00004.xml    39     51         4
## reut-00005.xml    49     66         6
## reut-00006.xml    59     88         3
## reut-00007.xml   229    443        25
## reut-00008.xml   232    420        23
## reut-00009.xml    96    134         9
## reut-00010.xml   165    297        22
## reut-00011.xml   179    336        20
## reut-00012.xml   179    360        23
## reut-00013.xml    67     92         3
## reut-00014.xml    68    103         7
## reut-00015.xml    71     97         4
## reut-00016.xml    72    109         4
## reut-00018.xml    90    144         9
## reut-00019.xml   117    194        13
## reut-00021.xml    47     77        12
## reut-00022.xml   142    281        12
## reut-00023.xml    30     43         8
## 
## Source:  Converted from tm VCorpus 'crude'.
## Created: Sun May 31 18:24:07 2015.
## Notes:   .
mydfm <- dfm(mycorpus)
## Creating a dfm from a corpus ...
## ... indexing 20 documents
## ... tokenizing texts, found 3,979 total tokens
## ... cleaning the tokens, 115 removed entirely
## ... summing tokens by document
## ... indexing 1,048 feature types
## ... building sparse matrix
## ... created a 20 x 1048 sparse dfm
## ... complete. Elapsed time: 0.039 seconds.
rowSums(mydfm)
## reut-00001.xml reut-00002.xml reut-00004.xml reut-00005.xml reut-00006.xml reut-00007.xml 
##             90            439             51             66             88            443 
## reut-00008.xml reut-00009.xml reut-00010.xml reut-00011.xml reut-00012.xml reut-00013.xml 
##            420            134            297            336            360             92 
## reut-00014.xml reut-00015.xml reut-00016.xml reut-00018.xml reut-00019.xml reut-00021.xml 
##            103             97            109            144            194             77 
## reut-00022.xml reut-00023.xml 
##            281             43

Je suis heureux de vous aider avec tout quanteda-questions connexes.

OriginalL'auteur Ken Benoit

0

Votre question n'a pas précisé que tu voulais seulement R-base de solutions, donc, ici, est vraiment une solution simple pour le comptage des mots dans les fichiers de texte: utilisation de l'utilitaire Gnu wc à un Terminal ou en ligne de commande, avec -w pour spécifier des mots, par exemple
```
KB-iMac:~ kbenoit$ wc -w *.txt
       3 mytempfile.txt
       3 mytempfileAscii.txt
      14 tweet12.txt
      17 tweet12b.txt
      37 total
```
Les chiffres indiqués sont les nombres de mots pour cette série d'illustration des fichiers texte.

wc est déjà inclus sur OS X et Linux, et peut être installé pour Windows à partir de la Rtools ensemble.

OriginalL'auteur Ken Benoit

Vous pouvez essayer de faire ceci:

for (m in 1:length(revs) {
sum(nchar(as.character(revs[[m]])))
}

OriginalL'auteur Rafa

Vous devez vous connecter pour publier un commentaire.