R d'Exploration de Texte: pour compter le nombre de fois où un mot apparaît dans un corpus?
J'ai vu cette réponse à la question dans d'autres langues, mais pas en R.
[Spécifiquement pour la R d'exploration de texte] j'ai un ensemble de fréquentes phrases qui est obtenu à partir d'un Corpus. Maintenant, je tiens à la recherche pour le nombre de fois que ces phrases ont paru dans un autre corpus.
Est-il un moyen de le faire dans TM paquet? (Ou un autre paquet)
Par exemple, dire que j'ai un tableau de phrases, "tags" obtenu à partir de CorpusA. Et un autre Corpus, CorpusB, de quelques milliers de sous-textes. Je veux savoir combien de fois chaque phrase dans les balises ont paru dans CorpusB.
Comme toujours, je vous remercie tous de votre aide!
Qu'avez-vous essayé? Si vous avez vu qu'il a répondu dans une autre langue, pourquoi n'essayez-vous pas la traduction de cette langue dans la R?
Je ne suis pas un codeur, le contraire serait faire. Je ne sais pas le moyen de le faire.
Je ne suis pas un codeur, le contraire serait faire. Je ne sais pas le moyen de le faire.
OriginalL'auteur appletree | 2012-01-25
Vous devez vous connecter pour publier un commentaire.
N'est pas parfait, mais ce devrait vous obtenir a commencé.
Peut-être quelque chose comme
sum(grepl('another', corpus2.wrds, ignore.case = TRUE))
par ailleurs, le code que j'ai écrit a été la production d'un faux jeu de données. Seul le dernier morceau était de résoudre votre problème. Je vous conseille d'exécuter le code que j'ai donné, ligne par ligne, pour comprendre ce qui se passe. Vous ne pouvez pas être un programmeur, mais ne suis pas non plus I. Nous avons tous commencer quelque part.OriginalL'auteur Tyler Rinker
Si je comprends bien, voici comment le
tm
package peut être utilisé pour cela:Certaines des données reproductibles...
Maintenant, supprimer les mots vides, les chiffres, la ponctuation, etc.
Convertir traitées corpus à terme de document de la matrice:
Obtenir le plus fréquemment présentes mots dans le premier corpus:
, Voici les quelques lignes qui devraient faire l'affaire savoir combien de fois ces balises se produire dans l'autre tdms:
OriginalL'auteur Ben
C'est comment je voudrais aborder le problème maintenant:
## Maintenant le code:
OriginalL'auteur Tyler Rinker