LDA sujet de la modélisation - la Formation et les tests

J'ai lu LDA et je comprends les mathématiques de la façon dont les sujets sont générés lorsque les entrées une à une collection de documents.

Références dire que LDA est un algorithme qui, étant donné un ensemble de documents et rien de plus (pas de surveillance nécessaire), pour découvrir les “sujets” exprimé par des documents dans la collection. Ainsi, en utilisant l'algorithme LDA et l'Échantillonneur de Gibbs (ou Variationnelle de Bayes), je peux en entrée un ensemble de documents et en sortie je peux trouver les sujets. Chaque thème est un ensemble de termes avec leur attribuer des probabilités.

Ce que je ne comprends pas, c'est, si ce qui précède est vrai, alors pourquoi faire beaucoup de sujet de la modélisation des tutoriels de parler de la séparation de la source de données dans la formation et l'ensemble de test?

Quelqu'un peut-il m'expliquer les étapes (le concept de base) de la LDA peut être utilisé pour la formation d'un modèle, qui peut ensuite être utilisé pour analyser un autre ensemble de données de test?

  • une bonne question!
InformationsquelleAutor tan | 2012-06-22