LDA sujet de la modélisation - la Formation et les tests
J'ai lu LDA et je comprends les mathématiques de la façon dont les sujets sont générés lorsque les entrées une à une collection de documents.
Références dire que LDA est un algorithme qui, étant donné un ensemble de documents et rien de plus (pas de surveillance nécessaire), pour découvrir les “sujets” exprimé par des documents dans la collection. Ainsi, en utilisant l'algorithme LDA et l'Échantillonneur de Gibbs (ou Variationnelle de Bayes), je peux en entrée un ensemble de documents et en sortie je peux trouver les sujets. Chaque thème est un ensemble de termes avec leur attribuer des probabilités.
Ce que je ne comprends pas, c'est, si ce qui précède est vrai, alors pourquoi faire beaucoup de sujet de la modélisation des tutoriels de parler de la séparation de la source de données dans la formation et l'ensemble de test?
Quelqu'un peut-il m'expliquer les étapes (le concept de base) de la LDA peut être utilisé pour la formation d'un modèle, qui peut ensuite être utilisé pour analyser un autre ensemble de données de test?
- une bonne question!
Vous devez vous connecter pour publier un commentaire.
Fractionnement de données dans la formation et les ensembles de test est une étape dans l'évaluation de la performance d'un algorithme d'apprentissage. C'est plus clair pour l'apprentissage supervisé, où vous vous entraînez le modèle sur l'ensemble de la formation, puis de voir comment ses classifications sur l'ensemble de test match le vrai étiquettes de classe. Pour l'apprentissage non supervisé, une telle évaluation est un peu plus délicat. Dans le cas de la question de la modélisation, une commune de la mesure de la performance est perplexité. L'apprentissage du modèle (comme LDA) sur l'ensemble de la formation, et alors vous voyez comment "perplexe" le modèle est sur le jeu de test. Plus précisément, vous, qui mesure le nombre de mots des documents de test sont représentés par le mot distributions représentées par les sujets.
Perplexité est bon relative des comparaisons entre les modèles ou les paramètres, mais c'est une valeur numérique ne veut pas vraiment dire grand-chose. Je préfère pour évaluer la rubrique modèles à l'aide de la suivante, un peu manuel, les processus d'évaluation:
Je me rends compte que ce processus n'est pas aussi beau et quantitatives que l'on voudrait, mais pour être honnête, les applications de la rubrique modèles sont rarement quantitative soit. Je suggère à l'évaluation de votre thème de modèle selon le problème que vous êtes en l'appliquant à.
Bonne chance!