LDA sujet de la modélisation - la Formation et les tests

J'ai lu LDA et je comprends les mathématiques de la façon dont les sujets sont générés lorsque les entrées une à une collection de documents.

Références dire que LDA est un algorithme qui, étant donné un ensemble de documents et rien de plus (pas de surveillance nécessaire), pour découvrir les “sujets” exprimé par des documents dans la collection. Ainsi, en utilisant l'algorithme LDA et l'Échantillonneur de Gibbs (ou Variationnelle de Bayes), je peux en entrée un ensemble de documents et en sortie je peux trouver les sujets. Chaque thème est un ensemble de termes avec leur attribuer des probabilités.

Ce que je ne comprends pas, c'est, si ce qui précède est vrai, alors pourquoi faire beaucoup de sujet de la modélisation des tutoriels de parler de la séparation de la source de données dans la formation et l'ensemble de test?

Quelqu'un peut-il m'expliquer les étapes (le concept de base) de la LDA peut être utilisé pour la formation d'un modèle, qui peut ensuite être utilisé pour analyser un autre ensemble de données de test?

une bonne question!

InformationsquelleAutor tan | 2012-06-22

lda topic-modeling

36

Fractionnement de données dans la formation et les ensembles de test est une étape dans l'évaluation de la performance d'un algorithme d'apprentissage. C'est plus clair pour l'apprentissage supervisé, où vous vous entraînez le modèle sur l'ensemble de la formation, puis de voir comment ses classifications sur l'ensemble de test match le vrai étiquettes de classe. Pour l'apprentissage non supervisé, une telle évaluation est un peu plus délicat. Dans le cas de la question de la modélisation, une commune de la mesure de la performance est perplexité. L'apprentissage du modèle (comme LDA) sur l'ensemble de la formation, et alors vous voyez comment "perplexe" le modèle est sur le jeu de test. Plus précisément, vous, qui mesure le nombre de mots des documents de test sont représentés par le mot distributions représentées par les sujets.

Perplexité est bon relative des comparaisons entre les modèles ou les paramètres, mais c'est une valeur numérique ne veut pas vraiment dire grand-chose. Je préfère pour évaluer la rubrique modèles à l'aide de la suivante, un peu manuel, les processus d'évaluation:
1. Inspecter les sujets: Regarder la plus haute probabilité de mots dans chaque rubrique. Ils sonnent comme ils forment la cohésion d'un "sujet" ou simplement un groupe aléatoire de mots?
2. Inspecter le sujet des affectations: Tenir un peu aléatoire des documents de formation et de voir quels sont les sujets LDA attribue à eux. Inspecter manuellement les documents et les principaux mots dans les sujets attribués. Il ressemble à l'sujets vraiment décrire ce que les documents sont en train de parler?
Je me rends compte que ce processus n'est pas aussi beau et quantitatives que l'on voudrait, mais pour être honnête, les applications de la rubrique modèles sont rarement quantitative soit. Je suggère à l'évaluation de votre thème de modèle selon le problème que vous êtes en l'appliquant à.

Bonne chance!
- Grâce gregamis pour la bonne explication. Pour votre point numéro 2). sujet affectations du document, comment allez-vous sur l'affectation des rubriques les mots dans un document? Avez-vous de manière séquentielle aller à travers les mots dans le document et de recherche pour le même mot dans une rubrique et affectez-le sujet de la parole? Eh bien, si vous le faites, ce qui se passe lorsqu'un mot est présent dans plus de 1 sujet avec une forte probabilité? Dire un exemple trivial, river bank' et 'compte bancaire'.
- Les sujets devraient être affectés à des documents qui ne sont pas des mots. Aussi pas manuellement.
- Merci pour ce post. Alors, ne nous utilisons supervisé LDA/ tout autre sujet de technique de modélisation pour évaluer la rubrique modèles?
- Peut-être que vous pourriez utiliser une mesure de similarité etc cosinus sur un ensemble idéal vs les résultats de l'ensemble de test.
- Pour un exemple concernant l'utilisation de la perplexité à la mesure en validation croisée pour définir un nombre optimal de sujets pour un modèle LDA vous pouvez consulter cette réponse: link
- A la train/test split être faite sur le document ou sur simple randomisés split (par exemple usal 70/30 règle, sur l'ensemble de la nettoyés doc corpus?)
InformationsquelleAutor gregamis

Vous devez vous connecter pour publier un commentaire.