Utilisation de Word2Vec pour la modélisation de rubrique
J'ai lu que la technique la plus courante pour le sujet de la modélisation de l'extraction de sujets possibles à partir du texte) est Latent Dirichlet allocation (LDA).
Cependant, je suis intéressé de savoir si c'est une bonne idée d'essayer thème de la modélisation avec Word2Vec comme il clusters de mots dans le sous-espace vectoriel. Ne pouvait pas les clusters donc être considérées comme des sujets?
Pensez-vous qu'il est utile d'adopter cette approche pour l'amour de certains travaux de recherche? En fin de compte ce qui m'intéresse, c'est d'extraire des mots-clés à partir du texte en fonction des sujets.
source d'informationauteur user1814735
Vous devez vous connecter pour publier un commentaire.
Vous pouvez consulter les documents suivants:
Dat Nguyen Quoc, Richard Billingsley, Lan Du et Mark Johnson. 2015. L'amélioration de la Rubrique Modèles avec Latente Fonctionnalité de Mot de Représentations. Les opérations de l'Association for Computational Linguistics, vol. 3, pp. 299-313. [CODE]
Yang Liu, Liu Zhiyuan, Tat-Seng Chua, Maosong Soleil. 2015. Actualité Mot Plongements. Dans actes du 29e AAAI Conférence sur l'Intelligence Artificielle, 2418-2424. [CODE]
Le premier document intègre mot plongements dans la LDA et le modèle d'un sujet par le document modèle de DMM. Il signale des améliorations significatives sur le sujet de la cohérence, document de clustering et classification de documents tâches, en particulier sur les petits corps ou de textes courts (e.g Tweets).
Le second document, il est également intéressant. Il utilise LDA pour attribuer sujet pour chaque mot, et puis emploie Word2Vec pour apprendre le mot plongements basé à la fois sur les mots et leurs sujets.
Deux personnes ont essayé de résoudre ce problème.
Chris Moody, au StichFix est sorti avec LDA2Vec, et certains Ph. D étudiants à la CMU a écrit un livre appelé "Gaussien LDA pour le Sujet Modèles avec Word Plongements" avec code ici... même si je ne pouvais pas obtenir le code Java, il y à la sortie de sens des résultats. C'est une idée intéressante de l'utilisation de word2vec avec gaussien (en fait T-distributions lorsque vous faites le calcul) mot-thème distributions. Gaussien LDA doit être capable de gérer de mots de vocabulaire à partir de la formation.
LDA2Vec tente de former à la fois le modèle LDA et mot de vecteurs dans le même temps, et il vous permet également de mettre LDA a priori sur les non-mots pour obtenir des résultats vraiment intéressants.
Dans Word2Vec,Envisager de 3 phrases
“le chien a vu un chat”,
“le chien a chassé le chat”,
“le chat grimpa sur un arbre”
Ici, nous donnons d'entrée mot 'chat', puis nous aurons mot de sortie comme "hausse"
il est basé sur la probabilité de tous les mots en contexte donné le mot(chat). Son continu d'un sac de mots de modèle. Nous aurons des mots semblables à l'entrée de mot en fonction du contexte. Word2Vec fonctionne bien dans le vaste ensemble de données uniquement.
LDA est utilisé pour des sujets abstraits à partir d'un corpus. Ses pas basée sur le contexte. Car il utilise une distribution de Dirichlet pour dessiner des mots sur des sujets et des dessiner des sujets de plus de documents. Le problème auquel nous sommes confrontés ici est aléatoire. Nous obtenons les différentes sorties à chaque fois.
La technique que nous avons choisie dépend de nos besoins.