comment créer vecteur de mot
Comment créer vecteur de mot? J'ai utilisé un raccourci pour créer vecteur de mot, mais il est très grand et pas généralisée pour les mêmes sémantique de mots. Donc, j'ai entendu parler de vecteur de mot à l'aide de réseaux de neurones qui trouve le mot de similarité et de vecteur de mot. Donc je voulais savoir comment générer ce vecteur (algorithme) ou du bon matériel pour commencer la création de vecteur de mot ?.
- vous pourriez commencer par type x document de la matrice, tf-idf, la pondération et la similarité cosinus. une recherche sur google. vous aurez un bel aperçu du problème.
Vous devez vous connecter pour publier un commentaire.
Mot-vecteurs ou soi-disant les représentations distribuées ont une longue histoire en maintenant, en commençant peut-être à partir des travaux de S. Bengio (Bengio, Y., Ducharme, R., & Vincent, P. (2001).Un de neurones probabilistes modèle de langue. PIN.) où il a obtenu mot de vecteurs en tant que sous-produit de la formation de neurones-net lanuage modèle.
Beaucoup de recherches ont démontré que ces vecteurs ne capture de relations sémantiques entre les mots (voir, par exemple,http://research.microsoft.com/pubs/206777/338_Paper.pdf). Aussi cette étude importante (http://arxiv.org/abs/1103.0398) par Collobert et al, est un bon point de départ avec la compréhension de parole des vecteurs, la façon dont ils sont obtenus et utilisés.
Outre word2vec il ya beaucoup de méthodes pour les obtenir. Expamples inclure SENNA plongements par Collobert et al (http://ronan.collobert.com/senna/), RNN les incorporations par T. Mikolov qui peuvent être calculées à l'aide de RNNToolkit (http://www.fit.vutbr.cz/~imikolov/rnnlm/) et beaucoup plus. Pour l'anglais, le prêt-à-plongements peut être téléchargé à partir de ces sites web. word2vec vraiment utilise skip-gramme modèle (pas de modèle de réseau de neurones). Un autre code rapide pour le calcul de la parole des représentations est à Gants (http://www-nlp.stanford.edu/projects/glove/). C'est une question ouverte, quelle que soit la profondeur des réseaux de neurones sont essentiels pour obtenir de bons plongements ou pas.
En fonction de votre application, vous préférez peut-être à l'aide de différents types de mot de vecteurs, de sorte que son une bonne idée d'essayer plusieurs types d'algorithmes et de voir ce qui fonctionne le mieux pour vous.
Je pense que la chose que vous entendez est Word2Vec (https://code.google.com/p/word2vec/). Il forme N-dimensionnelle mot vecteurs de documents basé sur un corpus. Donc, dans ma compréhension de word2vec le réseau de neurones est juste utilisée pour agréger les dimensions du document vecteur et également capturer une certaine relation entre les mots. Mais ce qui doit être mentionné est que ce n'est pas vraiment reliés sémantiquement, elle reflète simplement la relation structurelle dans votre organisme de formation.
Si vous voulez capturer la sémantique de la parenté ont un look un WordNet mesures fondées, par exemple, est mis en œuvre ces libaries:
Pour commencer avec word2vec vous pouvez utiliser leur pré-entraîné vecteurs. Vous devriez trouver toutes les informations à ce sujet à https://code.google.com/p/word2vec/.
Lorsque vous cherchez une implémentation de java. C'est un bon point de départ: http://deeplearning4j.org/word2vec.html
J'espère que cette aide
Meilleurs voeux