Comment trouver le mot le plus proche d'un vecteur à l'aide de word2vec
J'ai commencé à utiliser Word2vec et je me demandais comment pouvons-nous trouver le plus proche de la parole à un vecteur suppose.
J'ai ce vecteur, qui est le vecteur moyen pour un ensemble de vecteurs:
array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)
Est-il simple de trouver les plus similaires mot dans ma formation données à ce vecteur?
Ou la seule solution est de calculer la similarité cosinus entre ce vecteur et les vecteurs de chaque mot dans ma formation de données, puis sélectionnez la plus proche?
Grâce.
OriginalL'auteur sel | 2015-09-24
Vous devez vous connecter pour publier un commentaire.
Pour gensim mise en œuvre de word2vec il est
most_similar()
fonction qui vous permet de trouver les mots sémantiquement proches d'un mot donné:ou à sa représentation vectorielle:
où
topn
définit le nombre de résultats retournés.Cependant, mon sentiment est que la fonction fait exactement la même chose que vous avez proposé, c'est à dire calcule le cosinus de similarité pour le vecteur donné et chaque autre vecteur dans le dictionnaire (ce qui est tout à fait inefficace...)
positive
etnegative
paramètre pourmost_similar()
méthode? J'ai juste commencé à word2vec.positive
param indique ces mots, qui devrait être similaire pour le mot que vous cherchez.negative
- les mots qui doivent être différent de votre mot.most_similar()
fonction retourne le mot répondant le mieux à ces critères. Selon la doc les auteurs de word2vec ont montré que le mot vecteurs de capture de certaines régularités linguistiques, par exemple le vecteur des opérationsvector('king') - vector('man') + vector('woman')
est proche devector('queen')
. C'est la motivation pour l'exemple ci-dessus.OriginalL'auteur Nicolas Ivanov
N'oubliez pas d'ajouter un tableau vide avec des mots négatifs dans most_similar fonction:
OriginalL'auteur Andrew Krizhanovsky
Sinon, le modèle.wv.similar_by_vector(vecteur, n sup=10, restrict_vocab=None) est également disponible dans les
gensim
paquet.OriginalL'auteur Moobie