CBOW c. s. skip-gramme: pourquoi inverser le contexte et les mots cibles?
Dans cette page, il est dit que:
[...] skip-gramme inverse des contextes et des objectifs, et tente de prédire chaque mot de sa cible word [...]
Cependant, en regardant l'ensemble de données d'apprentissage qu'il produit, le contenu de X et de Y la paire semble être interexchangeable, comme ces deux couples (X, Y):
(quick, brown), (brown, quick)
Alors, pourquoi distinguer que beaucoup d'entre contexte et objectifs si c'est la même chose à la fin?
Aussi, faire Udacity Profondes de l'Apprentissage en cours d'exercice sur word2vec, je me demande pourquoi ils semblent faire la différence entre ces deux approches que beaucoup dans ce problème:
Une alternative à sauter-gramme est une autre Word2Vec modèle appelé CBOW Continu (Sac de Mots). Dans le CBOW modèle, au lieu de prévoir un contexte word à partir d'un vecteur de mot, vous le prédire un mot à partir de la somme de toutes les parole des vecteurs dans son contexte. Mettre en œuvre et évaluer un CBOW modèle formés sur le text8 dataset.
Ne serait pas cela donne le même résultat?
Annuler la réponse
Vous devez vous connecter pour publier un commentaire.
Voici mon simpliste et plutôt naïf compréhension de la différence:
Comme nous le savons, CBOW est d'apprendre à prédire le mot par le contexte. Ou maximiser la probabilité que la cible de mot en regardant le contexte. Et cela arrive à être un problème pour les mots rares. Par exemple, étant donné le contexte
yesterday was a really [...] day
CBOW modèle va vous dire que la plupart probablement le mot estbeautiful
ounice
. Des mots commedelightful
sera beaucoup moins d'attention de la le modèle, car il est conçu pour prédire le mot le plus vraisemblable. Ce mot sera lissée sur beaucoup d'exemples avec la fréquence des mots.D'autre part, la skip-gramme modèle est conçu pour prédire le contexte. Étant donné la parole
delightful
il faut la comprendre et de nous dire qu'il y a une énorme probabilité que le contexte estyesterday was really [...] day
, ou d'un autre contexte. Avec skip-gramme le motdelightful
va pas essayer de rivaliser avec le motbeautiful
mais au lieu de cela,delightful+context
paires seront traitées comme de nouvelles observations.Mise à JOUR
Grâce à @0xF pour le partage de cet article
Un plus plus le sujet est trouvé ici:
Il a à voir avec ce qu'est exactement vous êtes le calcul à un moment donné. La différence deviendra plus clair si vous commencez à regarder les modèles qui incorporent un contexte plus large, pour chaque calcul de possibilité.
Dans skip-gramme, vous êtes calculer le contexte du mot(s) de la parole à la position actuelle dans la phrase; vous êtes "sauter" le mot courant (et potentiellement un peu du contexte) dans votre calcul. Le résultat peut être plus d'un mot (mais pas si votre fenêtre est juste un mot long).
Dans CBOW, vous êtes calcul de la parole à partir du contexte du mot(s), de sorte que vous n'aurez jamais un mot comme un résultat.