À l'aide de pré-formés word2vec avec LSTM pour le mot "génération"

LSTM/RNN peut être utilisé pour la génération de texte.
Cette montre le chemin à l'utilisation de pré-formés Gant mot plongements de Keras modèle.

Comment utiliser la pré-formation Word2Vec mot plongements avec Keras LSTM
modèle? Cette post n'aide.
Comment prédire /générer prochaine mot lorsque le modèle est fourni avec la séquence de mots en entrée?

Exemple d'approche essayé:

# Sample code to prepare word2vec word embeddings    
import gensim
documents = ["Human machine interface for lab abc computer applications",
             "A survey of user opinion of computer system response time",
             "The EPS user interface management system",
             "System and human system engineering testing of EPS",
             "Relation of user perceived response time to error measurement",
             "The generation of random binary unordered trees",
             "The intersection graph of paths in trees",
             "Graph minors IV Widths of trees and well quasi ordering",
             "Graph minors A survey"]
sentences = [[word for word in document.lower().split()] for document in documents]

word_model = gensim.models.Word2Vec(sentences, size=200, min_count = 1, window = 5)

# Code tried to prepare LSTM model for word generation
from keras.layers.recurrent import LSTM
from keras.layers.embeddings import Embedding
from keras.models import Model, Sequential
from keras.layers import Dense, Activation

embedding_layer = Embedding(input_dim=word_model.syn0.shape[0], output_dim=word_model.syn0.shape[1], weights=[word_model.syn0])

model = Sequential()
model.add(embedding_layer)
model.add(LSTM(word_model.syn0.shape[1]))
model.add(Dense(word_model.syn0.shape[0]))   
model.add(Activation('softmax'))
model.compile(optimizer='sgd', loss='mse')

Exemple de code /psuedocode pour former LSTM et de prédire que ce sera apprécié.

InformationsquelleAutor Vishal Shukla | 2017-02-06

28

J'ai créé un gist avec un générateur simple qui s'appuie sur le dessus de votre idée initiale: c'est un LSTM réseau câblé à la pré-formés word2vec plongements, formés pour prédire le mot suivant dans une phrase. Les données sont le liste des résumés de arXiv site web.

Je vais mettre en évidence les parties les plus importantes ici.

Gensim Word2Vec

Votre code est bien, sauf pour le nombre d'itérations pour le former. La valeur par défaut iter=5 semble plutôt faible. En outre, il n'est certainement pas le goulot d'étranglement -- LSTM formation prend beaucoup plus de temps. iter=100 regarde mieux.
```
word_model = gensim.models.Word2Vec(sentences, size=100, min_count=1, 
                                    window=5, iter=100)
pretrained_weights = word_model.wv.syn0
vocab_size, emdedding_size = pretrained_weights.shape
print('Result embedding shape:', pretrained_weights.shape)
print('Checking similar words:')
for word in ['model', 'network', 'train', 'learn']:
  most_similar = ', '.join('%s (%.2f)' % (similar, dist) 
                           for similar, dist in word_model.most_similar(word)[:8])
  print('  %s -> %s' % (word, most_similar))

def word2idx(word):
  return word_model.wv.vocab[word].index
def idx2word(idx):
  return word_model.wv.index2word[idx]
```
Le résultat de l'incorporation de la matrice est enregistré dans pretrained_weights tableau qui a une forme (vocab_size, emdedding_size).

Keras modèle

Votre code est presque correct, sauf pour la perte de fonction. Etant donné que le modèle prédit que le mot suivant, c'est une tâche de classification, d'où la perte devrait être categorical_crossentropy ou sparse_categorical_crossentropy. J'ai choisi cette dernière pour des raisons d'efficacité: de cette façon, il évite un chaud-encodage, ce qui est assez cher pour un grand vocabulaire.
```
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=emdedding_size, 
                    weights=[pretrained_weights]))
model.add(LSTM(units=emdedding_size))
model.add(Dense(units=vocab_size))
model.add(Activation('softmax'))
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
```
Note de passage de la pré-formation de poids à weights.

Préparation des données

Afin de travailler avec sparse_categorical_crossentropy perte, les deux phrases, et les étiquettes doivent être mot indices. Des phrases courtes doivent être complétées par des zéros à la commune de la longueur.
```
train_x = np.zeros([len(sentences), max_sentence_len], dtype=np.int32)
train_y = np.zeros([len(sentences)], dtype=np.int32)
for i, sentence in enumerate(sentences):
  for t, word in enumerate(sentence[:-1]):
    train_x[i, t] = word2idx(word)
  train_y[i] = word2idx(sentence[-1])
```
Exemple de génération

C'est assez simple: les sorties du modèle le vecteur des probabilités, dont le mot suivant est échantillonné et annexé à l'entrée. Notez que le texte serait mieux et plus diversifiée, si le mot suivant est échantillonnés, plutôt que de choisi comme argmax. La température de base de l'échantillonnage aléatoire que j'ai utilisé est décrit ici.
```
def sample(preds, temperature=1.0):
  if temperature <= 0:
    return np.argmax(preds)
  preds = np.asarray(preds).astype('float64')
  preds = np.log(preds) / temperature
  exp_preds = np.exp(preds)
  preds = exp_preds / np.sum(exp_preds)
  probas = np.random.multinomial(1, preds, 1)
  return np.argmax(probas)

def generate_next(text, num_generated=10):
  word_idxs = [word2idx(word) for word in text.lower().split()]
  for i in range(num_generated):
    prediction = model.predict(x=np.array(word_idxs))
    idx = sample(prediction[-1], temperature=0.7)
    word_idxs.append(idx)
  return ' '.join(idx2word(idx) for idx in word_idxs)
```
Exemples de texte généré
```
deep convolutional... -> deep convolutional arithmetic initialization step unbiased effectiveness
simple and effective... -> simple and effective family of variables preventing compute automatically
a nonconvex... -> a nonconvex technique compared layer converges so independent onehidden markov
a... -> a function parameterization necessary both both intuitions with technique valpola utilizes
```
N'a pas trop de sens, mais il est capable de produire des phrases qui ressemblent au moins sur le plan grammatical, le son (parfois).

Le lien vers le complète script exécutable.
- J'ai l'impression que le format de keras.layers.Embedding avec weights est déconseillée si vous cochez cette (keras.io/couches/plongements) etgithub.com/tensorflow/tensorflow/issues/14392)
- C'est non dépréciées. weights argument est soutenu par la classe de base Layer, ainsi automatiquement par toutes les couches (code source). C'était aussi un recommandé façon de passer le poids à compter de 2017 (source). Autant que je sache, il l'est toujours. Mais vous avez raison, embeddings_initializer est également pris en charge. Et je vous remercie pour votre downvote!
- Je vous remercie pour votre réponse. J'espère que vous avez raison, que weights paramètre est également pris en charge (mais c'est aussi la Trainable paramètre?). Pour être honnête, je ne downvoted votre post parce que sinon vous ne pourriez pas de soins pour mon commentaire. Si je pouvais revenir maintenant, alors je voudrais le faire, mais vous devez modifier votre réponse pour StackOverflow pour me permettre de le faire.
- Je crois que le code de la réponse fonctionne, mais si vous vous sentez certains détails de la peine de mentionner que bien, s'il vous plaît aller de l'avant et de le modifier. Pas de problème ici.
- Pour être honnête, je n'ai pas encore tester si le weights paramètre fonctionne actuellement. Je viens de voir ce post de cette personne qui prétend qu'il ne fonctionne pas. À votre poste, il est utile que vous ajoutez au moins une mise à jour-note à la fin pour informer les lecteurs de ce (potentiel) de changement.
InformationsquelleAutor Maxim

Vous devez vous connecter pour publier un commentaire.

Gensim Word2Vec

Keras modèle

Préparation des données

Exemple de génération

Exemples de texte généré