Charger des vecteurs de gants pré-entraînés en python

J'ai téléchargé pré-entraîné gant vecteur de fichier à partir d'internet. C'est un .fichier txt. Je ne suis pas en mesure de charger et d'accès. Il est facile à charger et à accéder à un vecteur de mot fichier binaire en utilisant gensim mais je ne sais pas comment le faire quand c'est un format de fichier texte.

Merci d'avance

source d'informationauteur Same | 2016-06-13

gant modèle fichiers sont dans un mot - format vectoriel. Vous pouvez ouvrir le fichier texte pour vérifier cela. Voici un petit extrait de code que vous pouvez utiliser pour charger un pré-entraîné gant de fichier:

import numpy as np
def loadGloveModel(gloveFile):
    print "Loading Glove Model"
    f = open(gloveFile,'r')
    model = {}
    for line in f:
        splitLine = line.split()
        word = splitLine[0]
        embedding = np.array([float(val) for val in splitLine[1:]])
        model[word] = embedding
    print "Done.",len(model)," words loaded!"
    return model

Vous pouvez alors accéder à la parole des vecteurs simplement à l'aide de la variable de modèle.

print model['hello']

Vous pouvez le faire beaucoup plus rapidement avec les pandas:

import pandas as pd
import csv

words = pd.read_table(glove_data_file, sep=" ", index_col=0, header=None, quoting=csv.QUOTE_NONE)

Ensuite pour obtenir le vecteur d'un mot:

def vec(w):
  return words.loc[w].as_matrix()

Et de trouver le plus proche de la parole d'un vecteur:

words_matrix = words.as_matrix()

def find_closest_word(v):
  diff = words_matrix - v
  delta = np.sum(diff * diff, axis=1)
  i = np.argmin(delta)
  return words.iloc[i].name

12

Je suggère d'utiliser gensim à tout faire. Vous pouvez lire le fichier, et également l'avantage d'avoir un grand nombre de méthodes déjà mises en œuvre sur ce grand paquet.

Supposons que vous avez généré Gant vecteurs en utilisant le programme en C++ et que votre "-enregistrer le fichier" paramètre "vecteurs". Gant exécutable va générer deux fichiers, "vecteurs.bin" et "vectors.txt".

Utilisation glove2word2vec pour convertir Gant de vecteurs en format texte dans le word2vec format texte:
```
from gensim.scripts.glove2word2vec import glove2word2vec
glove2word2vec(glove_input_file="vectors.txt", word2vec_output_file="gensim_glove_vectors.txt")
```
Enfin, lire les word2vec txt pour un gensim modèle à l'aide de KeyedVectors:
```
from gensim.models.keyedvectors import KeyedVectors
glove_model = KeyedVectors.load_word2vec_format("gensim_glove_vectors.txt", binary=False)
```
Maintenant, vous pouvez utiliser gensim word2vec méthodes (par exemple, la similitude) que vous le souhaitez.
2

Voici en une seule ligne si tout ce que vous voulez, c'est l'intégration de la matrice

np.loadtxt(path, usecols=range(1, dim+1), comments=None)

où path est le chemin d'accès à votre téléchargé Gant de fichier et dim est la dimension de la parole de leur incorporation.

Si vous souhaitez à la fois les mots et les vecteurs correspondant que vous pouvez faire

glove = np.loadtxt(path, dtype='str', comments=None)

et séparer les mots et les vecteurs comme suit
```
words = glove[:, 0]
vectors = glove[:, 1:].astype('float')
```

-1

EMBEDDING_LIFE = 'path/to/your/glove.txt'

def get_coefs(word,*arr): 
      return word, np.asarray(arr, dtype='float32')

embeddings_index = dict(get_coefs(*o.strip().split()) for o in open(EMBEDDING_FILE))

all_embs = np.stack(embeddings_index.values())
emb_mean,emb_std = all_embs.mean(), all_embs.std()
word_index = tokenizer.word_index
nb_words = min(max_features, len(word_index))

embedding_matrix = np.random.normal(emb_mean, emb_std, (nb_words, embed_size))

for word, i in word_index.items():
if i >= max_features: continue
embedding_vector = embeddings_index.get(word)
if embedding_vector is not None: embedding_matrix[i] = embedding_vector

Vous devez vous connecter pour publier un commentaire.