Visualiser word2vec généré à partir de gensim

J'ai formé un doc2vec et correspondant word2vec sur mon propre corpus à l'aide de gensim. Je veux visualiser le word2vec à l'aide de t-end avec les mots. Comme dans chacun des points de la figure a la "parole" aussi avec elle.

J'ai regardé une question similaire ici : t-end sur word2vec

Qui la suit, j'ai ce code :

importation gensim
importation gensim.les modèles que g

from sklearn.manifold import TSNE
import re
import matplotlib.pyplot as plt

modelPath="/Users/tarun/Desktop/PE/doc2vec/model3_100_newCorpus60_1min_6window_100trainEpoch.bin"
model = g.Doc2Vec.load(modelPath)

X = model[model.wv.vocab]
print len(X)
print X[0]
tsne = TSNE(n_components=2)
X_tsne = tsne.fit_transform(X[:1000,:])

plt.scatter(X_tsne[:, 0], X_tsne[:, 1])
plt.show()

Cela donne une figure avec des points mais pas de mots. Ce n'est que je ne sais pas de quel point est représentatif de ce qui word. Comment puis-je afficher le mot avec la dot?

InformationsquelleAutor Dreams | 2017-05-04

33

Deux parties de la réponse: comment obtenir le mot étiquettes, et comment tracer les étiquettes sur un nuage de points.

Mot étiquettes dans gensim de word2vec

model.wv.vocab est un dict de {mot: objet du numérique vecteur}. Pour charger les données dans X pour des tee-END, j'ai fait un changement d'état.
```
vocab = list(model.wv.vocab)
X = model[vocab]
```
Il en résulte deux choses: (1) il est autonome vocab liste pour la finale dataframe de la parcelle, et (2) lors de l'indexation d' model, vous pouvez être sûr que vous savez l'ordre des mots.

Procéder comme avant avec
```
tsne = TSNE(n_components=2)
X_tsne = tsne.fit_transform(X)
```
Maintenant, nous allons mettre X_tsne avec le vocab liste. C'est facile avec les pandas, donc import pandas as pd si vous n'avez pas encore.
```
df = pd.DataFrame(X_tsne, index=vocab, columns=['x', 'y'])
```
Le vocabulaire les mots sont les indices du dataframe maintenant.

Je n'ai pas votre jeu de données, mais dans le les autres, de SORTE vous l'avez mentionné, un exemple df qui utilise sklearn de groupes de discussion devrait ressembler à quelque chose comme
```
                        x             y
politics    -1.524653e+20 -1.113538e+20
worry        2.065890e+19  1.403432e+20
mu          -1.333273e+21 -5.648459e+20
format      -4.780181e+19  2.397271e+19
recommended  8.694375e+20  1.358602e+21
arguing     -4.903531e+19  4.734511e+20
or          -3.658189e+19 -1.088200e+20
above        1.126082e+19 -4.933230e+19
```
Nuage de points

J'aime l'approche orientée objet pour matplotlib, de sorte que cela commence un peu différent.
```
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)

ax.scatter(df['x'], df['y'])
```
Enfin, la annotate méthode étiquette coordonnées. Les deux premiers arguments sont le texte d'étiquette et le 2-n-uplet. À l'aide de iterrows(), cela peut être très succinct:
```
for word, pos in df.iterrows():
    ax.annotate(word, pos)
```
[Merci à Ricardo dans les commentaires pour cette suggestion.]

Puis faire plt.show() ou fig.savefig(). En fonction de vos données, vous allez probablement avoir à jouer avec l' ax.set_xlim et ax.set_ylim de voir dans un nuage dense. C'est le groupe de discussion exemple, sans peaufinage:

Vous pouvez modifier le point la taille, la couleur, etc., trop. Heureux de réglage fin!
- Magnifique travail!!! Je suggère à ce que la simplification du code: df = pd.DataFrame(X2, vocab, ['x', 'y']) et puis for word, pos in df.iterrows(): plt.annotate(word, pos). c'est à dire utiliser les mots que l'index. Vous pouvez vous débarrasser de la concat et d'autres lignes.
- Faites votre deux changements: vocab que df et l'indice de iterrows simplification. Merci, @RicardoCruz!
- quels sont les changements que nous devrions faire pour visualiser uniquement les mots similaires d'un mot en particulier?
InformationsquelleAutor Niels Joaquin

Vous devez vous connecter pour publier un commentaire.