Python: tf-idf-cosinus: trouver de la ressemblance du document

J'ai suivi un tutoriel qui a été disponible à Partie 1 & Partie 2. Malheureusement, l'auteur n'avait pas le temps pour la section finale qui participent à l'aide de similarité cosinus de réellement trouver la distance entre deux documents. J'ai suivi les exemples dans l'article à l'aide du lien suivant de stackoverflow, inclus le code est-il mentionné dans le lien ci-dessus (juste pour rendre la vie plus facile)

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from nltk.corpus import stopwords
import numpy as np
import numpy.linalg as LA

train_set = ["The sky is blue.", "The sun is bright."]  # Documents
test_set = ["The sun in the sky is bright."]  # Query
stopWords = stopwords.words('english')

vectorizer = CountVectorizer(stop_words = stopWords)
#print vectorizer
transformer = TfidfTransformer()
#print transformer

trainVectorizerArray = vectorizer.fit_transform(train_set).toarray()
testVectorizerArray = vectorizer.transform(test_set).toarray()
print 'Fit Vectorizer to train set', trainVectorizerArray
print 'Transform Vectorizer to test set', testVectorizerArray

transformer.fit(trainVectorizerArray)
print
print transformer.transform(trainVectorizerArray).toarray()

transformer.fit(testVectorizerArray)
print 
tfidf = transformer.transform(testVectorizerArray)
print tfidf.todense()

en conséquence le code ci-dessus, j'ai la matrice suivante

Fit Vectorizer to train set [[1 0 1 0]
 [0 1 0 1]]
Transform Vectorizer to test set [[0 1 1 1]]

[[ 0.70710678  0.          0.70710678  0.        ]
 [ 0.          0.70710678  0.          0.70710678]]

[[ 0.          0.57735027  0.57735027  0.57735027]]

Je ne suis pas sûr de savoir comment utiliser cette sortie pour calculer la similarité cosinus, je sais comment mettre en œuvre similarité cosinus à l'égard de deux vecteurs de longueur similaire, mais ici, je ne suis pas sûr de savoir comment identifier les deux vecteurs.

  • Pour chaque vecteur dans trainVectorizerArray, vous devez trouver le cosinus de similarité avec le vecteur dans testVectorizerArray.
  • Merci, avec votre utile de le souligner, j'ai réussi à pensé à elle, dois-je la réponse?
  • Mais j'ai petite question, actuall tf*idf calcul n'a que faire de cela, parce que je ne suis pas en utilisant les résultats définitifs qui est indiqué dans la matrice.
  • Voici la 3ème partie de ce tutoriel vous devis qui répond à votre question dans les détails pyevolve.sourceforge.net/wordpress/?p=2497
  • j'ai suivi le lien que vous avez fourni, mais que mes documents sont de plus il commence à lancer MemoryError Comment pouvons-nous résoudre ce problème?