Python: tf-idf-cosinus: trouver de la ressemblance du document

J'ai suivi un tutoriel qui a été disponible à Partie 1 & Partie 2. Malheureusement, l'auteur n'avait pas le temps pour la section finale qui participent à l'aide de similarité cosinus de réellement trouver la distance entre deux documents. J'ai suivi les exemples dans l'article à l'aide du lien suivant de stackoverflow, inclus le code est-il mentionné dans le lien ci-dessus (juste pour rendre la vie plus facile)

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from nltk.corpus import stopwords
import numpy as np
import numpy.linalg as LA

train_set = ["The sky is blue.", "The sun is bright."]  # Documents
test_set = ["The sun in the sky is bright."]  # Query
stopWords = stopwords.words('english')

vectorizer = CountVectorizer(stop_words = stopWords)
#print vectorizer
transformer = TfidfTransformer()
#print transformer

trainVectorizerArray = vectorizer.fit_transform(train_set).toarray()
testVectorizerArray = vectorizer.transform(test_set).toarray()
print 'Fit Vectorizer to train set', trainVectorizerArray
print 'Transform Vectorizer to test set', testVectorizerArray

transformer.fit(trainVectorizerArray)
print
print transformer.transform(trainVectorizerArray).toarray()

transformer.fit(testVectorizerArray)
print 
tfidf = transformer.transform(testVectorizerArray)
print tfidf.todense()

en conséquence le code ci-dessus, j'ai la matrice suivante

Fit Vectorizer to train set [[1 0 1 0]
 [0 1 0 1]]
Transform Vectorizer to test set [[0 1 1 1]]

[[ 0.70710678  0.          0.70710678  0.        ]
 [ 0.          0.70710678  0.          0.70710678]]

[[ 0.          0.57735027  0.57735027  0.57735027]]

Je ne suis pas sûr de savoir comment utiliser cette sortie pour calculer la similarité cosinus, je sais comment mettre en œuvre similarité cosinus à l'égard de deux vecteurs de longueur similaire, mais ici, je ne suis pas sûr de savoir comment identifier les deux vecteurs.

Pour chaque vecteur dans trainVectorizerArray, vous devez trouver le cosinus de similarité avec le vecteur dans testVectorizerArray.
Merci, avec votre utile de le souligner, j'ai réussi à pensé à elle, dois-je la réponse?
Mais j'ai petite question, actuall tf*idf calcul n'a que faire de cela, parce que je ne suis pas en utilisant les résultats définitifs qui est indiqué dans la matrice.
Voici la 3ème partie de ce tutoriel vous devis qui répond à votre question dans les détails pyevolve.sourceforge.net/wordpress/?p=2497
j'ai suivi le lien que vous avez fourni, mais que mes documents sont de plus il commence à lancer MemoryError Comment pouvons-nous résoudre ce problème?

InformationsquelleAutor add-semi-colons | 2012-08-25

141

Tout d'abord, si vous voulez extraire le comte de fonctionnalités et d'appliquer TF-IDF de la normalisation et de la ligne sage euclidienne de normalisation, vous pouvez le faire en une seule opération avec TfidfVectorizer:

>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> from sklearn.datasets import fetch_20newsgroups
>>> twenty = fetch_20newsgroups()

>>> tfidf = TfidfVectorizer().fit_transform(twenty.data)
>>> tfidf
<11314x130088 sparse matrix of type '<type 'numpy.float64'>'
    with 1787553 stored elements in Compressed Sparse Row format>

Maintenant à trouver le cosinus distances d'un document (par exemple, la première dans le jeu de données) et toutes les autres vous avez juste besoin de calculer le point des produits du premier vecteur avec tous les autres, comme le tfidf vecteurs sont déjà en ligne normalisée. Le scipy sparse matrix API est un peu bizarre (pas aussi souple comme dense à N dimensions des tableaux numpy). Pour obtenir le premier vecteur-vous besoin de couper les lignes de la matrice inverse pour obtenir un submatrix avec une seule ligne:

>>> tfidf[0:1]
<1x130088 sparse matrix of type '<type 'numpy.float64'>'
    with 89 stored elements in Compressed Sparse Row format>

scikit-learn offre déjà deux à deux paramètres (un.k.un. les noyaux de l'apprentissage automatique langage) que de travail pour à la fois dense et reprī esentations vectorielles de collections. Dans ce cas, nous avons besoin d'un produit scalaire qui est également connu comme le linéaire du noyau:

>>> from sklearn.metrics.pairwise import linear_kernel
>>> cosine_similarities = linear_kernel(tfidf[0:1], tfidf).flatten()
>>> cosine_similarities
array([ 1.        ,  0.04405952,  0.11016969, ...,  0.04433602,
    0.04457106,  0.03293218])

Donc pour trouver le top 5 des documents connexes, nous pouvons utiliser argsort et négatif de la matrice de découpage (la plupart des documents sont plus hautes valeurs de similarité cosinus, donc à la fin de la triés indices de tableau):

>>> related_docs_indices = cosine_similarities.argsort()[:-5:-1]
>>> related_docs_indices
array([    0,   958, 10576,  3277])
>>> cosine_similarities[related_docs_indices]
array([ 1.        ,  0.54967926,  0.32902194,  0.2825788 ])

Le premier résultat est un test de cohérence: nous trouvons la requête de document de plus d'un document semblable, avec un score de similarité cosinus de 1, qui contient le texte suivant:

>>> print twenty.data[0]
From: lerxst@wam.umd.edu (where's my thing)
Subject: WHAT car is this!?
Nntp-Posting-Host: rac3.wam.umd.edu
Organization: University of Maryland, College Park
Lines: 15

 I was wondering if anyone out there could enlighten me on this car I saw
the other day. It was a 2-door sports car, looked to be from the late 60s/
early 70s. It was called a Bricklin. The doors were really small. In addition,
the front bumper was separate from the rest of the body. This is
all I know. If anyone can tellme a model name, engine specs, years
of production, where this car is made, history, or whatever info you
have on this funky looking car, please e-mail.

Thanks,
- IL
   ---- brought to you by your neighborhood Lerxst ----

Le deuxième document similaire est une réponse qui cite le message d'origine a donc beaucoup de mots communs:

>>> print twenty.data[958]
From: rseymour@reed.edu (Robert Seymour)
Subject: Re: WHAT car is this!?
Article-I.D.: reed.1993Apr21.032905.29286
Reply-To: rseymour@reed.edu
Organization: Reed College, Portland, OR
Lines: 26

In article <1993Apr20.174246.14375@wam.umd.edu> lerxst@wam.umd.edu (where's my
thing) writes:
>
>  I was wondering if anyone out there could enlighten me on this car I saw
> the other day. It was a 2-door sports car, looked to be from the late 60s/
> early 70s. It was called a Bricklin. The doors were really small. In
addition,
> the front bumper was separate from the rest of the body. This is
> all I know. If anyone can tellme a model name, engine specs, years
> of production, where this car is made, history, or whatever info you
> have on this funky looking car, please e-mail.

Bricklins were manufactured in the 70s with engines from Ford. They are rather
odd looking with the encased front bumper. There aren't a lot of them around,
but Hemmings (Motor News) ususally has ten or so listed. Basically, they are a
performance Ford with new styling slapped on top.

>    ---- brought to you by your neighborhood Lerxst ----

Rush fan?

--
Robert Seymour              rseymour@reed.edu
Physics and Philosophy, Reed College    (NeXTmail accepted)
Artificial Life Project         Reed College
Reed Solar Energy Project (SolTrain)    Portland, OR

excellente réponse! merci olivier!
Une question: si j'ai un très grand nombre de documents, le linear_kernel fonction dans l'étape 2 peut être le goulot d'étranglement des performances, car il est linéaire en le nombre de lignes. Des idées sur la façon de le réduire à sublinéaire?
Vous pouvez utiliser le "genre" des requêtes de Elastic Search et Solr qui devrait rendement approximatif des réponses avec un sous-évolutivité linéaire de profil.
Serait-ce de vous donner la similarité cosinus de chaque document avec tous les autres documents, au lieu de simplement le premier: cosine_similarities = linear_kernel(tfidf, tfidf)?
Oui, cela vous donnera une matrice carrée de paires de similitudes.
Dans le cas où d'autres se demandaient comme je l'ai fait, dans ce cas linear_kernel est équivalent à cosine_similarity parce que le TfidfVectorizer produit des vecteurs normés. Voir la note dans la doc: scikit-learn.org/stable/modules/metrics.html#cosine-similarity
pourriez vous s'il vous plaît prendre un coup d'oeil à stackoverflow.com/questions/39688927/python-tf-idf-predict-a-new-document-similarity/39689190#39689190 ?

InformationsquelleAutor ogrisel

18

Je sais que c'est un vieux post. mais j'ai essayé de le http://scikit-learn.sourceforge.net/stable/ paquet. voici mon code pour trouver le cosinus de similarité. La question est de savoir comment allez-vous calculer le cosinus de similarité avec ce paquet et voici mon code pour que
```
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

f = open("/root/Myfolder/scoringDocuments/doc1")
doc1 = str.decode(f.read(), "UTF-8", "ignore")
f = open("/root/Myfolder/scoringDocuments/doc2")
doc2 = str.decode(f.read(), "UTF-8", "ignore")
f = open("/root/Myfolder/scoringDocuments/doc3")
doc3 = str.decode(f.read(), "UTF-8", "ignore")

train_set = ["president of India",doc1, doc2, doc3]

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix_train = tfidf_vectorizer.fit_transform(train_set)  #finds the tfidf score with normalization
print "cosine scores ==> ",cosine_similarity(tfidf_matrix_train[0:1], tfidf_matrix_train)  #here the first element of tfidf_matrix_train is matched with other three elements
```
Ici supposons que la requête est le premier élément de train_set et doc1,doc2 et doc3 sont les documents que je veux rang avec l'aide de similarité cosinus. alors je peux utiliser ce code.

Aussi les tutoriels fournis dans la question a été très utile. Voici toutes les pièces pour la
partie je,partie II,partie III

la sortie sera comme suit :
```
[[ 1.          0.07102631  0.02731343  0.06348799]]
```
ici 1 représente que la requête est mise en correspondance avec lui-même et les trois autres sont les scores correspondant à la requête avec les documents respectifs.
- cosine_similarity(tfidf_matrix_train[0:1], tfidf_matrix_train) si Ce 1 est modifié pour plus de milliers de personnes. Comment pouvons-nous résoudre ce problème ??
- comment gérer ValueError: Incompatible dimension for X and Y matrices: X.shape[1] == 1664 while Y.shape[1] == 2
InformationsquelleAutor Gunjan

Avec l'Aide de @excray commentaire, j'ai réussi à comprendre la réponse, Ce que nous devons faire est d'écrire une simple boucle for pour parcourir les deux tableaux qui représentent le train de données et des données de test.

Abord de mettre en œuvre un simple lambda fonction de tenir la formule du cosinus de calcul:

cosine_function = lambda a, b : round(np.inner(a, b)/(LA.norm(a)*LA.norm(b)), 3)

Et puis il suffit d'écrire une simple boucle for pour parcourir le vecteur, la logique est pour tous "Pour chaque vecteur dans trainVectorizerArray, vous devez trouver le cosinus de similarité avec le vecteur dans testVectorizerArray."

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from nltk.corpus import stopwords
import numpy as np
import numpy.linalg as LA

train_set = ["The sky is blue.", "The sun is bright."] #Documents
test_set = ["The sun in the sky is bright."] #Query
stopWords = stopwords.words('english')

vectorizer = CountVectorizer(stop_words = stopWords)
#print vectorizer
transformer = TfidfTransformer()
#print transformer

trainVectorizerArray = vectorizer.fit_transform(train_set).toarray()
testVectorizerArray = vectorizer.transform(test_set).toarray()
print 'Fit Vectorizer to train set', trainVectorizerArray
print 'Transform Vectorizer to test set', testVectorizerArray
cx = lambda a, b : round(np.inner(a, b)/(LA.norm(a)*LA.norm(b)), 3)

for vector in trainVectorizerArray:
    print vector
    for testV in testVectorizerArray:
        print testV
        cosine = cx(vector, testV)
        print cosine

transformer.fit(trainVectorizerArray)
print
print transformer.transform(trainVectorizerArray).toarray()

transformer.fit(testVectorizerArray)
print 
tfidf = transformer.transform(testVectorizerArray)
print tfidf.todense()

Voici le résultat:

Fit Vectorizer to train set [[1 0 1 0]
 [0 1 0 1]]
Transform Vectorizer to test set [[0 1 1 1]]
[1 0 1 0]
[0 1 1 1]
0.408
[0 1 0 1]
[0 1 1 1]
0.816

[[ 0.70710678  0.          0.70710678  0.        ]
 [ 0.          0.70710678  0.          0.70710678]]

[[ 0.          0.57735027  0.57735027  0.57735027]]

sympa..je suis en apprentissage depuis le début de trop et votre question et la réponse sont les plus faciles à suivre. Je pense que vous pouvez utiliser np.corrcoef() à la place de votre rouleau de-votre-propre méthode.
là encore, votre méthode permet la norme...ce qui est cool...
afin de l'arrondir à 3 points décimaux
Quel est le but de la transformer.fit opérations et tfidf.todense()? Vous avez obtenu vos valeurs de similarité à partir de la boucle et puis continuer à faire tfidf? Où est votre calculée valeur de cosinus est utilisée? Votre exemple est source de confusion.
Quel est exactement le cosinus de retour si vous ne me dérange pas d'expliquer. Dans votre exemple, vous obtenez 0.408 et 0.816, quelles sont ces valeurs?

InformationsquelleAutor add-semi-colons

16

Laissez-moi vous donner un autre tutoriel écrit par moi. Il répond à votre question, mais rend également une explication des raisons pour lesquelles nous faisons certaines choses. J'ai également essayé de faire concis.

Si vous avez un list_of_documents qui est juste un tableau de chaînes de caractères et un autre document qui est juste une chaîne de caractères. Vous avez besoin de trouver un tel document à partir de la list_of_documents qui est le plus semblable à document.

Nous allons combiner: documents = list_of_documents + [document]

Commençons avec dépendances. Il deviendra évident pourquoi nous utilisons chacun d'eux.
```
from nltk.corpus import stopwords
import string
from nltk.tokenize import wordpunct_tokenize as tokenize
from nltk.stem.porter import PorterStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.spatial.distance import cosine
```
L'une des approches qui peuvent être utilise est un sac-de-mots approche, où nous traitons chaque mot dans le document indépendant des autres et il suffit de jeter tous ensemble dans le grand sac. D'un point de vue, il perd beaucoup d'informations (comme la façon dont les mots sont reliés), mais d'un autre point de vue, il rend le modèle simple.

En anglais et dans toute autre langue humaine, il y a beaucoup de "inutile" des mots comme 'a', 'la', 'en', qui sont si fréquentes qu'elles ne possèdent pas beaucoup de sens. Ils sont appelés stop paroles et c'est une bonne idée de les supprimer. Une autre chose qu'on peut remarquer, c'est que des mots comme 'analyser', 'analyseur', 'analyse' sont vraiment similaires. Ils ont une racine commune, et tous peuvent être convertis en un mot. Ce processus est appelé découlant et il existe différents outils de conjugaison, qui diffèrent dans la vitesse, l'agressivité et ainsi de suite. Nous avons donc transformer chacun des documents à la liste des tiges de mots sans mots vides. Nous avons également effacer tous les signes de ponctuation.
```
porter = PorterStemmer()
stop_words = set(stopwords.words('english'))

modified_arr = [[porter.stem(i.lower()) for i in tokenize(d.translate(None, string.punctuation)) if i.lower() not in stop_words] for d in documents]
```
Alors, comment va ce sac de mots nous aider? Imaginez, nous avons 3 sacs: [a, b, c], [a, c, a] et [b, c, d]. Vous pouvez les convertir en les vecteurs de la base [a, b, c, d]. On se retrouve donc avec des vecteurs: [1, 1, 1, 0], [2, 0, 1, 0] et [0, 1, 1, 1]. La même chose est avec nos documents (uniquement les vecteurs seront façon de plus). Maintenant, nous voyons que nous avons retiré beaucoup de mots et à tiges autres aussi à diminuer les dimensions des vecteurs. Ici, il est intéressant d'observation. Plus les documents ont bien plus de positif que de plus en plus courte, c'est pourquoi il est agréable de normaliser le vecteur. Ceci est appelé terme de fréquence TF, les gens aussi utilisés plus d'informations sur la façon dont souvent le mot est utilisé dans d'autres documents - inverse document de la fréquence de TSAHAL. Ensemble, nous avons une métrique TF-IDF qui ont un couple de saveurs. Ceci peut être réalisé avec une seule ligne dans sklearn 🙂
```
modified_doc = [' '.join(i) for i in modified_arr] # this is only to convert our list of lists to list of strings that vectorizer uses.
tf_idf = TfidfVectorizer().fit_transform(modified_doc)
```
Fait vectorizer permet de faire beaucoup de choses comme la suppression des mots vides et de les mettre en minuscule. Je l'ai fait dans une étape distincte seulement parce que sklearn n'a pas non-anglais des mots vides, mais nltk a.

Nous avons donc tous les vecteurs calculés. La dernière étape est de trouver celle qui est la plus semblable à la précédente. Il existe différents moyens pour y parvenir, l'un d'eux est la distance Euclidienne qui n'est pas si grande pour la raison discuté ici. Une autre approche est similarité cosinus. Nous itération de tous les documents et le calcul de cosinus de similarité entre le document et la dernière:
```
l = len(documents) - 1
for i in xrange(l):
    minimum = (1, None)
    minimum = min((cosine(tf_idf[i].todense(), tf_idf[l + 1].todense()), i), minimum)
print minimum
```
Désormais minimum aurez des informations sur le meilleur du document et de son score.
- Signe, ce n'est pas ce que l'op a été demander: à la recherche du meilleur doc requête donnée pas "le meilleur document" dans un corpus. S'il vous plaît ne pas le faire, ppl comme moi vont perdre du temps à essayer d'utiliser votre exemple pour l'op tâche et obtenir traîné dans la matrice de redimensionnement de la folie.
- Et comment est-il différent? L'idée est tout à fait la même. Extrait des fonctionnalités, de calculer le cosinus de la distance entre une requête et les documents.
- Vous êtes le calcul de ce sur des matrices de formes égaux, essayez un autre exemple, où vous avez une requête de la matrice qui est de taille différente, op train et d'essai. Je n'étais pas en mesure de modifier votre code pour qu'il fonctionne.
- Comme l'a souligné, les réponses ci-dessus, une autre question: vous êtes en supposant que la requête et les documents font partie de la même corpus, ce qui est faux. Cela conduit à la mauvaise approche de l'utilisation des distances de vecteurs dérivés de la même corpus (avec les mêmes dimensions), qui doit généralement pas être le cas. Si la requête et les documents appartiennent à différents corpus, les vecteurs ils proviennent peut pas vivre dans le même espace et de calculer les distances comme vous le faites ci-dessus n'aurait aucun sens (ils n'auront même pas le même nombre de dimensions).
InformationsquelleAutor Salvador Dali

Cela devrait vous aider.

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity  

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(train_set)
print tfidf_matrix
cosine = cosine_similarity(tfidf_matrix[length-1], tfidf_matrix)
print cosine

et de sortie sera:

[[ 0.34949812  0.81649658  1.        ]]

comment voulez-vous obtenir la longueur ?

InformationsquelleAutor Sam

Voici une fonction qui compare vos données de test sur les données d'apprentissage, avec le Tf-Idf transformateur monté avec les données d'apprentissage. L'avantage est que vous pouvez rapidement pivot ou d'un groupe par trouver le n le plus proche des éléments, et que les calculs sont en bas de la matrice-sage.

def create_tokenizer_score(new_series, train_series, tokenizer):
    """
    return the tf idf score of each possible pairs of documents
    Args:
        new_series (pd.Series): new data (To compare against train data)
        train_series (pd.Series): train data (To fit the tf-idf transformer)
    Returns:
        pd.DataFrame
    """

    train_tfidf = tokenizer.fit_transform(train_series)
    new_tfidf = tokenizer.transform(new_series)
    X = pd.DataFrame(cosine_similarity(new_tfidf, train_tfidf), columns=train_series.index)
    X['ix_new'] = new_series.index
    score = pd.melt(
        X,
        id_vars='ix_new',
        var_name='ix_train',
        value_name='score'
    )
    return score

train_set = pd.Series(["The sky is blue.", "The sun is bright."])
test_set = pd.Series(["The sun in the sky is bright."])
tokenizer = TfidfVectorizer() # initiate here your own tokenizer (TfidfVectorizer, CountVectorizer, with stopwords...)
score = create_tokenizer_score(train_series=train_set, new_series=test_set, tokenizer=tokenizer)
score

   ix_new   ix_train    score
0   0       0       0.617034
1   0       1       0.862012

InformationsquelleAutor Paul Ogier

Vous devez vous connecter pour publier un commentaire.