scikit-learn TfidfVectorizer sens?
Que j'ai lu sur TfidfVectorizer la mise en œuvre de scikit-learn, je ne comprends pas quel est la sortie de la méthode, par exemple:
new_docs = ['He watches basketball and baseball', 'Julie likes to play basketball', 'Jane loves to play baseball']
new_term_freq_matrix = tfidf_vectorizer.transform(new_docs)
print tfidf_vectorizer.vocabulary_
print new_term_freq_matrix.todense()
de sortie:
{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}
[[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
[ 0.62276601 0. 0. 0.62276601 0. 0. 0.
0.4736296 0. 0. 0. ]]
C'est quoi?(par exemple: u me': 8 ):
{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}
est-ce une matrice ou tout simplement un vecteur?, je ne peux pas comprendre quoi me dire la sortie:
[[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
[ 0.62276601 0. 0. 0.62276601 0. 0. 0.
0.4736296 0. 0. 0. ]]
Quelqu'un pourrait-il m'expliquer plus en détail ces sorties?
Merci!
Vous devez vous connecter pour publier un commentaire.
TfidfVectorizer - Transforme le texte en fonction des vecteurs qui peut être utilisé comme entrée de l'estimateur.
vocabulary_
Est un dictionnaire qui convertit chaque jeton (mot) à la fonction d'index dans la matrice, chaque jeton unique devient une fonction de l'indice.Il vous dit que le jeton " moi " est représenté en fonction du nombre 8 dans la matrice de sortie.
Chaque phrase est un vecteur, les phrases que vous avez saisis sont de la matrice avec les 3 vecteurs.
Dans chaque vecteur de nombres (de poids) représentent des fonctions tf-idf score.
Par exemple:
'julie': 4 --> vous Dit que dans chaque phrase, "Julie" s'affiche, vous aurez non nulle (tf-idf) poids. Comme vous pouvez le voir dans les 2'nd vecteur:
[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]
La 5 ième élément marqué 0.51785612 - tf-idf score de 'Julie'.
Pour plus d'info à propos de Tf-Idf de notation lire ici: http://en.wikipedia.org/wiki/Tf%E2%80%93idf
Donc tf-idf crée un jeu de son propre vocabulaire de l'ensemble des documents. Qui est vu dans la première ligne de sortie. (pour une meilleure compréhension, j'ai réglé)
Et lorsque le document est analysé pour obtenir sa tf-idf. Document:
et sa sortie,
[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]
est équivalent,
Depuis notre document a que ces mots: baseball, basketball, il a, dans le vocabulaire créé. Le document vecteur de sortie a des valeurs de tf-idf pour seulement ces trois mots, et dans le même triés vocabulaire de position.
tf-idf est utilisé pour classer les documents, classement dans les moteurs de recherche. tf: terme de fréquence(nombre de mots présents dans le document à partir de son propre vocabulaire), idf: l'inverse document frequency(importance de la parole de chaque document).
La méthode tient compte du fait que tous les mots ne doivent pas être pondérés de manière égale, à l'aide des poids pour indiquer les mots qui sont le plus unique du document, et mieux utilisés pour la caractériser.