scikit-learn TfidfVectorizer sens?

Que j'ai lu sur TfidfVectorizer la mise en œuvre de scikit-learn, je ne comprends pas quel est la sortie de la méthode, par exemple:

new_docs = ['He watches basketball and baseball', 'Julie likes to play basketball', 'Jane loves to play baseball']
new_term_freq_matrix = tfidf_vectorizer.transform(new_docs)
print tfidf_vectorizer.vocabulary_
print new_term_freq_matrix.todense()

de sortie:

{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}
[[ 0.57735027  0.57735027  0.57735027  0.          0.          0.          0.
   0.          0.          0.          0.        ]
 [ 0.          0.68091856  0.          0.          0.51785612  0.51785612
   0.          0.          0.          0.          0.        ]
 [ 0.62276601  0.          0.          0.62276601  0.          0.          0.
   0.4736296   0.          0.          0.        ]]

C'est quoi?(par exemple: u me': 8 ):

{u'me': 8, u'basketball': 1, u'julie': 4, u'baseball': 0, u'likes': 5, u'loves': 7, u'jane': 3, u'linda': 6, u'more': 9, u'than': 10, u'he': 2}

est-ce une matrice ou tout simplement un vecteur?, je ne peux pas comprendre quoi me dire la sortie:

[[ 0.57735027  0.57735027  0.57735027  0.          0.          0.          0.
   0.          0.          0.          0.        ]
 [ 0.          0.68091856  0.          0.          0.51785612  0.51785612
   0.          0.          0.          0.          0.        ]
 [ 0.62276601  0.          0.          0.62276601  0.          0.          0.
   0.4736296   0.          0.          0.        ]]

Quelqu'un pourrait-il m'expliquer plus en détail ces sorties?

Merci!

InformationsquelleAutor anon | 2014-09-17

14

TfidfVectorizer - Transforme le texte en fonction des vecteurs qui peut être utilisé comme entrée de l'estimateur.

vocabulary_ Est un dictionnaire qui convertit chaque jeton (mot) à la fonction d'index dans la matrice, chaque jeton unique devient une fonction de l'indice.

C'est quoi?(par exemple: u me': 8 )

Il vous dit que le jeton " moi " est représenté en fonction du nombre 8 dans la matrice de sortie.

est-ce une matrice ou tout simplement un vecteur?

Chaque phrase est un vecteur, les phrases que vous avez saisis sont de la matrice avec les 3 vecteurs.
Dans chaque vecteur de nombres (de poids) représentent des fonctions tf-idf score.
Par exemple:
'julie': 4 --> vous Dit que dans chaque phrase, "Julie" s'affiche, vous aurez non nulle (tf-idf) poids. Comme vous pouvez le voir dans les 2'nd vecteur:

[ 0. 0.68091856 0. 0. 0.51785612 0.51785612
0. 0. 0. 0. 0. ]

La 5 ième élément marqué 0.51785612 - tf-idf score de 'Julie'.
Pour plus d'info à propos de Tf-Idf de notation lire ici: http://en.wikipedia.org/wiki/Tf%E2%80%93idf
- qu'est-ce que le u paramètre dans la production? À l'aide d'un nouveau téléchargement de Anaconda/Scikit et il ne s'affiche pas. Est-il maintenant de ne pas affichés dans la sortie?
- FYI - c'est la différence entre unicode ou pas (ce qui est spécifié sur les versions avant de Python 3).
InformationsquelleAutor D Volsky
4

Donc tf-idf crée un jeu de son propre vocabulaire de l'ensemble des documents. Qui est vu dans la première ligne de sortie. (pour une meilleure compréhension, j'ai réglé)
```
{u'baseball': 0, u'basketball': 1, u'he': 2, u'jane': 3, u'julie': 4, u'likes': 5, u'linda': 6,  u'loves': 7, u'me': 8, u'more': 9, u'than': 10, }
```
Et lorsque le document est analysé pour obtenir sa tf-idf. Document:

Il regarde de basket-ball et de baseball

et sa sortie,

[ 0.57735027 0.57735027 0.57735027 0. 0. 0. 0.
0. 0. 0. 0. ]

est équivalent,

[baseball basket-ball qu'il jeanne julie aime linda m'aime plus que]

Depuis notre document a que ces mots: baseball, basketball, il a, dans le vocabulaire créé. Le document vecteur de sortie a des valeurs de tf-idf pour seulement ces trois mots, et dans le même triés vocabulaire de position.

tf-idf est utilisé pour classer les documents, classement dans les moteurs de recherche. tf: terme de fréquence(nombre de mots présents dans le document à partir de son propre vocabulaire), idf: l'inverse document frequency(importance de la parole de chaque document).
- cela explique mieux. Merci, mon pote.
InformationsquelleAutor Rajesh Mappu

La méthode tient compte du fait que tous les mots ne doivent pas être pondérés de manière égale, à l'aide des poids pour indiquer les mots qui sont le plus unique du document, et mieux utilisés pour la caractériser.

new_docs = ['basketball baseball', 'basketball baseball', 'basketball baseball']
new_term_freq_matrix = vectorizer.fit_transform(new_docs)
print (vectorizer.vocabulary_)
print ((new_term_freq_matrix.todense()))


{'basketball': 1, 'baseball': 0}
    [[ 0.70710678  0.70710678]
     [ 0.70710678  0.70710678]
     [ 0.70710678  0.70710678]]

new_docs = ['basketball baseball', 'basketball basketball', 'basketball basketball']
new_term_freq_matrix = vectorizer.fit_transform(new_docs)
print (vectorizer.vocabulary_)
print ((new_term_freq_matrix.todense()))

{'basketball': 1, 'baseball': 0}
    [[ 0.861037    0.50854232]
     [ 0.          1.        ]
     [ 0.          1.        ]] 

new_docs = ['basketball basketball baseball', 'basketball basketball', 'basketball 
basketball']
new_term_freq_matrix = vectorizer.fit_transform(new_docs)
print (vectorizer.vocabulary_)
print ((new_term_freq_matrix.todense())) 


{'basketball': 1, 'baseball': 0}
[[ 0.64612892  0.76322829]
[ 0.          1.        ]
[ 0.          1.        ]]

InformationsquelleAutor David Miller

Vous devez vous connecter pour publier un commentaire.