tf-idf fonction de poids en utilisant des sklearn.feature_extraction.texte.TfidfVectorizer

cette page: http://scikit-learn.org/stable/modules/feature_extraction.html mentionne:

Que tf–idf est très souvent utilisé pour les fonctions de texte, il y a aussi une autre classe appelée TfidfVectorizer qui combine toutes les option de CountVectorizer et TfidfTransformer dans un modèle unique.

puis j'ai suivi le code et l'utilisation fit_transform() sur mon corpus. Comment faire pour obtenir le poids de chaque fonction calculée par fit_transform()?

J'ai essayé:

In [39]: vectorizer.idf_
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-39-5475eefe04c0> in <module>()
----> 1 vectorizer.idf_

AttributeError: 'TfidfVectorizer' object has no attribute 'idf_'

mais cet attribut est manquant.

Grâce

À en juger par la examles dans la documentation, je dirais que vous êtes censé utiliser la valeur de retour de vectorizer.fit_transform(corpus).
la valeur de retour est un scipy sparse_matrix qui stockent du normalisée en fonction.

InformationsquelleAutor fast tooth | 2014-05-21

78

Depuis la version 0.15, le tf-idf score de chaque fonctionnalité peut être récupéré via l'attribut idf_ de la TfidfVectorizer objet:
```
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["This is very strange",
          "This is very nice"]
vectorizer = TfidfVectorizer(min_df=1)
X = vectorizer.fit_transform(corpus)
idf = vectorizer.idf_
print dict(zip(vectorizer.get_feature_names(), idf))
```
De sortie:
```
{u'is': 1.0,
 u'nice': 1.4054651081081644,
 u'strange': 1.4054651081081644,
 u'this': 1.0,
 u'very': 1.0}
```
Tel que discuté dans les commentaires, avant la version 0.15, une solution de contournement consiste à accéder à l'attribut idf_ par le soi-disant caché _tfidf (une instance de TfidfTransformer) de la vectorizer:
```
idf = vectorizer._tfidf.idf_
print dict(zip(vectorizer.get_feature_names(), idf))
```
qui devrait donner le même résultat que ci-dessus.
- C'est un bug. Les utilisateurs ne devraient pas accès menant _ membres.
- Je vois. Devrait TfidfVectorizer exposer un idf attribut directement? Semble raisonnable pour cet usage.
- comment ajouter des mots vides-t-il?
- c'est juste l'IDF score, correct, pas le plein TF-IDF ?
- J'ai un doute en ce qui concerne le calcul depuis le "gentil" ou "étrange" sont apparues une fois sur deux, le document ne devrait-elle pas de l'idf égal à 1 + log(2)e => 1.69 plutôt que de 1,40 indiqué ci-dessus?
- Ou si c'est la base de 10 puis 1 + log(2)10 donne 1.30 pas 1.40
- Tout d'abord, vous devez multiplier les deux facteurs et non d'une synthèse. Deuxièmement, dans ce cas-Log(10) s'Appliquent. Enfin, le Euclidienne (L2) norme est appliquée lorsque vous utilisez TfidVectorizer. Pour plus d'informations lire: scikit-learn.org/stable/modules/...
InformationsquelleAutor YS-L

Voir aussi cette sur la façon d'obtenir le TF-IDF valeurs de tous les documents:

feature_names = tf.get_feature_names()
doc = 0
feature_index = X[doc,:].nonzero()[1]
tfidf_scores = zip(feature_index, [X[doc, x] for x in feature_index])
for w, s in [(feature_names[i], s) for (i, s) in tfidf_scores]:
    print w, s

this 0.448320873199
is 0.448320873199
very 0.448320873199
strange 0.630099344518

#and for doc=1
this 0.448320873199
is 0.448320873199
very 0.448320873199
nice 0.630099344518

Je pense que les résultats sont normalisés par le document:

>>>0.4483208731992+0.4483208731992+0.4483208731992+0.6300993445182
0.9999999999997548

InformationsquelleAutor aless80

Vous devez vous connecter pour publier un commentaire.