À l'aide de Sklearn de TfidfVectorizer transformer

Je suis en train d'essayer d'obtenir le tf-idf vecteur pour un seul document à l'aide de Sklearn de TfidfVectorizer objet. J'ai créer un vocabulaire basé sur certains des documents de formation et l'utilisation fit_transform pour former le TfidfVectorizer. Alors, je veux trouver le tf-idf vecteurs pour tout document tests.

from sklearn.feature_extraction.text import TfidfVectorizer

self.vocabulary = "a list of words I want to look for in the documents".split()
self.vect = TfidfVectorizer(sublinear_tf=True, max_df=0.5, analyzer='word', 
                 stop_words='english')
self.vect.fit_transform(self.vocabulary)

...

doc = "some string I want to get tf-idf vector for"
tfidf = self.vect.transform(doc)

Le problème est que cela renvoie une matrice de n lignes où n est la taille de mon doc chaîne. Je veux le retour d'un seul vecteur représentant le tf-idf pour l'ensemble de la chaîne. Comment puis-je en faire voir la chaîne en un seul document, au lieu que chaque personnage étant un document? Aussi, je suis très nouveau à l'exploration de texte donc, si je fais quelque chose de mal sur le plan conceptuel, qui serait bon à savoir. Toute aide est appréciée.

InformationsquelleAutor Sterling | 2013-11-21

44

Si vous voulez calculer la tf-idf uniquement pour un vocabulaire, l'utilisation vocabulary argument TfidfVectorizer constructeur,
```
vocabulary = "a list of words I want to look for in the documents".split()
vect = TfidfVectorizer(sublinear_tf=True, max_df=0.5, analyzer='word', 
           stop_words='english', vocabulary=vocabulary)
```
Puis, pour s'adapter, c'est à dire calculer compte, avec un corpus, c'est à dire un objet iterable de documents, l'utilisation fit:
```
vect.fit(corpus)
```
Méthode fit_transform est une abréviation pour
```
vect.fit(corpus)
corpus_tf_idf = vect.transform(corpus) 
```
Dernier, transform méthode accepte un corpus, de sorte que pour un seul document, vous devez le transmettre sous forme de liste, ou il est traité comme un objet iterable de symboles, chaque symbole étant un document.
```
doc_tfidf = vect.transform([doc])
```
- Quelle est donc la différence entre fit_transform et de les transformer? J'ai lu la documentation, mais je ne comprends pas clairement. Nous utilisons fit_transform pour compter les occurrences de chaque terme dans une liste de documents? Puis de les transformer en...prend ces comptes et calcule le tf-idf vecteur pour une liste de documents?
- vous utilisez fit ou fit_transform (voir mise à jour) pour former tfidf de la transformation et de transform d'appliquer sans comtes de mise à jour
InformationsquelleAutor alko

Vous devez vous connecter pour publier un commentaire.