Puis-je utiliser CountVectorizer dans scikit-apprendre à compter de la fréquence des documents qui n'ont pas été utilisés pour extraire les jetons?

J'ai travaillé avec le CountVectorizer classe dans scikit-learn.

Je comprends que si l'on utilise de la manière montrée ci-dessous, le résultat final sera composé d'un tableau contenant des comtes de fonctionnalités, ou des jetons.

Ces jetons sont extraites à partir d'un ensemble de mots-clés, c'est à dire

tags = [
  "python, tools",
  "linux, tools, ubuntu",
  "distributed systems, linux, networking, tools",
]

La prochaine étape est:

from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer(tokenizer=tokenize)
data = vec.fit_transform(tags).toarray()
print data

Où l'on se

[[0 0 0 1 1 0]
 [0 1 0 0 1 1]
 [1 1 1 0 1 0]]

C'est bien, mais ma situation est un peu différente.

Je veux extraire les caractéristiques de la même façon que ci-dessus, mais je ne veux pas les lignes de data être les mêmes documents que les caractéristiques ont été extraites à partir d'.

En d'autres termes, comment puis-je obtenir compte d'un autre ensemble de documents, disons,

list_of_new_documents = [
  ["python, chicken"],
  ["linux, cow, ubuntu"],
  ["machine learning, bird, fish, pig"]
]

Et obtenez:

[[0 0 0 1 0 0]
 [0 1 0 0 0 1]
 [0 0 0 0 0 0]]

J'ai lu la documentation de la CountVectorizer classe, et est venu à travers la vocabulary argument, qui est une cartographie des termes de fonctionnalité indices. Je n'arrive pas à obtenir cet argument pour m'aider, cependant.

Tout conseil est le bienvenue.

PS: tout le crédit en raison de Matthias Friedrich Blog pour l'exemple j'ai utilisé ci-dessus.

InformationsquelleAutor Matt O'Brien | 2014-04-07

50

Vous avez raison, vocabulary est ce que vous voulez. Il fonctionne comme ceci:
```
>>> cv = sklearn.feature_extraction.text.CountVectorizer(vocabulary=['hot', 'cold', 'old'])
>>> cv.fit_transform(['pease porridge hot', 'pease porridge cold', 'pease porridge in the pot', 'nine days old']).toarray()
array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 0],
       [0, 0, 1]], dtype=int64)
```
De sorte que vous passer à un dict de vos fonctions que les touches.

Si vous avez utilisé CountVectorizer sur un ensemble de documents et alors vous voulez utiliser l'ensemble des fonctionnalités de ces documents pour un nouveau jeu, utilisez la vocabulary_ attribut de l'original de votre CountVectorizer et de le passer à la nouvelle. Donc dans votre exemple, vous pourriez faire
```
newVec = CountVectorizer(vocabulary=vec.vocabulary_)
```
pour créer un nouveau générateur de jetons en utilisant le vocabulaire de votre premier.
- Merci, c'est superbe! Pour la première solution: si le vocabulaire toujours un dict, pas de liste? Corrigez-moi si je me trompe, mais les chiffres (0, 1, 2) semblent hors de propos. La deuxième méthode décrite ressemble peut-être un peu plus clair.
- Vous avez raison, il peut être une liste, j'ai mal lu la documentation. J'ai édité ma réponse. Dans la deuxième méthode, cependant, il est dict, parce que c'est ce que l' vocabulary_ méthode de monté vectorizer est.
- BrenBarn, votre réponse m'a sauvé beaucoup de temps. Sérieusement. Merci d'être sur ce site.
- Peut-être que je ne suis pas à comprendre quelque chose, mais plutôt que d'initialiser une nouvelle CountVectorizer avec le vocabulaire original, vous ne pourriez pas vous suffit d'appeler .transform() sur le nouveau document d'origine avec le vectorizer?
InformationsquelleAutor BrenBarn
8

Vous devriez appeler fit_transform ou tout simplement fit sur votre vocabulaire original source, de sorte que le vectorizer apprend un vocabulaire.

Alors vous pouvez utiliser cette fit vectorizer sur les nouvelles sources de données via le transform() méthode.

Vous pouvez obtenir le vocabulaire produite par l'ajustement (c'est à dire de la cartographie de la parole à l'ID de jeton) via vectorizer.vocabulary_ (en supposant que vous avez un nom à votre CountVectorizer le nom vectorizer.

InformationsquelleAutor Dhruv Ghulati

>>> tags = [
"python, tools",
"linux, tools, ubuntu",
"distributed systems, linux, networking, tools",
]
>>> list_of_new_documents = [
["python, chicken"],
["linux, cow, ubuntu"],
["machine learning, bird, fish, pig"]
]
>>> from sklearn.feature_extraction.text import CountVectorizer
>>> vect = CountVectorizer()
>>> tags = vect.fit_transform(tags)
# vocabulary learned by CountVectorizer (vect)
>>> print(vect.vocabulary_)
{'python': 3, 'tools': 5, 'linux': 1, 'ubuntu': 6, 'distributed': 0, 'systems': 4, 'networking': 2}
# counts for tags
>>> tags.toarray()
array([[0, 0, 0, 1, 0, 1, 0],
[0, 1, 0, 0, 0, 1, 1],
[1, 1, 1, 0, 1, 1, 0]], dtype=int64)
# to use `transform`, `list_of_new_documents` should be a list of strings 
# `itertools.chain` flattens shallow lists more efficiently than list comprehensions
>>> from itertools import chain
>>> new_docs = list(chain.from_iterable(list_of_new_documents)
>>> new_docs = vect.transform(new_docs)
# finally, counts for new_docs!
>>> new_docs.toarray()
array([[0, 0, 0, 1, 0, 0, 0],
[0, 1, 0, 0, 0, 0, 1],
[0, 0, 0, 0, 0, 0, 0]])

Pour vérifier que CountVectorizer est en utilisant le vocabulaire appris de tags sur new_docs: imprimer vect.vocabulary_ de nouveau ou de comparer la sortie de new_docs.toarray() à celle de tags.toarray()

InformationsquelleAutor user2476665

Vous devez vous connecter pour publier un commentaire.