Tensorflow vocabularyprocessor

Je suis à la suite de la wildml blog sur la classification de textes à l'aide de tensorflow. Je ne suis pas en mesure de comprendre le but de max_document_length dans le code d'instruction :

vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)

Aussi comment puis-je extraire le vocabulaire de la vocab_processor

Je suis en train de suivre le même tuto mais il y a quelques choses que je ne comprends pas. Peut-être que vous pouvez jetez un oeil à ma question, et de m'aider?

InformationsquelleAutor Nitin | 2016-11-17

tensorflow vocabulary

J'ai compris comment faire pour extraire le vocabulaire de vocabularyprocessor objet. Cela a fonctionné parfaitement pour moi.

import numpy as np
from tensorflow.contrib import learn

x_text = ['This is a cat','This must be boy', 'This is a a dog']
max_document_length = max([len(x.split(" ")) for x in x_text])

## Create the vocabularyprocessor object, setting the max lengh of the documents.
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)

## Transform the documents using the vocabulary.
x = np.array(list(vocab_processor.fit_transform(x_text)))    

## Extract word:id mapping from the object.
vocab_dict = vocab_processor.vocabulary_._mapping

## Sort the vocabulary dictionary on the basis of values(id).
## Both statements perform same task.
#sorted_vocab = sorted(vocab_dict.items(), key=operator.itemgetter(1))
sorted_vocab = sorted(vocab_dict.items(), key = lambda x : x[1])

## Treat the id's as index into list and create a list of words in the ascending order of id's
## word with id i goes at index i of the list.
vocabulary = list(list(zip(*sorted_vocab))[0])

print(vocabulary)
print(x)

Si vous voyez le vocab_dict, vous pouvez voir que "Cela" est répertorié 1, "est", comme le 2 et ainsi de suite. Je voudrais passer mon propre index. Par exemple, la fréquence de base. Savez-vous comment faire cela?

InformationsquelleAutor Nitin

2

pas en mesure de comprendre le but de max_document_length

La VocabularyProcessor cartes vos documents texte en vecteurs, et vous avez besoin de ces vecteurs à une certaine longueur.

Vos enregistrements de données d'entrée ne peut pas (ou ne sera probablement pas) être tous de la même longueur. Par exemple, si vous travaillez avec des peines pour l'analyse de sentiment qu'ils vont être de différentes longueurs.

Vous fournir ce paramètre à la VocabularyProcessor de sorte qu'il peut ajuster la longueur de sortie de vecteurs. Selon la documentation,

max_document_length: longueur Maximale des documents. si les documents sont
de plus, ils seront parés, si courte matelassée.

Découvrez la le code source.
```
  def transform(self, raw_documents):
    """Transform documents to word-id matrix.
    Convert words to ids with vocabulary fitted with fit or the one
    provided in the constructor.
    Args:
      raw_documents: An iterable which yield either str or unicode.
    Yields:
      x: iterable, [n_samples, max_document_length]. Word-id matrix.
    """
    for tokens in self._tokenizer(raw_documents):
      word_ids = np.zeros(self.max_document_length, np.int64)
      for idx, token in enumerate(tokens):
        if idx >= self.max_document_length:
          break
        word_ids[idx] = self.vocabulary_.get(token)
      yield word_ids
```
Remarque la ligne word_ids = np.zeros(self.max_document_length).

Chaque ligne dans raw_documents variable sera associée à un vecteur de longueur max_document_length.

InformationsquelleAutor Kirk Broadhurst

Vous devez vous connecter pour publier un commentaire.