Tensorflow vocabularyprocessor
Je suis à la suite de la wildml blog sur la classification de textes à l'aide de tensorflow. Je ne suis pas en mesure de comprendre le but de max_document_length dans le code d'instruction :
vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)
Aussi comment puis-je extraire le vocabulaire de la vocab_processor
- Je suis en train de suivre le même tuto mais il y a quelques choses que je ne comprends pas. Peut-être que vous pouvez jetez un oeil à ma question, et de m'aider?
Vous devez vous connecter pour publier un commentaire.
J'ai compris comment faire pour extraire le vocabulaire de vocabularyprocessor objet. Cela a fonctionné parfaitement pour moi.
La
VocabularyProcessor
cartes vos documents texte en vecteurs, et vous avez besoin de ces vecteurs à une certaine longueur.Vos enregistrements de données d'entrée ne peut pas (ou ne sera probablement pas) être tous de la même longueur. Par exemple, si vous travaillez avec des peines pour l'analyse de sentiment qu'ils vont être de différentes longueurs.
Vous fournir ce paramètre à la
VocabularyProcessor
de sorte qu'il peut ajuster la longueur de sortie de vecteurs. Selon la documentation,Découvrez la le code source.
Remarque la ligne
word_ids = np.zeros(self.max_document_length)
.Chaque ligne dans
raw_documents
variable sera associée à un vecteur de longueurmax_document_length
.