Marquer un paragraphe en phrases et en mots dans NLTK

Je suis en train de l'entrée d'un paragraphe dans mon traitement de texte pour être divisé en phrases abord, puis en mots.

J'ai essayé le code suivant mais il ne fonctionne pas,

    #text is the paragraph input
    sent_text = sent_tokenize(text)
    tokenized_text = word_tokenize(sent_text.split)
    tagged = nltk.pos_tag(tokenized_text)
    print(tagged)

toutefois, cela ne fonctionne pas et me donne des erreurs. Alors, comment puis-je marquer les paragraphes dans des phrases et des mots?

Un exemple de paragraphe:

Cette chose semblait dominer et surprend le petit brun foncé chien, et l'a blessé au cœur. Il sombra dans le désespoir à l'enfant les pieds. Lorsque le coup a été répété, avec une mise en demeure, dans enfantin phrases, il retourna sur son dos, et sa tenue de pattes d'une curieuse manière. Dans le même temps, avec ses oreilles et ses yeux, il a offert une petite prière à l'enfant.

**ATTENTION:**C'est juste un texte aléatoire à partir de l'internet, je ne possède pas le contenu ci-dessus.

Pouvez-vous poster un échantillon de text?
ses juste à tout hasard paragraphe.
Afficher l'entrée, car le code sera différent selon le codage, la forme, l'entrée des différences.
voici l'entrée, de sorte que ce type de codage, de la forme et de l'entrée différences devraient être inclus?
Montrer une réelle de l'échantillon d'entrée... Si c'est tout simplement le texte en anglais (pas de médias sociaux, par exemple, twitter), vous pouvez facilement faire [pos_tag(word_tokenize(sent)) for sent in sent_tokenize(text)] et à l'aide de Python3 devrait résoudre la plupart des problèmes avec l'encodage utf-8. Mais si votre entrée est un codage différent/format, vous trouverez d'autres problèmes plus tard.

OriginalL'auteur Nikhil Raghavendra | 2016-06-03