Marquer un paragraphe en phrases et en mots dans NLTK
Je suis en train de l'entrée d'un paragraphe dans mon traitement de texte pour être divisé en phrases abord, puis en mots.
J'ai essayé le code suivant mais il ne fonctionne pas,
#text is the paragraph input
sent_text = sent_tokenize(text)
tokenized_text = word_tokenize(sent_text.split)
tagged = nltk.pos_tag(tokenized_text)
print(tagged)
toutefois, cela ne fonctionne pas et me donne des erreurs. Alors, comment puis-je marquer les paragraphes dans des phrases et des mots?
Un exemple de paragraphe:
Cette chose semblait dominer et surprend le petit brun foncé chien, et l'a blessé au cœur. Il sombra dans le désespoir à l'enfant les pieds. Lorsque le coup a été répété, avec une mise en demeure, dans enfantin phrases, il retourna sur son dos, et sa tenue de pattes d'une curieuse manière. Dans le même temps, avec ses oreilles et ses yeux, il a offert une petite prière à l'enfant.
**ATTENTION:**C'est juste un texte aléatoire à partir de l'internet, je ne possède pas le contenu ci-dessus.
text
?ses juste à tout hasard paragraphe.
Afficher l'entrée, car le code sera différent selon le codage, la forme, l'entrée des différences.
voici l'entrée, de sorte que ce type de codage, de la forme et de l'entrée différences devraient être inclus?
Montrer une réelle de l'échantillon d'entrée... Si c'est tout simplement le texte en anglais (pas de médias sociaux, par exemple, twitter), vous pouvez facilement faire
[pos_tag(word_tokenize(sent)) for sent in sent_tokenize(text)]
et à l'aide de Python3 devrait résoudre la plupart des problèmes avec l'encodage utf-8. Mais si votre entrée est un codage différent/format, vous trouverez d'autres problèmes plus tard.OriginalL'auteur Nikhil Raghavendra | 2016-06-03
Vous devez vous connecter pour publier un commentaire.
Vous avez probablement destiné à boucle sur
sent_text
:reload(sys); sys.setdefaultencoding('utf8')
toxiques code. Et si c'estpython3
, c'est plutôt redondant. L'impression elle-même dépend de la locale définie sur la machine de l'utilisateur.ne pas faire la
setdefaultencoding
hack. Poser une nouvelle question à propos de l'étape c'est de vous donner des problèmes de codage, et vous apprendrez à définir l'encodage du fichier lors du traitement de l'unicode.Ceci explique pourquoi c'est une très mauvaise idée.
Merci pour l'avertissement 🙂
qui sait comment faire pour enregistrer les positions des jetons?
OriginalL'auteur slider
Voici une version plus courte. Cela vous donnera une structure de données avec chaque phrase, et chaque jeton au sein de la phrase. Je préfère le TweetTokenizer de désordre dans le monde réel de la langue. La phrase générateur de jetons est considéré comme décent, mais attention de ne pas baisser votre mot de cas, jusqu'après cette étape, car elle peut avoir un impact sur la précision de la détection des limites de désordre texte.
Voici à quoi ressemble la sortie, j'ai nettoyé ainsi, la structure se distingue:
OriginalL'auteur Brian Cugelman