Python NLTK pos_tag ne retourne pas la bonne partie du discours de la balise

Avoir ceci:

text = word_tokenize("The quick brown fox jumps over the lazy dog")

Et en cours d'exécution:

nltk.pos_tag(text)

J'obtiens:

[('The', 'DT'), ('quick', 'NN'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'NNS'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'NN'), ('dog', 'NN')]

C'est incorrect. Les balises pour quick brown lazy dans la phrase devrait être:

('quick', 'JJ'), ('brown', 'JJ') , ('lazy', 'JJ')

De tester ce par le biais de leur outil en ligne donne le même résultat; quick, brown et fox devraient être les adjectifs ne pas les noms.

En utilisant l'exemple de la phrase "Jean grande idée n'est pas si mauvais que ça." trouve ici: nltk.org/api/nltk.tag.html je vois qu'il fait un excellent travail et trouve les adjectifs, pourquoi est-ce ? Où avez-vous suggérons de chercher un autre marqueur?
Ce sont sans équivoque des mots et doit avoir été étiquetés correctement. Essayez quelques autres tagger pour de meilleurs résultats.
Je ne sais pas tout tagger pour cette tâche, mais j'ai juste suggéré d'en chercher un dans la Doc!
Vous pouvez utiliser HMM tagger dans NLTK. J'ai une auto de la mise en œuvre de HMM tagger qui prédit correctement les balises de votre exemple de phrase. Je suppose que cela devrait fonctionner pour vous aussi.

InformationsquelleAutor faceoff | 2015-06-13

58

En bref:

NLTK n'est pas parfait. En fait, aucun modèle n'est parfait.

Remarque:

De NLTK version 3.1, par défaut pos_tag fonction n'est plus le vieux MaxEnt anglais cornichon.

Il est maintenant le perceptron tagger de @Honnibal de la mise en œuvre, voir nltk.la balise.pos_tag
```
>>> import inspect
>>> print inspect.getsource(pos_tag)
def pos_tag(tokens, tagset=None):
    tagger = PerceptronTagger()
    return _pos_tag(tokens, tagset, tagger) 
```
Encore c'est mieux, mais pas parfait:
```
>>> from nltk import pos_tag
>>> pos_tag("The quick brown fox jumps over the lazy dog".split())
[('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN')]
```
À un certain point, si quelqu'un veut TL;DR solutions, voir https://github.com/alvations/nltk_cli

À long:

Essayez d'utiliser d'autres tagger (voir https://github.com/nltk/nltk/tree/develop/nltk/tag) , par exemple:
- HunPos
- Stanford POS
- Senna
Par défaut à l'aide de MaxEnt POS tagger de NLTK, c'est à dire nltk.pos_tag:
```
>>> from nltk import word_tokenize, pos_tag
>>> text = "The quick brown fox jumps over the lazy dog"
>>> pos_tag(word_tokenize(text))
[('The', 'DT'), ('quick', 'NN'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'NNS'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'NN'), ('dog', 'NN')]
```
À l'aide de Stanford POS tagger:
```
$ cd ~
$ wget http://nlp.stanford.edu/software/stanford-postagger-2015-04-20.zip
$ unzip stanford-postagger-2015-04-20.zip
$ mv stanford-postagger-2015-04-20 stanford-postagger
$ python
>>> from os.path import expanduser
>>> home = expanduser("~")
>>> from nltk.tag.stanford import POSTagger
>>> _path_to_model = home + '/stanford-postagger/models/english-bidirectional-distsim.tagger'
>>> _path_to_jar = home + '/stanford-postagger/stanford-postagger.jar'
>>> st = POSTagger(path_to_model=_path_to_model, path_to_jar=_path_to_jar)
>>> text = "The quick brown fox jumps over the lazy dog"
>>> st.tag(text.split())
[(u'The', u'DT'), (u'quick', u'JJ'), (u'brown', u'JJ'), (u'fox', u'NN'), (u'jumps', u'VBZ'), (u'over', u'IN'), (u'the', u'DT'), (u'lazy', u'JJ'), (u'dog', u'NN')]
```
À l'aide de HunPOS (REMARQUE: le codage par défaut est ISO-8859-1 en utf-8):
```
$ cd ~
$ wget https://hunpos.googlecode.com/files/hunpos-1.0-linux.tgz
$ tar zxvf hunpos-1.0-linux.tgz
$ wget https://hunpos.googlecode.com/files/en_wsj.model.gz
$ gzip -d en_wsj.model.gz 
$ mv en_wsj.model hunpos-1.0-linux/
$ python
>>> from os.path import expanduser
>>> home = expanduser("~")
>>> from nltk.tag.hunpos import HunposTagger
>>> _path_to_bin = home + '/hunpos-1.0-linux/hunpos-tag'
>>> _path_to_model = home + '/hunpos-1.0-linux/en_wsj.model'
>>> ht = HunposTagger(path_to_model=_path_to_model, path_to_bin=_path_to_bin)
>>> text = "The quick brown fox jumps over the lazy dog"
>>> ht.tag(text.split())
[('The', 'DT'), ('quick', 'JJ'), ('brown', 'JJ'), ('fox', 'NN'), ('jumps', 'NNS'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN')]
```
L'utilisation de Senna (assurez-vous que vous avez la dernière version de NLTK, il y avait quelques modifications apportées à l'API):
```
$ cd ~
$ wget http://ronan.collobert.com/senna/senna-v3.0.tgz
$ tar zxvf senna-v3.0.tgz
$ python
>>> from os.path import expanduser
>>> home = expanduser("~")
>>> from nltk.tag.senna import SennaTagger
>>> st = SennaTagger(home+'/senna')
>>> text = "The quick brown fox jumps over the lazy dog"
>>> st.tag(text.split())
[('The', u'DT'), ('quick', u'JJ'), ('brown', u'JJ'), ('fox', u'NN'), ('jumps', u'VBZ'), ('over', u'IN'), ('the', u'DT'), ('lazy', u'JJ'), ('dog', u'NN')]
```
Ou essayez de construire une meilleure POS tagger:
- Ngram Tagger: http://streamhacker.com/2008/11/03/part-of-speech-tagging-with-nltk-part-1/
- Apposer/Regex Tagger: http://streamhacker.com/2008/11/10/part-of-speech-tagging-with-nltk-part-2/
- Construire Votre Propre Brill (Lire le code c'est assez amusant tagger, http://www.nltk.org/_modules/nltk/tag/brill.html), voir http://streamhacker.com/2008/12/03/part-of-speech-tagging-with-nltk-part-3/
- Perceptron Tagger: https://honnibal.wordpress.com/2013/09/11/a-good-part-of-speechpos-tagger-in-about-200-lines-of-python/
- LDA Tagger: http://scm.io/blog/hack/2015/02/lda-intentions/
Se plaint pos_tag précision sur stackoverflow inclure:
Questions sur NLTK HunPos inclure:
- Comment puis-je tag les fichiers texte avec hunpos dans nltk?
- Personne ne sait comment configurer le hunpos classe wrapper sur nltk?
Problèmes avec NLTK et Stanford POS tagger inclure:
- Ouais ouais, aucun modèle n'est parfait, mais cet exemple est assez décevant. Compte tenu de toutes les technologies qui est entré dans cette "recommandé" tagger, il n'est pas déraisonnable de s'attendre à plus.
- Belle démonstration des solutions de rechange, cependant.
- Il a été 3 ans puisque le modèle est de mettre à jour, éventuellement, nous devrions nous poser cette à nltk-dev groupe google: github.com/arne-cl/nltk-maxent-pos-tagger. Et le modèle a été créé il y a 7 ans =( github.com/nltk/nltk/blob/develop/nltk/tag/__init__.py#L84
- Par le regard de celui-ci Stanford et Senna sont supérieures taggeurs, n'est-ce pas?
- Oui, de stanford et de senna tagger sont plus complexes et beaucoup d'efforts ont été mis pour construire les outils de ces deux groupes.
- Merci pour l'incroyable réponse! C'est encore (malheureusement) assez pertinent en 2017, comme j'ai travaillé avec NLTK au cours des derniers mois
- genau. Étant donné un plus grand corpus annoté, il pourrait être possible de parvenir à un meilleur marqueur de l'exactitude.
- mmm..en une phrase qu'il a été correctement le marquage "changement" comme un verbe alors que dans une autre phrase qu'elle était mal marquage "changement" que le nom! bizzare
InformationsquelleAutor alvas

Vous devez vous connecter pour publier un commentaire.