NLTK Marquer des mots espagnols en utilisant un corpus
Je suis en train d'apprendre comment tag espagnol mots à l'aide de NLTK.
De la nltk livreIl est assez facile de balise de mots anglais à l'aide de leur exemple. Parce que je suis nouveau à nltk et de tous les traitement de la langue, je suis assez confus sur la façon de proceeed.
J'ai téléchargé le cess_esp
corpus. Est-il un moyen de spécifier un corpus nltk.pos_tag
. J'ai regardé la pos_tag
de la documentation et de ne pas le voir tout ce qui a suggéré que je pouvais. Je me sens comme je suis absent quelques concepts clés. Dois-je marquer manuellement les mots dans mon texte contre le cess_esp corpus? (manuellement je veux marquer ma sentance et de l'exécuter à nouveau le corpus) Ou suis-je à côté de la marque entièrement. Merci
source d'informationauteur dm03514
Vous devez vous connecter pour publier un commentaire.
Vous devez d'abord lire l'étiquette phrase à partir d'un corpus. NLTK fournit une interface agréable pour pas s'embêter avec des formats différents pour les différents corps; vous pouvez simplement importer le corpus utiliser le corpus fonctions de l'objet pour accéder aux données. Voir http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml .
Ensuite, vous avez à choisir votre choix de tagger et de former les tagger. Il y a plus de fantaisie options, mais vous pouvez commencer avec la N-gramme taggeurs.
Ensuite, vous pouvez utiliser le marqueur pour repérer la phrase que vous voulez. Voici un exemple de code:
La formation d'un tagger sur un large corpus peut prendre un temps considérable. Au lieu de former un marqueur à chaque fois que nous avons besoin, c'est pratique pour enregistrer une formation de tagger dans un fichier pour une utilisation ultérieure.
Veuillez jeter un oeil à Stockage des Taggeurs section dans http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html
Donné le tutoriel dans la réponse précédente, voici une plus approche orientée objet de spaghettis tagger: https://github.com/alvations/spaghetti-tagger
Le script suivant vous donne une méthode rapide pour obtenir un "sac de mots" en espagnol phrases. Notez que si vous voulez le faire correctement, vous devez marquer les phrases avant de balise, de sorte 'religiosas." doit être séparé en deux jetons "religiosas','.'
Donne: