Analyser le texte pour obtenir les noms propres (noms et organismes) - python nltk
Je suis en train d'extraire les noms propres comme dans les Noms et les noms d'Organisation à partir de très petits morceaux de textes comme les sms, les analyseurs de base disponibles avec nltk Trouver les Noms propres à l'aide de WordNet NLTK sont en mesure d'obtenir les noms mais le problème, c'est quand nous obtenir les noms propres pas commençant par une lettre majuscule , pour les textes, les noms comme sumit ne pas être reconnu comme noms propres
>>> sentence = "i spoke with sumit and rajesh and Samit about the gridlock situation last night @ around 8 pm last nite"
>>> tagged_sent = pos_tag(sentence.split())
>>> print tagged_sent
[('i', 'PRP'), ('spoke', 'VBP'), ('with', 'IN'), **('sumit', 'NN')**, ('and', 'CC'), ('rajesh', 'JJ'), ('and', 'CC'), **('Samit', 'NNP'),** ('about', 'IN'), ('the', 'DT'), ('gridlock', 'NN'), ('situation', 'NN'), ('last', 'JJ'), ('night', 'NN'), ('@', 'IN'), ('around', 'IN'), ('8', 'CD'), ('pm', 'NN'), ('last', 'JJ'), ('nite', 'NN')]
Vous pouvez essayer de truecasing avant d'appliquer le nom de l'entité de reconnaissance.
OriginalL'auteur Brij Raj Singh - MSFT | 2013-10-21
Vous devez vous connecter pour publier un commentaire.
Vous pouvez avoir un coup d'oeil à python-nameparser.
Il essaie de deviner la capitalisation de noms aussi. Désolé pour la réponse incomplète, mais je n'ai pas beaucoup d'expérience à l'aide de python-nameparser.
Bonne chance!
OriginalL'auteur Saheel Godhane
Il ya une meilleure façon d'extraire les noms de personnes et d'organisations
Cependant, tous les de l'Entité Nommée modules de reconnaissance de commettre des erreurs. Si vous ne voulez vraiment pas manquer tout nom propre, vous pouvez utiliser un dictionnaire de Noms propres et de vérifier si le nom est contenu dans le dict.
OriginalL'auteur user278064
essayer ce code
Vous pouvez obtenir des noms de personne, de l'organisation, les lieux avec l'aide de ce ne_chunk() fonction. Espérons que cela aide. Thankz
OriginalL'auteur Gunjan