Analyser le texte pour obtenir les noms propres (noms et organismes) - python nltk

Je suis en train d'extraire les noms propres comme dans les Noms et les noms d'Organisation à partir de très petits morceaux de textes comme les sms, les analyseurs de base disponibles avec nltk Trouver les Noms propres à l'aide de WordNet NLTK sont en mesure d'obtenir les noms mais le problème, c'est quand nous obtenir les noms propres pas commençant par une lettre majuscule , pour les textes, les noms comme sumit ne pas être reconnu comme noms propres

>>> sentence = "i spoke with sumit and rajesh and Samit about the gridlock situation last night @ around 8 pm last nite"
>>> tagged_sent = pos_tag(sentence.split())
>>> print tagged_sent
[('i', 'PRP'), ('spoke', 'VBP'), ('with', 'IN'), **('sumit', 'NN')**, ('and', 'CC'), ('rajesh', 'JJ'), ('and', 'CC'), **('Samit', 'NNP'),** ('about', 'IN'), ('the', 'DT'), ('gridlock', 'NN'), ('situation', 'NN'), ('last', 'JJ'), ('night', 'NN'), ('@', 'IN'), ('around', 'IN'), ('8', 'CD'), ('pm', 'NN'), ('last', 'JJ'), ('nite', 'NN')]

Vous pouvez essayer de truecasing avant d'appliquer le nom de l'entité de reconnaissance.

OriginalL'auteur Brij Raj Singh - MSFT | 2013-10-21

nltk python

2

Vous pouvez avoir un coup d'oeil à python-nameparser.
Il essaie de deviner la capitalisation de noms aussi. Désolé pour la réponse incomplète, mais je n'ai pas beaucoup d'expérience à l'aide de python-nameparser.

Bonne chance!

Eh bien, c'est juste une nameparser comme netgender, aussi longtemps Que vous avez un nom, vous pouvez l'analyser, mais l'idée est d'extraire les noms, peu importe s'ils sont écrits comme des "sommet" ou "Sommet" ou "SOMMET"

OriginalL'auteur Saheel Godhane
8

Il ya une meilleure façon d'extraire les noms de personnes et d'organisations
```
from nltk import pos_tag, ne_chunk
from nltk.tokenize import SpaceTokenizer

tokenizer = SpaceTokenizer()
toks = tokenizer.tokenize(sentence)
pos = pos_tag(toks)
chunked_nes = ne_chunk(pos) 

nes = [' '.join(map(lambda x: x[0], ne.leaves())) for ne in chunked_nes if isinstance(ne, nltk.tree.Tree)]
```
Cependant, tous les de l'Entité Nommée modules de reconnaissance de commettre des erreurs. Si vous ne voulez vraiment pas manquer tout nom propre, vous pouvez utiliser un dictionnaire de Noms propres et de vérifier si le nom est contenu dans le dict.

merci @mbatchkarov si je ne disposons d'un vaste dictionnaire de noms ( j'ai) comment en faire un en python, veuillez en informer votre réponse semble bonne, je vais l'essayer

OriginalL'auteur user278064

essayer ce code

def get_entities(self,args):
    qry = "who is Mahatma Gandhi"
    tokens = nltk.tokenize.word_tokenize(qry)
    pos = nltk.pos_tag(tokens)
    sentt = nltk.ne_chunk(pos, binary = False)
    print sentt
    person = []
    for subtree in sentt.subtrees(filter=lambda t: t.node == 'PERSON'):
        for leave in subtree.leaves():
            person.append(leave)
    print "person=", person

Vous pouvez obtenir des noms de personne, de l'organisation, les lieux avec l'aide de ce ne_chunk() fonction. Espérons que cela aide. Thankz

OriginalL'auteur Gunjan

Vous devez vous connecter pour publier un commentaire.