Comment dois-je faire à la dépendance de l'analyse en NLTK?

En passant par la NLTK livre, il n'est pas clair comment générer une dépendance de l'arbre à partir d'une phrase donnée.

La section pertinente du livre: sous-chapitre sur la dépendance de la grammaire donne un exemple la figure mais il ne montre pas comment analyser une phrase à venir avec ces relations - ou peut-être que je suis absent quelque chose de fondamental dans la PNL?

EDIT:
Je veux quelque chose de semblable à ce que le stanford parser n':
Une phrase "j'ai tué un éléphant dans mon sommeil", il doit retourner quelque chose comme:

nsubj(shot-2, I-1)
det(elephant-4, an-3)
dobj(shot-2, elephant-4)
prep(shot-2, in-5)
poss(sleep-7, my-6)
pobj(in-5, sleep-7)

Vous pouvez consulter cet exemple. NLTK ne prend pas en charge le type de dépendance.

InformationsquelleAutor MrD | 2011-09-16

78

Nous pouvons utiliser Stanford Parser de NLTK.

Exigences

Vous devez télécharger deux choses à partir de leur site web:
1. La Stanford CoreNLP analyseur.
2. Modèle de langue pour la langue de votre choix (par exemple,langue anglaise modèle)
Attention!

Assurez-vous que votre modèle de langue de la version correspondant à votre Stanford CoreNLP analyseur version!

L'actuel CoreNLP version du 22 Mai 2018 est 3.9.1.

Après avoir téléchargé les deux fichiers, extraire le fichier zip n'importe où vous le souhaitez.

Code Python

Ensuite, chargez le modèle et l'utiliser par le biais de NLTK
```
from nltk.parse.stanford import StanfordDependencyParser

path_to_jar = 'path_to/stanford-parser-full-2014-08-27/stanford-parser.jar'
path_to_models_jar = 'path_to/stanford-parser-full-2014-08-27/stanford-parser-3.4.1-models.jar'

dependency_parser = StanfordDependencyParser(path_to_jar=path_to_jar, path_to_models_jar=path_to_models_jar)

result = dependency_parser.raw_parse('I shot an elephant in my sleep')
dep = result.next()

list(dep.triples())
```
De sortie

La sortie de la dernière ligne est:
```
[((u'shot', u'VBD'), u'nsubj', (u'I', u'PRP')),
 ((u'shot', u'VBD'), u'dobj', (u'elephant', u'NN')),
 ((u'elephant', u'NN'), u'det', (u'an', u'DT')),
 ((u'shot', u'VBD'), u'prep', (u'in', u'IN')),
 ((u'in', u'IN'), u'pobj', (u'sleep', u'NN')),
 ((u'sleep', u'NN'), u'poss', (u'my', u'PRP$'))]
```
Je pense que c'est ce que vous voulez.
- Doit être accepté de répondre, fonctionne pour moi, merci ywat
- Si vous êtes à l'aide de Python 3, l'utilisation de résultat.__prochaine__() à la place de résultat.next()
- next() sur listiterater renvoie une erreur, l'installation de graphviz résolu le problème
- AttributeError: 'Arbre' objet n'a pas d'attribut "triples'
- J'ai également le message d'erreur 'Arbre' objet n'a pas d'attribut "triples'
- Est-il un moyen de maintenir l'ordre des mots dans les résultats?
- Il n'y a pas de parser le fichier correspondant (stanford-parser.jar ou stanford-parser-3.4.1-models.jar) dans le zip téléchargé à partir de nlp.stanford.edu/software/stanford-corenlp-full-2018-02-27.zip. Suis-je à l'aide de lien incorrect ?
- J'ai précisé les fichiers nécessaires (analyseur bocal et modèles) et où vous devez les télécharger à partir de.
- Vous devez ajouter vous avez besoin de 3 choses: le Stanford Parser, le Modèle de Langue et aussi le JDK
- Il ne peut pas regconized punct tels que "?"
InformationsquelleAutor ywat
7

Je pense que vous pouvez utiliser un corpus basé sur la dépendance de l'analyseur à la place de la grammaire basée sur un NLTK fournit.

Faire basé sur un corpus de dépendance analyse sur un même une petite quantité de texte en Python n'est pas l'idéal en terme de performance. Ainsi, dans NLTK, ils ne fournissent un wrapper à MaltParser, un corpus en fonction de la dépendance de l'analyseur.

Vous pourriez trouver cette autre question au sujet de Représentation RDF de phrases pertinentes.

InformationsquelleAutor Neodawn
7

Si vous avez besoin d'une meilleure performance, alors spacy (https://spacy.io/) est le meilleur choix. L'utilisation est très simple:
```
import spacy

nlp = spacy.load('en')
sents = nlp(u'A woman is walking through the door.')
```
Vous obtiendrez une dépendance de l'arbre de sortie, et vous pouvez creuser très facilement toutes les informations dont vous avez besoin. Vous pouvez également définir vos propres conduites. En voir plus sur leur site web.

https://spacy.io/docs/usage/
- Jovanovic, j'ai essayé ce que brièvement, et de l'exactitude a été terrible.
- Précision sur quoi? J'ai trouvé spacy être assez satsfying avec pas trop de phrases complexes, c'est à dire la plupart des phrases que vous pouvez vous attendre à travailler avec. Les modèles sont aussi à l'amélioration de temps en temps, de sorte que vous pourriez donner un coup de feu à nouveau.
InformationsquelleAutor Aleksandar Jovanovic
3

Si vous voulez être sérieux au sujet de la dépendance, l'analyse n'utilisez pas le NLTK, tous les algorithmes sont datés, et lent. Essayez quelque chose comme ceci: https://spacy.io/
- 404 pour moi - doit être vraiment rapide, et un zoom de là
- déplacé vers spacy.io mais je ne sais pas si il comprend un tranier plus...?
InformationsquelleAutor CpILL

À utiliser Stanford Parser de NLTK

1) Exécuter CoreNLP Server at localhost

Télécharger Stanford CoreNLP ici (et aussi le modèle de fichier pour votre langue).
Le serveur peut être démarré en exécutant la commande suivante (pour plus de détails ici)

# Run the server using all jars in the current directory (e.g., the CoreNLP home directory)
java -mx4g -cp "*" edu.stanford.nlp.pipeline.StanfordCoreNLPServer -port 9000 -timeout 15000

ou par NLTK API (besoin de configurer le CORENLP_HOME variable d'environnement en premier)

os.environ["CORENLP_HOME"] = "dir"
client = corenlp.CoreNLPClient()
# do something
client.stop()

2) Appel de la dépendance de l'analyseur de NLTK

>>> from nltk.parse.corenlp import CoreNLPDependencyParser
>>> dep_parser = CoreNLPDependencyParser(url='http://localhost:9000')
>>> parse, = dep_parser.raw_parse(
...     'The quick brown fox jumps over the lazy dog.'
... )
>>> print(parse.to_conll(4))  
The     DT      4       det
quick   JJ      4       amod
brown   JJ      4       amod
fox     NN      5       nsubj
jumps   VBZ     0       ROOT
over    IN      9       case
the     DT      9       det
lazy    JJ      9       amod
dog     NN      5       nmod
.       .       5       punct

Voir le détail la documentation ici, aussi cette question NLTK CoreNLPDependencyParser: Impossible d'établir la connexion.

InformationsquelleAutor dontloo

1

De la Stanford Parser documentation: "les dépendances peuvent être obtenues à l'aide de notre logiciel [...] dans la phrase, la structure des arbres à l'aide de la EnglishGrammaticalStructure classe disponible dans l'analyseur de paquet." http://nlp.stanford.edu/software/stanford-dependencies.shtml

Les dépendances manuel mentionne également: "Ou notre outil de conversion peut convertir les
sortie d'autres circonscription analyseurs de Stanford Dépendances de la représentation." http://nlp.stanford.edu/software/dependencies_manual.pdf

Ni les fonctionnalités semblent être mis en œuvre dans NLTK actuellement.

InformationsquelleAutor Josep Valls

Un peu en retard à la fête, mais je voulais ajouter un exemple de code avec SpaCy qui vous obtient votre sortie désirée:

import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp("I shot an elephant in my sleep")
for token in doc:
    print("{2}({3}-{6}, {0}-{5})".format(token.text, token.tag_, token.dep_, token.head.text, token.head.tag_, token.i+1, token.head.i+1))

Et voici la sortie, très similaire à la sortie souhaitée:

nsubj(shot-2, I-1)
ROOT(shot-2, shot-2)
det(elephant-4, an-3)
dobj(shot-2, elephant-4)
prep(shot-2, in-5)
poss(sleep-7, my-6)
pobj(in-5, sleep-7)

Espère que ça aide!

InformationsquelleAutor cheevahagadog

Vous devez vous connecter pour publier un commentaire.

Exigences

Attention!

Code Python

De sortie