L'extraction de tous les Noms à partir d'un fichier texte à l'aide nltk

Est-il un moyen plus efficace de faire cela?
Mon code se lit un fichier texte et des extraits de tous les Noms.

import nltk

File = open(fileName) #open file
lines = File.read() #read all lines
sentences = nltk.sent_tokenize(lines) #tokenize sentences
nouns = [] #empty to array to hold all nouns

for sentence in sentences:
     for word,pos in nltk.pos_tag(nltk.word_tokenize(str(sentence))):
         if (pos == 'NN' or pos == 'NNP' or pos == 'NNS' or pos == 'NNPS'):
             nouns.append(word)

Comment puis-je réduire le temps de la complexité de ce code? Est-il un moyen d'éviter d'utiliser les boucles for imbriquées?

Merci d'avance!

Remplacer la condition si avec if pos.startswith('NN'): , également utiliser un set ou collections.Counter, ne le gardez pas une liste. Et faire un peu de map/reduce au lieu d'une compréhension de liste. Sinon, essayez de shallow parsing, aka chunking

InformationsquelleAutor Rakesh Adhikesavan | 2015-11-07

nltk python

17

Si vous êtes ouvert à d'autres options que NLTK, découvrez TextBlob. Il extrait tous les noms et les expressions nominales facilement:
```
>>> from textblob import TextBlob
>>> txt = """Natural language processing (NLP) is a field of computer science, artificial intelligence, and computational linguistics concerned with the inter
actions between computers and human (natural) languages."""
>>> blob = TextBlob(txt)
>>> print(blob.noun_phrases)
[u'natural language processing', 'nlp', u'computer science', u'artificial intelligence', u'computational linguistics']
```
- Vous dites "Il extrait tous les noms et les expressions nominales facilement" mais je ne vois pas l'option pour extraire les noms seulement. Comment pourrais-je avoir les noms, seul, dans votre exemple, comme "ordinateur" ou "science"?
- vous pouvez utiliser blob.tags pour filtrer NN seulement quelque chose comme [n for n,t in blob.tags if t == 'NN'].
- Personnellement, j'ai trouvé que TextBlob n'est pas presque aussi bien que nltk
- Le code peut être plus simple, mais textblob appelle la NLTK pour marquer et tag. Ce pas réduire le "temps de la complexité" de l'OP du code.
InformationsquelleAutor Aziz Alto
13
```
import nltk

lines = 'lines is some string of words'
# function to test if something is a noun
is_noun = lambda pos: pos[:2] == 'NN'
# do the nlp stuff
tokenized = nltk.word_tokenize(lines)
nouns = [word for (word, pos) in nltk.pos_tag(tokenized) if is_noun(pos)] 

print nouns
>>> ['lines', 'string', 'words']
```
Astuce utile: c'est souvent le cas que les interprétations de la liste sont une méthode plus rapide de la construction d'une liste que l'ajout d'éléments à une liste avec les .insert() ou append() la méthode, au sein d'un 'pour' boucle.
- La réponse est un bon train de la pensée. L'utilisation de ce est plus propre: is_noun = lambda pos: True if pos[:2] == 'NN'. Remarque: la Liste de la compréhension n'est pas nécessaire plus rapidement que pour la boucle. C'est juste que vous n'avez pas à matérialiser une liste et de les traiter avec des boucles imbriquées comme des générateurs au lieu de la liste.
- Je n'ai pas utiliser quelque chose comme ... pos[:2] == 'NN'..., car il peut correspondre indésirables des chaînes de caractères. Pour autant que je sache, il y a peut être un pos qui a une valeur de "NNA", et nous ne voulons pas correspondre à ce que. Strictement parlant, le True if et else False pièces ne sont pas nécessaires non plus, mais je les ai inclus pour plus de clarté. Bon point sur les interprétations de la liste n'étant pas forcément plus rapide qu'une boucle (je suppose que j'étais glib, il ya) - j'ai édité le post en conséquence.
- Juste par curiosité, pourriez-vous nous donner un exemple de "NNA'? C'est ainsi que l'on peut faire certaines vérifications dans le NLTK sur d'autres choses ne sont pas liés à cette question bien =) . Techniquement, il ne devrait pas y avoir de balises en dehors de cette tagset: ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
- Le scénario que j'ai présenté était hypothétique, et le point que je faisais était que je ne savais pas, a priori, quelles sont les valeurs de la 'pos' variable peut prendre (peut-être que j'aurais dit quelque chose comme "NNABCDEFG" au lieu de " NNA " pour rendre cette idée plus claire), afin d'être en sécurité, je suis allé avec les paramètres conditionnels qui ont été présentés dans la question d'origine. Que la condition de la ligne, et de toute autre partie de la réponse, je fournis peuvent être modifiés au besoin, je soupçonne que la différence de performances entre le " pos[:2] en variante, et le long conditionnelle que j'ai présenté, est assez marginal.
- bien, j'ai édité le post pour y inclure votre suggestion, pour rendre la réponse plus propre. Acclamations 😉
InformationsquelleAutor Boa

Vous pouvez obtenir de bons résultats en utilisant nltk, Textblob, SpaCy ou une des nombreuses autres bibliothèques. Ces bibliothèques seront tous faire le travail, mais avec différents degrés d'efficacité.

import nltk
from textblob import TextBlob
import spacy
nlp = spacy.load('en')
nlp1 = spacy.load('en_core_web_lg')

txt = """Natural language processing (NLP) is a field of computer science, artificial intelligence, and computational linguistics concerned with the interactions between computers and human (natural) languages."""

Sur mon windows 10 2 cœurs, 4 processeurs, 8GO de ram, i5 hp ordinateur portable, dans jupyter ordinateur portable, j'ai couru quelques comparaisons et voici les résultats.

Pour TextBlob:

%%time
print([w for (w, pos) in TextBlob(txt).pos_tags if pos[0] == 'N'])

Et la sortie est

>>> ['language', 'processing', 'NLP', 'field', 'computer', 'science', 'intelligence', 'linguistics', 'inter', 'actions', 'computers', 'languages']
    Wall time: 8.01 ms #average over 20 iterations

Pour nltk:

%%time
print([word for (word, pos) in nltk.pos_tag(nltk.word_tokenize(txt)) if pos[0] == 'N'])

Et la sortie est

>>> ['language', 'processing', 'NLP', 'field', 'computer', 'science', 'intelligence', 'linguistics', 'inter', 'actions', 'computers', 'languages']
    Wall time: 7.09 ms #average over 20 iterations

Pour spacy:

%%time
print([ent.text for ent in nlp(txt) if ent.pos_ == 'NOUN'])

Et la sortie est

>>> ['language', 'processing', 'field', 'computer', 'science', 'intelligence', 'linguistics', 'inter', 'actions', 'computers', 'languages']
    Wall time: 30.19 ms #average over 20 iterations

Il semble nltk et TextBlob sont raisonnablement plus vite et ce n'est à prévoir puisque store rien d'autre à propos de la saisie de texte, txt. Spacy est beaucoup plus lent. Une chose de plus. SpaCy manqué le nom NLP tout nltk et TextBlob l'a obtenu. Je voudrais lancer pour nltk ou TextBlob sauf si il y a autre chose que je souhaite extraire à partir de l'entrée txt.

Découvrez un démarrage rapide en spacy ici.

Découvrez quelques notions de base sur TextBlob ici.
Découvrez nltk HowTos ici

InformationsquelleAutor Samuel Nde

3

Je ne suis pas un expert en PNL, mais je pense que vous êtes assez proche déjà, et il n'est probablement pas un moyen d'obtenir de mieux que de complexité quadratique du temps dans ces boucles externes ici.

Les versions récentes de NLTK ont une fonction intégrée qui fait ce que vous êtes en train de faire à la main, nltk.la balise.pos_tag_sents, et elle renvoie une liste de listes de tagged mots.

InformationsquelleAutor Will Angley
2

Votre code n'a pas de redondance: Vous lisez le fichier une fois et visiter chaque phrase, et chaque tagged mot, exactement une fois. Peu importe la façon dont vous écrivez votre code (par exemple, l'utilisation des inclusions), vous aurez seulement à se cacher de boucles imbriquées, de ne pas sauter tout traitement.

Le seul potentiel d'amélioration est dans son espace de la complexité: au Lieu de lire le fichier en entier à la fois, vous pouvez lire en tranches. Mais puisque vous avez besoin pour traiter toute une phrase à la fois, il n'est pas aussi simple que la lecture et la transformation d'une ligne à la fois; je ne voudrais pas la peine, sauf si vos fichiers sont des giga-octets de long; pour les courts de fichiers, il ne va pas faire toute la différence.

En bref, vos boucles sont très bien. Il y a une chose ou deux dans votre code que vous pouvez nettoyer (par exemple, la if clause qui correspond à l'ENCAISSEMENT des balises), mais il ne va pas changer quoi que ce soit de l'efficacité-sage.

InformationsquelleAutor alexis

Vous devez vous connecter pour publier un commentaire.