FreqDist dans NLTK pas de tri de sortie

Je suis nouveau sur Python et j'essaie d'apprendre par moi-même le traitement du langage. NLTK en python a une fonction appelée FreqDist qui donne la fréquence des mots dans un texte, mais pour quelque raison il ne fonctionne pas correctement.

C'est ce que le tutoriel a m'écrire:

fdist1 = FreqDist(text1)
vocabulary1 = fdist1.keys()
vocabulary1[:50]

Donc, fondamentalement, c'est censé me donner une liste des 50 mots les plus fréquents dans le texte. Lorsque j'exécute le code, le résultat est le 50 moins fréquentes mots dans l'ordre de moins fréquent plus fréquent, par opposition à l'autre manière autour. La sortie que je reçois est comme suit:

[u'succour', u'four', u'woods', u'hanging', u'woody', u'conjure', u'looking', u'eligible', u'scold', u'unsuitableness', u'meadows', u'stipulate', u'leisurely', u'bringing', u'disturb', u'internally', u'hostess', u'mohrs', u'persisted', u'Does', u'succession', u'tired', u'cordially', u'pulse', u'elegant', u'second', u'sooth', u'shrugging', u'abundantly', u'errors', u'forgetting', u'contributed', u'fingers', u'increasing', u'exclamations', u'hero', u'leaning', u'Truth', u'here', u'china', u'hers', u'natured', u'substance', u'unwillingness...]

Je suis de copier le tutoriel exactement, mais je dois avoir fait quelque chose de mal.

Voici le lien vers le tutoriel:

http://www.nltk.org/book/ch01.html#sec-computing-with-language-texts-and-words

L'exemple est de droite sous le titre "la Figure 1.3: Comptage de Mots Apparaissant dans un Texte (une distribution de fréquence)"

Personne ne sait comment je pourrais résoudre ce problème?

Alors, est-ce votre sortie:

['wonderingly', 'wonderments', 'wondrousness', 'wonst', 'woodcock', 'wooded', 'woodland', 'woodpecker', 'woody', 'wooing', 'woracious', 'wordless', 'worker', 'workers', 'workmen', 'worldly', 'worming', 'worried', 'worryings', 'wounding', 'wounds', 'wrangling', 'wrap', 'wrapall', 'wrapping', 'wreak', 'wreath', 'wrestling', 'wrestlings', 'wretchedly', 'wriggles', 'wring', 'wrinkling', 'writhed', 'wrung', 'yawed', 'yawing', 'yawingly', 'yearly', 'yokes', 'yoking', 'youngest', 'youngish', 'yourselbs', 'zag', 'zay', 'zephyr', 'zig', 'zoned', 'zoology']

?
Ou est l'ordre inversé? Ou êtes-vous d'obtenir quelque chose de complètement différent?
J'obtiens ceci: [u'succour', u'four', u'woods', u'hanging', u'woody', u'conjure', u 'regardant', u'eligible', u'scold', u'unsuitableness', u'meadows', u'stipulate', u'leisurely', u'bringing', u'disturb', u'internally', u'hostess', u'mohrs', u'persisted', u'Does', u'succession', u'tired', u'cordially', u'pulse', u'elegant', u'second', u'sooth', u'shrugging', u'abundantly', u'errors', u'forgetting', u'contributed', u'fingers', u'increasing', u'exclamations', u'hero', u'leaning', u'Truth', u'here', u'china', u hers', u'natured', u'substance', u'unwillingness...]
Je pense que le vôtre est le cinquante dernières les mots par ordre alphabétique. J'ai peut-être tort, mais ce qu'il regarde comme je suis, il est les mots qui apparaissent dans le texte le moins grand nombre de fois
Vous voudrez peut-être consulter votre text1. Comment définissez-vous text1? Je ne obtenir votre sortie dans votre dernier commentaire (à la sortie que vous recherchez) lorsque j'exécute le code dans votre post. La sortie de mon premier commentaire est le cinquante dernières paroles du même texte (comme l'a ordonné par FreqDist).

OriginalL'auteur user3528925 | 2014-04-13

Cette réponse est vieux. Utilisation cette réponse à la place.

Afin de résoudre ce problème, je vous conseille de suivre les étapes suivantes:

1. Vérification de la version de nltk vous utilisez:

>>> import nltk
>>> print nltk.__version__
2.0.4  # preferably 2.0 or higher

Les anciennes versions de nltk n'ont pas sortable FreqDist.keys méthode.

2. Vérifiez que vous n'avez pas par inadvertance, modifié text1 ou vocabulary1:

Ouvrir un nouveau shell et de recommencer le processus à nouveau depuis le début:

>>> from nltk.book import *
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908
>>> from nltk import FreqDist
>>> fdist1 = FreqDist(text1)
>>> vocabulary1 = fdist1.keys()
>>> vocabulary1[:50]
[',', 'the', '.', 'of', 'and', 'a', 'to', ';', 'in', 'that', "'", '-', 'his', 'it', 'I', 's', 'is', 'he', 'with', 'was', 'as', '"', 'all', 'for', 'this', '!', 'at', 'by', 'but', 'not', '--', 'him', 'from', 'be', 'on', 'so', 'whale', 'one', 'you', 'had', 'have', 'there', 'But', 'or', 'were', 'now', 'which', '?', 'me', 'like']

Noter que vocabulary1 ne doit pas contenir la chaîne u'succour' (la première chaîne unicode dans la sortie de votre premier post):

>>> vocabulary1.count(u'succour')  # vocabulary1 does **not** contain the string u'succour'
0

3. Si vous rencontrez toujours des difficultés, d'inspecter le code source de votre texte et des listes pour s'assurer qu'ils correspondent à ce que vous voyez ci-dessous:

>>> import inspect
>>> print inspect.getsource(FreqDist.keys)  # make sure your source code matches the source code below
def keys(self):
"""
Return the samples sorted in decreasing order of frequency.
:rtype: list(any)
"""
self._sort_keys_by_value()
return map(itemgetter(0), self._item_cache)
>>> print inspect.getsource(FreqDist._sort_keys_by_value)  # and matches this source code
def _sort_keys_by_value(self):
if not self._item_cache:
self._item_cache = sorted(dict.items(self), key=lambda x:(-x[1], x[0]))  # <= check this line especially
>>> text1[:40]  # does the first part of your text list match this one?
['[', 'Moby', 'Dick', 'by', 'Herman', 'Melville', '1851', ']', 'ETYMOLOGY', '.', '(', 'Supplied', 'by', 'a', 'Late', 'Consumptive', 'Usher', 'to', 'a', 'Grammar', 'School', ')', 'The', 'pale', 'Usher', '--', 'threadbare', 'in', 'coat', ',', 'heart', ',', 'body', ',', 'and', 'brain', ';', 'I', 'see', 'him']
>>> text1[-40:]  # and what about the end of your text list?
['second', 'day', ',', 'a', 'sail', 'drew', 'near', ',', 'nearer', ',', 'and', 'picked', 'me', 'up', 'at', 'last', '.', 'It', 'was', 'the', 'devious', '-', 'cruising', 'Rachel', ',', 'that', 'in', 'her', 'retracing', 'search', 'after', 'her', 'missing', 'children', ',', 'only', 'found', 'another', 'orphan', '.']

Si votre code source ou les listes de texte ne correspondent pas au-dessus exactement, envisagez l'installation de nltk avec la plus récente version stable.

J'ai fait ce que vous avez dit et a obtenu un résultat différent, mais c'est pas encore le droit 🙁

[u'funereal', u'unscientific', u'divinely', u'foul', u'four', u'gag', u'prefix', u'woods', u'clotted', u'Duck', u'hanging', u'plaudits', u'woody', u'Until', u'marching', u'disobeying', u'canes', u'granting', u'advantage', u'Westers', u'insertion', u'DRYDEN', u'formless', u'Untried', u'superficially', u'Western', u'portentous', u'meadows', u'sinking', u'Ding', u'Spurn', u'treasuries', u'churned', u'oceans', u'invasion', u'powders', u'tinkerings', u'tantalizing', u'yellow'...]

Désolé de l'entendre. J'ai ajouté quatre autres mesures que vous pourriez prendre pour résoudre ce problème, la réponse ci-dessus. Permettez-moi de savoir comment il va.
Le début et la fin du texte sont exactement les mêmes que ceux que vous avez montré. J'ai essayé de lancer la première partie que vous avez écrit, mais il me donne une erreur de syntaxe
Assurez-vous de copier uniquement la première ligne de chaque inspect.getsource() appel. Ce serait donc l'intégralité du script: ligne 1: import inspect, ligne 2: from nltk import FreqDist, ligne 3: print inspect.getsource(FreqDist.keys).
Juste par curiosité, quand vous tapez import nltk puis (sur la ligne suivante) print nltk.__version__, la sortie que vous obtenez?

OriginalL'auteur πόδας ὠκύς

De NLTK de GitHub:

FreqDist dans NLTK3 est un wrapper pour les collections.Compteur; Compteur fournit most_common() méthode pour retourner les articles dans l'ordre. FreqDist.keys() méthode est fournie par la bibliothèque standard; il n'est pas remplacé. Je pense que c'est bon nous sommes deviennent de plus en plus compatible avec stdlib.

docs à googlecode sont très vieux, ils sont à partir de 2011. Plus up-to-date docs peuvent être trouvés sur http://nltk.org site web.

Donc pour NLKT version 3, au lieu de fdist1.keys()[:50], utilisez fdist1.most_common(50).

La tutoriel a également été mis à jour à:

fdist1 = FreqDist(text1)
>>> print(fdist1)
<FreqDist with 19317 samples and 260819 outcomes>
>>> fdist1.most_common(50)
[(',', 18713), ('the', 13721), ('.', 6862), ('of', 6536), ('and', 6024),
('a', 4569), ('to', 4542), (';', 4072), ('in', 3916), ('that', 2982),
("'", 2684), ('-', 2552), ('his', 2459), ('it', 2209), ('I', 2124),
('s', 1739), ('is', 1695), ('he', 1661), ('with', 1659), ('was', 1632),
('as', 1620), ('"', 1478), ('all', 1462), ('for', 1414), ('this', 1280),
('!', 1269), ('at', 1231), ('by', 1137), ('but', 1113), ('not', 1103),
('--', 1070), ('him', 1058), ('from', 1052), ('be', 1030), ('on', 1005),
('so', 918), ('whale', 906), ('one', 889), ('you', 841), ('had', 767),
('have', 760), ('there', 715), ('But', 705), ('or', 697), ('were', 680),
('now', 646), ('which', 640), ('?', 637), ('me', 627), ('like', 624)]
>>> fdist1['whale']
906

Merci Hugo, j'ai aussi été aux prises avec le même problème avec @user3528925 et votre réponse a aidé. Mon NLTK aussi dans la version 3.

OriginalL'auteur Hugo

Comme une alternative à l'utilisation de FreqDist, vous pouvez simplement utiliser Counter de collections, voir aussi https://stackoverflow.com/questions/22952069/how-to-get-the-rank-of-a-word-from-a-dictionary-with-word-frequencies-python/22953416#22953416 :

>>> from collections import Counter
>>> text = """foo foo bar bar foo bar hello bar hello world  hello world hello world hello world  hello world hello hello hello"""
>>> dictionary = Counter(text.split())
>>> dictionary
{"foo":3, "bar":4, "hello":9, "world":5}
>>> dictionary.most_common()
[('hello', 9), ('world', 5), ('bar', 4), ('foo', 3)]
>>> [i[0] for i in dictionary.most_common()]
['hello', 'world', 'bar', 'foo']

OriginalL'auteur alvas

1
```
import nltk
fdist1 = nltk.FreqDist(text)
```
fdist1 contient la "clef" - des mots, des "valeurs" - pour la fréquence nombre de mots.

Ci-dessus variable fdist1 n'est pas triée par conséquent, il ne sera pas imprimé top 50 des résultats basés sur la commande. Veuillez utiliser le code suivant pour la première trier:
```
fdist1 = sorted(fdist1 , key = freq_dist.__getitem__, reverse = True)
fdist1[0:50]
```
Cela permettra d'imprimer le top 50 des mots fréquents.

OriginalL'auteur Kaushik Chowdhury

Vous devez vous connecter pour publier un commentaire.