FreqDist dans NLTK pas de tri de sortie

Je suis nouveau sur Python et j'essaie d'apprendre par moi-même le traitement du langage. NLTK en python a une fonction appelée FreqDist qui donne la fréquence des mots dans un texte, mais pour quelque raison il ne fonctionne pas correctement.

C'est ce que le tutoriel a m'écrire:

fdist1 = FreqDist(text1)
vocabulary1 = fdist1.keys()
vocabulary1[:50]

Donc, fondamentalement, c'est censé me donner une liste des 50 mots les plus fréquents dans le texte. Lorsque j'exécute le code, le résultat est le 50 moins fréquentes mots dans l'ordre de moins fréquent plus fréquent, par opposition à l'autre manière autour. La sortie que je reçois est comme suit:

[u'succour', u'four', u'woods', u'hanging', u'woody', u'conjure', u'looking', u'eligible', u'scold', u'unsuitableness', u'meadows', u'stipulate', u'leisurely', u'bringing', u'disturb', u'internally', u'hostess', u'mohrs', u'persisted', u'Does', u'succession', u'tired', u'cordially', u'pulse', u'elegant', u'second', u'sooth', u'shrugging', u'abundantly', u'errors', u'forgetting', u'contributed', u'fingers', u'increasing', u'exclamations', u'hero', u'leaning', u'Truth', u'here', u'china', u'hers', u'natured', u'substance', u'unwillingness...]

Je suis de copier le tutoriel exactement, mais je dois avoir fait quelque chose de mal.

Voici le lien vers le tutoriel:

http://www.nltk.org/book/ch01.html#sec-computing-with-language-texts-and-words

L'exemple est de droite sous le titre "la Figure 1.3: Comptage de Mots Apparaissant dans un Texte (une distribution de fréquence)"

Personne ne sait comment je pourrais résoudre ce problème?

Alors, est-ce votre sortie: ['wonderingly', 'wonderments', 'wondrousness', 'wonst', 'woodcock', 'wooded', 'woodland', 'woodpecker', 'woody', 'wooing', 'woracious', 'wordless', 'worker', 'workers', 'workmen', 'worldly', 'worming', 'worried', 'worryings', 'wounding', 'wounds', 'wrangling', 'wrap', 'wrapall', 'wrapping', 'wreak', 'wreath', 'wrestling', 'wrestlings', 'wretchedly', 'wriggles', 'wring', 'wrinkling', 'writhed', 'wrung', 'yawed', 'yawing', 'yawingly', 'yearly', 'yokes', 'yoking', 'youngest', 'youngish', 'yourselbs', 'zag', 'zay', 'zephyr', 'zig', 'zoned', 'zoology']?
Ou est l'ordre inversé? Ou êtes-vous d'obtenir quelque chose de complètement différent?
J'obtiens ceci: [u'succour', u'four', u'woods', u'hanging', u'woody', u'conjure', u 'regardant', u'eligible', u'scold', u'unsuitableness', u'meadows', u'stipulate', u'leisurely', u'bringing', u'disturb', u'internally', u'hostess', u'mohrs', u'persisted', u'Does', u'succession', u'tired', u'cordially', u'pulse', u'elegant', u'second', u'sooth', u'shrugging', u'abundantly', u'errors', u'forgetting', u'contributed', u'fingers', u'increasing', u'exclamations', u'hero', u'leaning', u'Truth', u'here', u'china', u hers', u'natured', u'substance', u'unwillingness...]
Je pense que le vôtre est le cinquante dernières les mots par ordre alphabétique. J'ai peut-être tort, mais ce qu'il regarde comme je suis, il est les mots qui apparaissent dans le texte le moins grand nombre de fois
Vous voudrez peut-être consulter votre text1. Comment définissez-vous text1? Je ne obtenir votre sortie dans votre dernier commentaire (à la sortie que vous recherchez) lorsque j'exécute le code dans votre post. La sortie de mon premier commentaire est le cinquante dernières paroles du même texte (comme l'a ordonné par FreqDist).

OriginalL'auteur user3528925 | 2014-04-13