NLTK - Fréquence de comptage de Bigram

C'est un Python et NLTK newbie question.

Je veux trouver la fréquence de bigrams qui se produisent de plus de 10 fois ensemble et ont la plus haute de la PMI.

Pour cela, je travaille avec ce code

def get_list_phrases(text):

    tweet_phrases = []

    for tweet in text:
        tweet_words = tweet.split()
        tweet_phrases.extend(tweet_words)


    bigram_measures = nltk.collocations.BigramAssocMeasures()
    finder = BigramCollocationFinder.from_words(tweet_phrases,window_size = 13)
    finder.apply_freq_filter(10)
    finder.nbest(bigram_measures.pmi,20)  

    for k,v in finder.ngram_fd.items():
      print(k,v)

Toutefois, cela ne limite les résultats à top 20. - Je voir des résultats qui ont de fréquence < 10. Je suis nouveau dans le monde de Python.

Quelqu'un peut s'il vous plaît signaler la façon de modifier ce pour obtenir uniquement le top 20.

Merci

source d'informationauteur jainp