Fréquence de comptage des mots dans une liste et de les trier par fréquence

Je suis à l'aide de Python 3.3

J'ai besoin de créer deux listes, l'une pour les mots et l'autre pour les fréquences de la parole.

Je dois l'unique liste de mots basé sur les fréquences de la liste, de sorte que la parole avec la fréquence la plus élevée est le premier dans la liste.

J'ai de la conception dans le texte, mais je suis pas sûr de savoir comment l'implémenter en Python.

Les méthodes que j'ai trouvé jusqu'à présent d'utiliser soit Counter ou les dictionnaires que nous n'avons pas appris. J'ai déjà créé la liste à partir du fichier contenant tous les mots, mais ne savez pas comment trouver la fréquence de chaque mot dans la liste. Je sais que j'ai besoin d'une boucle pour le faire, mais ne peut pas le comprendre.

Voici le dessin de base:

 original list = ["the", "car",....]
 newlst = []
 frequency = []
 for word in the original list
       if word not in newlst:
           newlst.append(word)
           set frequency = 1
       else
           increase the frequency
 sort newlst based on frequency list

il est difficile pour nous de savoir ce que vous savez. Avez-vous appris set? le count méthode de listes? etc. Lié le problème dans les termes significatifs.
Pourquoi n'êtes-vous pas autorisés à utiliser des choses que vous n'avez pas été enseigné? Est d'apprendre à l'avance découragé ces jours-ci?
Trie serait assez alternative efficace. Vous pouvez en construire un avec des listes
Veuillez envisager d'accepter une réponse.

InformationsquelleAutor user3088605 | 2013-12-11

132

utiliser cette

from collections import Counter
list1=['apple','egg','apple','banana','egg','apple']
counts = Counter(list1)
print(counts)
# Counter({'apple': 3, 'egg': 2, 'banana': 1})

stellaire solution

InformationsquelleAutor Ashif Abdulrahman

Vous pouvez utiliser

from collections import Counter

Il prend en charge Python 2.7，lire plus d'informations ici

>>>c = Counter('abracadabra')
>>>c.most_common(3)
[('a', 5), ('r', 2), ('b', 2)]

utiliser dict

>>>d={1:'one', 2:'one', 3:'two'}
>>>c = Counter(d.values())
[('one', 2), ('two', 1)]

Mais, Vous avez qu'à lire le premier fichier, et converti dict.

2.
c'est le python docs exemple,l'utilisation de re et de Contre

# Find the ten most common words in Hamlet
>>> import re
>>> words = re.findall(r'\w+', open('hamlet.txt').read().lower())
>>> Counter(words).most_common(10)
[('the', 1143), ('and', 966), ('to', 762), ('of', 669), ('i', 631),
 ('you', 554),  ('a', 546), ('my', 514), ('hamlet', 471), ('in', 451)]

InformationsquelleAutor tdolydong

16
```
words = file("test.txt", "r").read().split() #read the words into a list.
uniqWords = sorted(set(words)) #remove duplicate words and sort
for word in uniqWords:
    print words.count(word), word
```
- Un grand pythonian façon!
- avez-vous tester le code avec de gros fichiers? Si le fichier est trop volumineux, il vous en coûtera beaucoup de temps. la collection est plus efficace.
- Ceci est inférieure à Counter. Vous jeter inutilement loin du compte quand vous ne set(words), alors à chaque fois que vous en avez besoin le nombre de comptes que vous avez à regarder avec words.count(word), qui sera inefficace esp. pour les grands textes.
InformationsquelleAutor kyle k

Vous pouvez utiliser de réduire() - Une façon fonctionnelle.

words = "apple banana apple strawberry banana lemon"
reduce( lambda d, c: d.update([(c, d.get(c,0)+1)]) or d, words.split(), {})

retourne:

{'strawberry': 1, 'lemon': 1, 'apple': 2, 'banana': 2}

InformationsquelleAutor Gadi

Encore une autre solution avec un autre algorithme, sans l'aide de collections:

def countWords(A):
   dic={}
   for x in A:
       if not x in  dic:        #Python 2.7: if not dic.has_key(x):
          dic[x] = A.count(x)
   return dic

dic = countWords(['apple','egg','apple','banana','egg','apple'])
sorted_items=sorted(dic.items())   # if you want it sorted

InformationsquelleAutor Reza Abtin

Un autre moyen serait de faire une liste de listes, chaque sous-liste dans la nouvelle liste contenant un mot et un count:

list1 = []    #this is your original list of words
list2 = []    #this is a new list

for word in list1:
    if word in list2:
        list2.index(word)[1] += 1
    else:
        list2.append([word,0])

Ou, de manière plus efficace:

for word in list1:
    try:
        list2.index(word)[1] += 1
    except:
        list2.append([word,0])

Ce serait moins efficace que l'utilisation d'un dictionnaire, mais il utilise des concepts plus fondamentaux.

InformationsquelleAutor Milo P supports GoFundMonica

À l'aide de Compteur serait le meilleur moyen, mais si vous ne voulez pas le faire, vous pouvez la mettre en œuvre vous-même de cette façon.

# The list you already have
word_list = ['words', ..., 'other', 'words']
# Get a set of unique words from the list
word_set = set(word_list)
# create your frequency dictionary
freq = {}
# iterate through them, once per unique word.
for word in word_set:
    freq[word] = word_list.count(word) / float(len(word_list))

freq va se retrouver avec la fréquence de chaque mot dans la liste que vous avez déjà.

Vous avez besoin float là-bas pour convertir l'une des entiers d'un flotteur, de sorte que la valeur résultante sera un flotteur.

Edit:

Si vous ne pouvez pas utiliser un dictionnaire ou d'un ensemble, voici une autre voie moins efficace:

# The list you already have
word_list = ['words', ..., 'other', 'words']
unique_words = []
for word in word_list:
    if word not in unique_words:
        unique_words += [word]
word_frequencies = []
for word in unique_words:
    word_frequencies += [float(word_list.count(word)) / len(word_list)]
for i in range(len(unique_words)):
    print(unique_words[i] + ": " + word_frequencies[i])

La indicies de unique_words et word_frequencies sera à la hauteur.

InformationsquelleAutor johannestaas

1

L'idéal est d'utiliser un dictionnaire de cartes en un mot, c'est compter. Mais si vous ne pouvez pas l'utiliser, vous pouvez utiliser les 2 listes - 1 de stocker les mots, et de l'autre un stockage des comtes de mots. Notez que l'ordre des mots et compte les questions ici. La mise en œuvre de ce serait dur et pas très efficace.
- Il s'avère que j'ai à faire à la dure j'ai donc besoin de deux listes. J'ai les mots stockés, mais vous ne savez pas comment enregistrer les fréquences dans un sens que je vais être capable de trier la liste de mots basé sur la liste de fréquence.
InformationsquelleAutor KGo
1

Pandas réponse:
```
import pandas as pd
original_list = ["the", "car", "is", "red", "red", "red", "yes", "it", "is", "is", "is"]
pd.Series(original_list).value_counts()
```
Si vous voulait dans l'ordre croissant au lieu de cela, c'est aussi simple que:
```
pd.Series(original_list).value_counts().sort_values(ascending=True)
```
- Il y a onze réponses à cette question et vous avez décidé de la faire cadrer avec une suggestion pour l'utilisation des Pandas, même si l'OP a fait aucune référence. Notons seulement que, mais vous avez tout simplement collé le code, sans beaucoup d'explications sur les mérites relatifs de votre proposition de solution.
- L'OP ne sais pas comment calculer le nombre de la fréquence des mots et de les trier en fonction de la fréquence. Je suggère simplement une façon de le faire avec des pandas au lieu de collections.Le compteur. Maintenant, si une autre personne utilise ce post pour les aider dans leur situation et sont déjà familiers avec les pandas ou arrive de travailler avec un pd.DataFrame (), où les colonnes sont des pd.Série(), ce poste serait très utile. Même nombre de lignes que la meilleure réponse, juste une façon différente de le faire.
InformationsquelleAutor Michaelpanicci

Essayez ceci:

words = []
freqs = []

for line in sorted(original list): #takes all the lines in a text and sorts them
    line = line.rstrip() #strips them of their spaces
    if line not in words: #checks to see if line is in words
        words.append(line) #if not it adds it to the end words
        freqs.append(1) #and adds 1 to the end of freqs
    else:
        index = words.index(line) #if it is it will find where in words
        freqs[index] += 1 #and use the to change add 1 to the matching index in freqs

InformationsquelleAutor Paige Goulding

Voici le code à votre question
is_char() case pour valider la chaîne de compter ces chaînes seul, Hashmap est dictionnaire en python

def is_word(word):
   cnt =0
   for c in word:

      if 'a' <= c <='z' or 'A' <= c <= 'Z' or '0' <= c <= '9' or c == '$':
          cnt +=1
   if cnt==len(word):
      return True
  return False

def words_freq(s):
  d={}
  for i in s.split():
    if is_word(i):
        if i in d:
            d[i] +=1
        else:
            d[i] = 1
   return d

 print(words_freq('the the sky$ is blue not green'))

InformationsquelleAutor skay

-2

la meilleure chose à faire est de :
```
def wordListToFreqDict(wordlist):
    wordfreq = [wordlist.count(p) for p in wordlist]
    return dict(zip(wordlist, wordfreq))
```
puis essayez de :
wordListToFreqDict(originallist)
- Ce n'est pas la "meilleure" façon de le faire. Vous avez seulement besoin de faire une seule passe sur le texte de compter la fréquence des mots, alors qu'ici vous faire un passe pour chaque mot unique.
- Il n'a même pas ajouter de la contrainte pour chaque mot unique.
InformationsquelleAutor M7hegazy

Vous devez vous connecter pour publier un commentaire.