Le calcul de la Fréquence des mots dans une pandas bloc de données

J'ai un tableau comme ci-dessous:

      URN                   Firm_Name
0  104472               R.X. Yah & Co
1  104873        Big Building Society
2  109986          St James's Society
3  114058  The Kensington Society Ltd
4  113438      MMV Oil Associates Ltd

Et je veux compter la fréquence de tous les mots à l'intérieur de la Firm_Name colonne, pour obtenir un résultat comme ci-dessous:

J'ai essayé le code suivant:

import pandas as pd
import nltk
data = pd.read_csv("X:\Firm_Data.csv")
top_N = 20
word_dist = nltk.FreqDist(data['Firm_Name'])
print('All frequencies')
print('='*60)
rslt=pd.DataFrame(word_dist.most_common(top_N),columns=['Word','Frequency'])

print(rslt)
print ('='*60)

Toutefois, le code suivant n'est pas de produire un unique nombre de mots.

OriginalL'auteur J Reza | 2017-10-17

IIUIC, utilisez value_counts()

In [3361]: df.Firm_Name.str.split(expand=True).stack().value_counts()
Out[3361]:
Society       3
Ltd           2
James's       1
R.X.          1
Yah           1
Associates    1
St            1
Kensington    1
MMV           1
Big           1
&             1
The           1
Co            1
Oil           1
Building      1
dtype: int64

Ou,

pd.Series(np.concatenate([x.split() for x in df.Firm_Name])).value_counts()

Ou,

pd.Series(' '.join(df.Firm_Name).split()).value_counts()

Pour top N, par exemple 3

In [3379]: pd.Series(' '.join(df.Firm_Name).split()).value_counts()[:3]
Out[3379]:
Society    3
Ltd        2
James's    1
dtype: int64

Détails

In [3380]: df
Out[3380]:
      URN                   Firm_Name
0  104472               R.X. Yah & Co
1  104873        Big Building Society
2  109986          St James's Society
3  114058  The Kensington Society Ltd
4  113438      MMV Oil Associates Ltd

Je vais certainement être de l'acceptation de votre réponse. Je suis en attente pour le lait de la réponse ouverte aspect.
.split(expand=True).stack() est vraiment intelligent option sur les données de petite taille, mais il est vite à court de mémoire sur les données de n'importe quelle taille. Depuis, il développe une matrice pour chaque mot unique dans Firm_Name, données de faible densité explose matrice de colonnes sans de nombreuses observations.
Après l'obtention de top N à l'aide de pd.Series(' '.join(df.Firm_Name).split()).value_counts()[:3] Comment puis-je supprimer ces mots de mon dataframe de la colonne?

OriginalL'auteur Zero

Vous avez besoin str.cat avec bas première pour concanecate toutes les valeurs d'un string, alors besoin d' word_tokenize et la dernière utilisation de votre solution:

top_N = 4
#if not necessary all lower
a = data['Firm_Name'].str.lower().str.cat(sep=' ')
words = nltk.tokenize.word_tokenize(a)
word_dist = nltk.FreqDist(words)
print (word_dist)
<FreqDist with 17 samples and 20 outcomes>

rslt = pd.DataFrame(word_dist.most_common(top_N),
                    columns=['Word', 'Frequency'])
print(rslt)
      Word  Frequency
0  society          3
1      ltd          2
2      the          1
3       co          1

Est également possible de supprimer lower si nécessaire:

top_N = 4
a = data['Firm_Name'].str.cat(sep=' ')
words = nltk.tokenize.word_tokenize(a)
word_dist = nltk.FreqDist(words)
rslt = pd.DataFrame(word_dist.most_common(top_N),
                    columns=['Word', 'Frequency'])
print(rslt)
         Word  Frequency
0     Society          3
1         Ltd          2
2         MMV          1
3  Kensington          1

Merci beaucoup excellente solution
Fait merci encore
Ils travaillent tous les deux si
Oui, c'est à vous de savoir quelle réponse est acceptée. Les deux solutions de travail - Zéro solution est de la pure pandas et mon pur ntlk. Et je suppose qu'il devrait y avoir quelques petites différences, ntlk un peu changer des données dans word_tokenize.

OriginalL'auteur jezrael

Vous devez vous connecter pour publier un commentaire.