Comment faire le décompte du nombre de phrases, de mots et de caractères dans un fichier?
J'ai écrit le code suivant pour marquer l'entrée de l'alinéa qui vient du fichier samp.txt. Quelqu'un peut-il m'aider à trouver et imprimer le nombre de phrases, de mots et de caractères dans le fichier? J'ai utilisé NLTK en python pour cela.
>>>import nltk.data
>>>import nltk.tokenize
>>>f=open('samp.txt')
>>>raw=f.read()
>>>tokenized_sentences=nltk.sent_tokenize(raw)
>>>for each_sentence in tokenized_sentences:
... words=nltk.tokenize.word_tokenize(each_sentence)
... print each_sentence #prints tokenized sentences from samp.txt
>>>tokenized_words=nltk.word_tokenize(raw)
>>>for each_word in tokenized_words:
... words=nltk.tokenize.word_tokenize(each_word)
... print each_words #prints tokenized words from samp.txt
Semble homeworky
OriginalL'auteur aks | 2011-02-22
Vous devez vous connecter pour publier un commentaire.
Essayer de cette façon (ce programme suppose que vous travaillez avec un fichier texte dans le répertoire spécifié par
dirpath
):Espère que cette aide
OriginalL'auteur inspectorG4dget
Avec nltk, vous pouvez également utiliser FreqDist (voir O'Reillys Livre Ch3.1)
Et dans votre cas:
OriginalL'auteur TheIdealis
Pour ce que ça vaut si quelqu'un arrive ici. Cela répond à tout ce que l'OP de la question posée, je pense. Si l'on utilise le
textstat
paquet, le comptage des phrases et des personnages est très facile. Il y a une certaine importance pour la ponctuation à la fin de chaque phrase.OriginalL'auteur salvu
Les mots et les phrases que vous aurez probablement besoin d'indiquer clairement votre définition d'une phrase et d'un mot et le programme de pour que.
OriginalL'auteur wilhelmtell
Pas correct à 100%, mais je viens de faire un essai. Je n'ai pas pris tous les points par @wilhelmtell en compte. J'ai essayer une fois que j'ai le temps...
Ici 1.txt est le nom de fichier.
OriginalL'auteur Poorna
Il y a déjà un programme de compter le nombre de mots et de caractères--
wc
.OriginalL'auteur Max E.