Comment modifier la NLTK phrase tokenizer

Je suis en utilisant NLTK pour analyser quelques textes classiques et je suis en cours d'exécution pour la difficulté à la segmentation du texte en une phrase. Par exemple, voici ce que je reçois pour un extrait de Moby Dick:

import nltk
sent_tokenize = nltk.data.load('tokenizers/punkt/english.pickle')

'''
(Chapter 16)
A clam for supper? a cold clam; is THAT what you mean, Mrs. Hussey?" says I, "but
that's a rather cold and clammy reception in the winter time, ain't it, Mrs. Hussey?"
'''
sample = 'A clam for supper? a cold clam; is THAT what you mean, Mrs. Hussey?" says I, "but that\'s a rather cold and clammy reception in the winter time, ain\'t it, Mrs. Hussey?"'

print "\n-----\n".join(sent_tokenize.tokenize(sample))
'''
OUTPUT
"A clam for supper?
-----
a cold clam; is THAT what you mean, Mrs.
-----
Hussey?
-----
" says I, "but that\'s a rather cold and clammy reception in the winter time, ain\'t it, Mrs.
-----
Hussey?
-----
"
'''

Je ne pas attendre à la perfection ici, considérant que la nouvelle de Melville syntaxe est un peu daté, mais NLTK devrait être capable de gérer le terminal des guillemets, et des titres comme "Madame" Depuis le tokenizer est le résultat de l'apprentissage non supervisé algo, cependant, je ne peux pas comprendre comment bricoler avec elle.

Quelqu'un a des recommandations pour une meilleure phrase générateur de jetons? Je préfère une simple heuristique que je peux pirater plutôt que d'avoir à former mon propre analyseur.

InformationsquelleAutor Chris Wilson | 2012-12-30

44

Vous devez fournir une liste des abréviations pour le tokenizer, comme suit:
```
from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameters
punkt_param = PunktParameters()
punkt_param.abbrev_types = set(['dr', 'vs', 'mr', 'mrs', 'prof', 'inc'])
sentence_splitter = PunktSentenceTokenizer(punkt_param)
text = "is THAT what you mean, Mrs. Hussey?"
sentences = sentence_splitter.tokenize(text)
```
phrases est maintenant:
```
['is THAT what you mean, Mrs. Hussey?']
```
Mise à jour: Cela ne fonctionne pas si le dernier mot de la phrase a une apostrophe ou guillemet attachés (comme Hussey?'). Ainsi, une rapide et sale moyen de contourner cela est de placer des espaces devant les apostrophes et les guillemets qui suivent phrase-symboles de fin de (.!?):
```
text = text.replace('?"', '? "').replace('!"', '! "').replace('."', '. "')
```
- Ah, bon à savoir. Étrangement, cela ne fonctionne pas, si je lance la phrase complète à ma question par le biais de votre solution. Aucune idée pourquoi?
- Juste ajouté un peu plus d'info dans la réponse.
- J'ai généralement éviter la "grâce" des commentaires, mais là il est vraiment à l'endroit: merci!
- Comment gérez-vous le cas particulier où la phrase a une apostrophe, mais vous voulez obtenir les compensations? c'est à dire à l'aide de span_tokenize méthode . La solution de contournement proposée changements de l'origine des décalages.
- Le problème avec cette réponse, c'est qu'il n'a pas "bidouiller" les anglais générateur de jetons. Vous allez perdre beaucoup d'autres fonctionnalités que vous voudrez si vous en créer un à partir de zéro. Voir stackoverflow.com/a/25375857/4582054
InformationsquelleAutor vpekar
29

Vous pouvez modifier le NLTK de la pré-formation des phrases en anglais générateur de jetons de reconnaître plus d'abréviations en les ajoutant à l'ensemble _params.abbrev_types. Par exemple:
```
extra_abbreviations = ['dr', 'vs', 'mr', 'mrs', 'prof', 'inc', 'i.e']
sentence_tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
sentence_tokenizer._params.abbrev_types.update(extra_abbreviations)
```
Noter que les abréviations doivent être spécifiées sans la dernière période, mais n'incluent les périodes, comme dans 'i.e' ci-dessus. Pour plus de détails sur les autres tokenizer paramètres, reportez-vous à la documentation pertinente.
- Ce doit être la première réponse. Si vous venez de créer un nouveau générateur de jetons que vous n'obtenez pas toutes les fonctionnalités existantes de l'anglais générateur de jetons.
- Il ne semble pas fonctionner pour moi, alors que la partie supérieure de réponse n'.
- Vous avez à l'utiliser comme ceci: sentence_tokenizer.tokenize(text)
InformationsquelleAutor bjmc

Vous pouvez dire à l' PunktSentenceTokenizer.tokenize méthode pour inclure le "terminal" entre guillemets doubles avec le reste de la phrase par le réglage de la realign_boundaries paramètre True. Voir le code ci-dessous pour un exemple.

Je ne sais pas un moyen propre à empêcher que le texte comme Mrs. Hussey est divisée en deux phrases. Cependant, voici un hack qui

mangles toutes les occurrences de Mrs. Hussey à Mrs._Hussey,
puis divise le texte en phrases avec sent_tokenize.tokenize,
ensuite, pour chaque phrase, unmangles Mrs._Hussey retour à Mrs. Hussey

Je souhaite que je connaissais une meilleure façon, mais cela peut fonctionner dans un pincement.

import nltk
import re
import functools

mangle = functools.partial(re.sub, r'([MD]rs?[.]) ([A-Z])', r'_')
unmangle = functools.partial(re.sub, r'([MD]rs?[.])_([A-Z])', r' ')

sent_tokenize = nltk.data.load('tokenizers/punkt/english.pickle')

sample = '''"A clam for supper? a cold clam; is THAT what you mean, Mrs. Hussey?" says I, "but that\'s a rather cold and clammy reception in the winter time, ain\'t it, Mrs. Hussey?"'''    

sample = mangle(sample)
sentences = [unmangle(sent) for sent in sent_tokenize.tokenize(
    sample, realign_boundaries = True)]    

print u"\n-----\n".join(sentences)

rendements

"A clam for supper?
-----
a cold clam; is THAT what you mean, Mrs. Hussey?"
-----
says I, "but that's a rather cold and clammy reception in the winter time, ain't it, Mrs. Hussey?"

Juste ce dont j'avais besoin, merci à vous!
Mise à jour: comptes Consolidés partie de cette réponse avec celle ci-dessus

InformationsquelleAutor unutbu

2

Donc j'ai eu un problème similaire et essayé vpekar la solution ci-dessus.

Peut-être la mienne est une sorte de cas limite, mais j'ai observé le même comportement après l'application de l'remplacements, cependant, quand j'ai essayé de remplacer la ponctuation avec les citations placées devant eux, j'ai eu la sortie que je cherchais. Sans doute le manque d'adhésion à la LBA est moins importante que la conservation de l'original de la citation comme une seule phrase.

Pour être plus clair:
```
text = text.replace('?"', '"?').replace('!"', '"!').replace('."', '".')
```
Si MLA est important cependant, vous pouvez toujours revenir en arrière et d'annuler ces changements à chaque fois qu'il le faut.

InformationsquelleAutor aidankmcl

Vous devez vous connecter pour publier un commentaire.