La génération aléatoire des phrases de texte personnalisé en Python NLTK?

Je vais avoir des ennuis avec la NLTK sous Python, plus précisément le .méthode generate ().

générer(auto, longueur=100)

Impression de texte aléatoire, généré à l'aide d'un modèle de langage trigramme.

Paramètres:
   * length (int) - The length of text to generate (default=100)

Voici une version simplifiée de ce que je cherche.

import nltk

words = 'The quick brown fox jumps over the lazy dog'
tokens = nltk.word_tokenize(words)
text = nltk.Text(tokens)
print text.generate(3)

Ce sera toujours générer

Building ngram index...
The quick brown
None

Plutôt que de construire une phrase aléatoire de mots.

Voici ma sortie quand je fais

print text.generate()

Building ngram index...
The quick brown fox jumps over the lazy dog fox jumps over the lazy
dog dog The quick brown fox jumps over the lazy dog dog brown fox
jumps over the lazy dog over the lazy dog The quick brown fox jumps
over the lazy dog fox jumps over the lazy dog lazy dog The quick brown
fox jumps over the lazy dog the lazy dog The quick brown fox jumps
over the lazy dog jumps over the lazy dog over the lazy dog brown fox
jumps over the lazy dog quick brown fox jumps over the lazy dog The
None

Nouveau départ avec le même texte, mais a ensuite divers. J'ai aussi essayé d'utiliser le premier chapitre, à partir de 1984 d'Orwell. Encore que toujours commence avec le premier 3 jetons (dont l'une est un espace dans ce cas) et puis continue à générer de façon aléatoire texte.

Ce que je fais mal?

OriginalL'auteur James McMahon | 2009-07-19

Pour générer du texte aléatoire, U besoin d'utiliser Chaînes De Markov

code pour le faire: à partir d'ici

import random
class Markov(object):
def __init__(self, open_file):
self.cache = {}
self.open_file = open_file
self.words = self.file_to_words()
self.word_size = len(self.words)
self.database()
def file_to_words(self):
self.open_file.seek(0)
data = self.open_file.read()
words = data.split()
return words
def triples(self):
""" Generates triples from the given data string. So if our string were
"What a lovely day", we'd generate (What, a, lovely) and then
(a, lovely, day).
"""
if len(self.words) < 3:
return
for i in range(len(self.words) - 2):
yield (self.words[i], self.words[i+1], self.words[i+2])
def database(self):
for w1, w2, w3 in self.triples():
key = (w1, w2)
if key in self.cache:
self.cache[key].append(w3)
else:
self.cache[key] = [w3]
def generate_markov_text(self, size=25):
seed = random.randint(0, self.word_size-3)
seed_word, next_word = self.words[seed], self.words[seed+1]
w1, w2 = seed_word, next_word
gen_words = []
for i in xrange(size):
gen_words.append(w1)
w1, w2 = w2, random.choice(self.cache[(w1, w2)])
gen_words.append(w2)
return ' '.join(gen_words)

Explication:
La génération pseudo-aléatoire de texte avec des chaînes de Markov à l'aide de Python

OriginalL'auteur Lakshman Prasad

7

Vous devriez être en "formation" le modèle de Markov avec plusieurs séquences, alors que précisément l'exemple de l'état de départ des probabilités (appelé "pi" en Markov-parler). Si vous utilisez une séquence unique, alors vous commencez toujours dans le même état.

Dans le cas d'Orwell, 1984, vous pouvez utiliser la segmentation de la phrase en premier (NLTK est très bon dans ce domaine), puis le mot de segmentation en unités (ce qui donne une liste de listes de jetons, pas seulement une simple liste de jetons) et puis les nourrir à chaque phrase séparément pour le modèle de Markov. Cela permettra de bien le modèle de la séquence commence, au lieu d'être bloqué sur un seul façon de commencer la séquence.

OriginalL'auteur drxzcl
1

Votre échantillon du corpus est le plus susceptible d'être trop petit. Je ne sais pas exactement comment nltk construit son trigramme modèle, mais il est de pratique courante que le début et la fin des phrases, sont traitées en quelque sorte. Depuis, il est seulement un début de phrase dans votre corpus cela pourrait être la raison pourquoi chaque phrase a le même début.

Eh bien, c'était un échantillon aux fins de la SORTE. Ma réelle de l'échantillon est plus grande. Alors avez-vous besoin de signes de ponctuation pour compenser les phrases?
Je thoght, mais si vous avez déjà essayé tout un Orwell chapitre (avec la ponctuation je suppose) je suppose que je me trompais.

OriginalL'auteur Mastermind
-1

Peut-être que vous pouvez trier le tableau des jetons de façon aléatoire avant de générer une phrase.

Le NLTK utilise le contexte des mots afin de déterminer leur utilisation. Par exemple, ils ont l'intégralité du texte de "Moby Dick" dans le NLTK pour les fins de l'exemple. À l'aide de générer avec qui permettra de générer de Meville sondage phrases. Donc, sauf si vous savez quelque chose que je ne le fais pas, je suppose que vous ne voulez pas de recourir, pour les paroles, car le contexte initial est important.
vous êtes de droite. Si vous mélangez les mots que vous perdez l'information que les trigrammes sont tout au sujet.

OriginalL'auteur Geo
-1

Êtes-vous sûr que l'utilisation de word_tokenize est la bonne approche?

Google groupes page a l'exemple:
```
>>> import nltk
>>> text = nltk.Text(nltk.corpus.brown.words()) # Get text from brown
>>> text.generate() 
```
Mais je n'ai jamais utilisé nltk, donc je ne peux pas dire si cela fonctionne de la manière que vous voulez.

nltk.le corpus.le brun.(les mots) n'est qu'une collection de mots qui vient avec NLTK. Je suis en train de la graine du générateur avec mes propres mots.
Avez-vous par rapport à votre propre tokenlist avec le brown corpus?

OriginalL'auteur Mark Rushakoff

Vous devez vous connecter pour publier un commentaire.