Python Untokenize une phrase

Il ya tellement de nombreux guides sur la façon de marquer une phrase, mais je ne trouve pas tout sur la façon de faire le contraire.

 import nltk
 words = nltk.word_tokenize("I've found a medicine for my disease.")
 result I get is: ['I', "'ve", 'found', 'a', 'medicine', 'for', 'my', 'disease', '.']

Est-il une fonction que revient la sous peine à l'état initial. La fonction tokenize.untokenize() pour une raison quelconque ne fonctionne pas.

Edit:

Je sais que je peux faire, par exemple, et c'est probablement ce qui résout le problème, mais je suis curieux de savoir est-il une fonction intégrée pour cela:

result = ' '.join(sentence).replace(' , ',',').replace(' .','.').replace(' !','!')
result = result.replace(' ?','?').replace(' : ',': ').replace(' \'', '\'')   
  • Comment avez-vous 've à partir d'une phrase qui est utilisé have? C'est que ce nltk en fait, ou d'une erreur de transcription?
  • J'ai modifié le tokenised résultat. De toute façon c'est pour un cas général, donc vous pouvez le mettre je l'ai dans la phrase originale.
  • Je suis assez sûr que ce que vous demandez n'est pas possible. Si vous avez juste le strict chaînes "I" et "'ve" il est facile pour un homme de regarder et de dire "Oh, les deux doivent aller de pair sans un espace" mais pas simple programme pourrait comprendre cela. Si les pièces d'origine-de-la parole d'informations que NLTK compris de la phrase d'origine était disponible, qui pourrait être utilisé pour untokenize, mais tokenize.untokenize() a été conçu pour fonctionner avec tokenize.tokenize() et pas nltk.tokenize(). Vous voudrez peut-être lire le livre électronique gratuit pour NLTK: nltk.org/book
  • J'ai édité la question de sorte que le texte source est 've de faire correspondre le texte de réponse.
InformationsquelleAutor Brana | 2014-02-22