Python Untokenize une phrase

Il ya tellement de nombreux guides sur la façon de marquer une phrase, mais je ne trouve pas tout sur la façon de faire le contraire.

 import nltk
 words = nltk.word_tokenize("I've found a medicine for my disease.")
 result I get is: ['I', "'ve", 'found', 'a', 'medicine', 'for', 'my', 'disease', '.']

Est-il une fonction que revient la sous peine à l'état initial. La fonction tokenize.untokenize() pour une raison quelconque ne fonctionne pas.

Edit:

Je sais que je peux faire, par exemple, et c'est probablement ce qui résout le problème, mais je suis curieux de savoir est-il une fonction intégrée pour cela:

result = ' '.join(sentence).replace(' , ',',').replace(' .','.').replace(' !','!')
result = result.replace(' ?','?').replace(' : ',': ').replace(' \'', '\'')

Comment avez-vous 've à partir d'une phrase qui est utilisé have? C'est que ce nltk en fait, ou d'une erreur de transcription?
J'ai modifié le tokenised résultat. De toute façon c'est pour un cas général, donc vous pouvez le mettre je l'ai dans la phrase originale.
Je suis assez sûr que ce que vous demandez n'est pas possible. Si vous avez juste le strict chaînes "I" et "'ve" il est facile pour un homme de regarder et de dire "Oh, les deux doivent aller de pair sans un espace" mais pas simple programme pourrait comprendre cela. Si les pièces d'origine-de-la parole d'informations que NLTK compris de la phrase d'origine était disponible, qui pourrait être utilisé pour untokenize, mais tokenize.untokenize() a été conçu pour fonctionner avec tokenize.tokenize() et pas nltk.tokenize(). Vous voudrez peut-être lire le livre électronique gratuit pour NLTK: nltk.org/book
J'ai édité la question de sorte que le texte source est 've de faire correspondre le texte de réponse.

InformationsquelleAutor Brana | 2014-02-22

44

Vous pouvez utiliser "treebank detokenizer" - TreebankWordDetokenizer:
```
from nltk.tokenize.treebank import TreebankWordDetokenizer
TreebankWordDetokenizer().detokenize(['the', 'quick', 'brown'])
# 'The quick brown'
```
Il est également MosesDetokenizer qui était dans nltk mais est supprimé en raison de la les questions de licences, mais il est disponible en tant que Sacremoses package autonome.
- Ceci est très utile 🙂 j'espère que plus de gens vont upvote ce
- Il est installable à l'aide de pip install nltk maintenant (v3.2.2).
- merci pour la mise à jour! J'ai mis cette information dans la réponse.
- À l'aide de l comme un nom de variable est source de confusion. J'ai cru qu'il s'agissait d'un 1.
- la droite, qui, cependant, rend la moitié de stackoverflow à confusion 🙂 Modification de data. Merci.
- Le 10 avril 2018, moïse n'est pas disponible dans NLTK en raison d'un problème de licence github.com/nltk/nltk/issues/2000
- Mais il semble avoir été déplacé ici github.com/alvations/sacremoses
- Par @fearwig ci-dessus, ce n'est pas "aujourd'hui" la bonne réponse plus; utiliser les Uri la réponse.
- merci pour le signalement. Mise à jour de la réponse en conséquence.
- Sa belle il y a enfin une solution à ce problème. Moïse est assez rapide à charger, je pense plus vite que NLTK, je n'ai pas testé récemment, mais quand j'ai fait NLTK temps de chargement était de plus de 1 sec, peut-être même les 2 secondes pendant la charge.
InformationsquelleAutor alecxe
11

Pour inverser word_tokenize de nltk, je suggère à la recherche dans http://www.nltk.org/_modules/nltk/tokenize/punkt.html#PunktLanguageVars.word_tokenize et faire un peu de reverse engineering.

Court de faire un fou de hacks sur nltk, vous pouvez essayer ceci:
```
>>> import nltk
>>> import string
>>> nltk.word_tokenize("I've found a medicine for my disease.")
['I', "'ve", 'found', 'a', 'medicine', 'for', 'my', 'disease', '.']
>>> tokens = nltk.word_tokenize("I've found a medicine for my disease.")
>>> "".join([" "+i if not i.startswith("'") and i not in string.punctuation else i for i in tokens]).strip()
"I've found a medicine for my disease."
```
- Merci. Il y a de plus probable des cas, mais jamais l'esprit.
- BTW, il y a un detokenizer dans qui a contribué mais n'a pas encore été fusionnés dans NLTK, ne jetez un oeil à github.com/nltk/nltk/pull/1282
- Mise à jour (Janvier 17): il a été fusionné mais n'a été publié
- Il devrait être publié dans le dernier NLTK 3.2.2 , pip install -U nltk.
InformationsquelleAutor alvas

utilisation token_utils.untokenize de ici

import re
def untokenize(words):
    """
    Untokenizing a text undoes the tokenizing operation, restoring
    punctuation and spaces to the places that people expect them to be.
    Ideally, `untokenize(tokenize(text))` should be identical to `text`,
    except for line breaks.
    """
    text = ' '.join(words)
    step1 = text.replace("`` ", '"').replace(" ''", '"').replace('. . .',  '...')
    step2 = step1.replace(" ( ", " (").replace(" ) ", ") ")
    step3 = re.sub(r' ([.,:;?!%]+)([ \'"`])', r"", step2)
    step4 = re.sub(r' ([.,:;?!%]+)$', r"", step3)
    step5 = step4.replace(" '", "'").replace(" n't", "n't").replace(
         "can not", "cannot")
    step6 = step5.replace(" ` ", " '")
    return step6.strip()

 tokenized = ['I', "'ve", 'found', 'a', 'medicine', 'for', 'my','disease', '.']
 untokenize(tokenized)
 "I've found a medicine for my disease."

Alors que ce lien peut répondre à la question, il est préférable d'inclure les parties essentielles de la réponse et de fournir le lien de référence. Lien-ne répond peut devenir non valide si la page liée changements. - Revue
Suggéré des modifications apportées.

InformationsquelleAutor Renklauf

3
```
from nltk.tokenize.treebank import TreebankWordDetokenizer
TreebankWordDetokenizer().detokenize(['the', 'quick', 'brown'])
# 'The quick brown'
```
- Alors que ce code peut répondre à la question, il est préférable d'expliquer comment résoudre le problème et de fournir le code d'exemple ou de référence. Code-seulement les réponses peuvent être source de confusion et de manque de contexte.
- Il n'y a pas de non-redondantes phrase à ajouter.
InformationsquelleAutor Uri
1

Pour moi, cela a fonctionné quand j'ai installé python nltk 3.2.5,
```
pip install -U nltk
```
puis,
```
import nltk
nltk.download('perluniprops')

from nltk.tokenize.moses import MosesDetokenizer
```
Si vous utilisez l'intérieur des pandas dataframe, puis
```
df['detoken']=df['token_column'].apply(lambda x: detokenizer.detokenize(x, return_str=True))
```
- "'importation nltk; nltk.télécharger('perluniprops'); nltk.télécharger('nonbreaking_prefixes')"'; de nltk.marquer.moïse importation MosesTokenizer; de nltk.marquer.moïse importation MosesDetokenizer; texte = 'Pete a mangé un gros gâteau. Sam a une grande bouche.'; text_ = MosesTokenizer().marquer(texte); texte1 = ' '.join(MosesDetokenizer().detokenize(text_)) # fonctionne pour plusieurs phrases ainsi alors que les autres méthodes (à l'exception de Renklauf s) ne le sont pas.
InformationsquelleAutor Sathyanarayanan Kulasekaran
0

La raison tokenize.untokenize ne fonctionne pas c'est parce qu'il a besoin de plus d'informations que seulement les mots. Voici un exemple de programme utilisant tokenize.untokenize:
```
from StringIO import StringIO
import tokenize

sentence = "I've found a medicine for my disease.\n"
tokens = tokenize.generate_tokens(StringIO(sentence).readline)
print tokenize.untokenize(tokens)
```
Aide Supplémentaire:
Marquer - Python Docs |
Problème Potentiel
- merci, mais je convertir spécifiquement la sortie arrière de la phrase. Est-il possible d'ajouter les informations nécessaires à la tokenizes de sortie ["I", "ai", "trouvé", 'a', 'médecine', 'pour', 'ma', 'maladie', '.']
- Je voudrais faire cela de la façon la mise à jour mais j'ai trouvé ça vraiment étrange que nltk ne dispose pas d'une telle méthode.
- Désolé, je ne suis pas trop familier avec nltk. J'ai essayé de regarder à travers les docs, mais ne pouvais pas trouver untokenize.
- merci. Je n'ai pas eaither j'ai donc pensé que c'était juste moi,
InformationsquelleAutor dparpyani

Je propose de garder des décalages dans la segmentation: (jeton, offset).
Je pense que, cette information est utile pour le traitement au cours de la phrase originale.

import re
from nltk.tokenize import word_tokenize

def offset_tokenize(text):
    tail = text
    accum = 0
    tokens = self.tokenize(text)
    info_tokens = []
    for tok in tokens:
        scaped_tok = re.escape(tok)
        m = re.search(scaped_tok, tail)
        start, end = m.span()
        # global offsets
        gs = accum + start
        ge = accum + end
        accum += end
        # keep searching in the rest
        tail = tail[end:]
        info_tokens.append((tok, (gs, ge)))
    return info_token

sent = '''I've found a medicine for my disease.

This is line:3.'''

toks_offsets = offset_tokenize(sent)

for t in toks_offsets:
(tok, offset) = t
print (tok == sent[offset[0]:offset[1]]), tok, sent[offset[0]:offset[1]]

Donne:

True I I
True 've 've
True found found
True a a
True medicine medicine
True for for
True my my
True disease disease
True . .
True This This
True is is
True line:3 line:3
True . .

InformationsquelleAutor alemol

Je suis à l'aide de code suivant sans fonction de bibliothèque pour detokeization but. Je suis à l'aide de detokenization pour certains jetons

_SPLITTER_ = r"([-.,/:!?\";)(])"

def basic_detokenizer(sentence):
""" This is the basic detokenizer helps us to resolves the issues we created by  our tokenizer"""
detokenize_sentence =[]
words = sentence.split(' ')
pos = 0
while( pos < len(words)):
    if words[pos] in '-/.' and pos > 0 and pos < len(words) - 1:
        left = detokenize_sentence.pop()
        detokenize_sentence.append(left +''.join(words[pos:pos + 2]))
        pos +=1
    elif  words[pos] in '[(' and pos < len(words) - 1:
        detokenize_sentence.append(''.join(words[pos:pos + 2]))   
        pos +=1        
    elif  words[pos] in ']).,:!?;' and pos > 0:
        left  = detokenize_sentence.pop()
        detokenize_sentence.append(left + ''.join(words[pos:pos + 1]))            
    else:
        detokenize_sentence.append(words[pos])
    pos +=1
return ' '.join(detokenize_sentence)

InformationsquelleAutor Asad

0

La raison, il n'existe pas de réponse simple est que vous avez réellement besoin de la durée de lieux de l'original de jetons dans la chaîne. Si vous n'avez pas cela, et vous n'êtes pas d'ingénierie inverse de l'original de votre tokenisation, votre remonté la chaîne est basée sur des suppositions à propos de la segmentation des règles qui ont été utilisés. Si votre générateur de jetons de ne pas donner à vous couvre, vous pouvez toujours le faire si vous avez trois choses:

1) l'original de La chaîne

2) L'original de jetons

3) La modification de jetons (je suis en supposant que vous avez changé les jetons d'une certaine façon, parce que c'est la seule application pour ça, je pense que si vous avez déjà #1)

Utiliser l'original jeton de jeu pour identifier les travées (ne serait-il pas agréable si le tokenizer fait ça?) et modifier la chaîne de l'arrière vers l'avant de sorte que le couvre ne changent pas, comme vous allez.

Ici, je suis en utilisant TweetTokenizer mais il ne devrait pas d'importance aussi longtemps que le générateur de jetons que vous utilisez ne permet pas de modifier les valeurs de vos jetons de sorte qu'ils ne sont pas réellement dans la chaîne d'origine.
```
tokenizer=nltk.tokenize.casual.TweetTokenizer()
string="One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin."
tokens=tokenizer.tokenize(string)
replacement_tokens=list(tokens)
replacement_tokens[-3]="cute"

def detokenize(string,tokens,replacement_tokens):
    spans=[]
    cursor=0
    for token in tokens:
        while not string[cursor:cursor+len(token)]==token and cursor<len(string):
            cursor+=1        
        if cursor==len(string):break
        newcursor=cursor+len(token)
        spans.append((cursor,newcursor))
        cursor=newcursor
    i=len(tokens)-1
    for start,end in spans[::-1]:
        string=string[:start]+replacement_tokens[i]+string[end:]
        i-=1
    return string

>>> detokenize(string,tokens,replacement_tokens)
'One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a cute vermin.'
```
InformationsquelleAutor gss
-2

Utiliser le rejoindre fonction:

Vous pourriez faire un ' '.join(words) pour revenir à la chaîne d'origine.
- Pas vraiment, car il ne devrait pas y avoir un espace entre I et 've.
- Ah ok! Je suis allé par la chaîne d'origine. Peut-être un nltk précis je ne suis pas au courant à propos de.
- Nltk garde le signe de ponctuation, mais il a obtenu quelques places supplémentaires.
InformationsquelleAutor shaktimaan

Vous devez vous connecter pour publier un commentaire.