Python: Trouver une liste de mots dans un texte et retourne son index

J'ai à traiter un document en texte brut, la recherche d'une liste de mots et de retourner une fenêtre de texte autour de chaque mot trouvé. Je suis en utilisant NLTK.

J'ai trouvé des posts sur un Débordement de Pile où ils utilisent des expressions régulières pour la recherche de mots, mais sans l'obtention de leur index, il vous suffit de les imprimer. Je ne pense pas que l'utilisation de RÉ est à droite, la cause je dois trouver des mots spécifiques.

Vous devriez utiliser des expressions régulières..
> je ne pense pas que l'utilisation de RÉ est à droite, la cause je dois trouver des mots spécifiques. Vous n'avez pas à trouver des mots à l'aide d'expressions régulières.... et, habituellement, vous pouvez trouver tout ce que vous cherchez en utilisant des expressions régulières lors de l'analyse de texte. Vous devez simplement s'en tenir à l'aide d'expressions régulières. Et aussi, s'il vous plaît poster un exemple de code que vous essayez de faire, ou le genre de chose que vous voulez être en mesure de trouver dans le texte que vous soyez à la recherche. Et qu'avez-vous essayé?
Quelle est la question?
docs.python.org/2/library/re.html#re.MatchObject.start
Désolé ce n'était pas clair, c'est mon premier message. J'ai trouvé un mot avec str.trouver, puis de la fenêtre facilement. Mais j'ai beaucoup de mots, qui peut être répété. Donc, une fois que je trouve la première occurrence d'un mot, comment je peux trouver le deuxième, sans modifier le texte?
Ainsi vous pouvez capturer en tant que groupe et de définir une variable pour qu', puis recherchez

InformationsquelleAutor adrisons | 2013-01-13

C'est ce que vous cherchez:

Vous pouvez soit utiliser str.de l'index ou de la str.trouver:

Contenu du fichier:

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Morbi sollicitudin tortor et velit venenatis molestie. Morbi non nibh magna, quis tempor metus. 
Vivamus vehicula velit sit amet neque posuere id hendrerit sem venenatis. Nam vitae felis sem. Mauris ultricies congue mi, eu ornare massa convallis nec. 
Donec volutpat molestie velit, scelerisque porttitor dui suscipit vel. Etiam feugiat feugiat nisl, vitae commodo ligula tristique nec. Fusce bibendum fermentum rutrum.

>>>a = open("file.txt").read()

>>>print a.index("vitae")
232
>>> print a.find("vitae")
232

--Edit--

Ok, si vous avez des mêmes mots dans de multiples indices essayez d'utiliser un générateur,

def all_occurences(file, str):
    initial = 0
    while True:
        initial = file.find(str, initial)
        if initial == -1: return
        yield initial
        initial += len(str)


>>>print list(all_occurences(open("file.txt").read(),"vitae"))
[232, 408]

Comment trouver la deuxième occurrence de vitae?
édité réponse, espéré, il a aidé.
C'est ce que je cherchais, merci! ^-^

InformationsquelleAutor enginefree

1

Si je comprends bien, la construction d'un index de position est ce que vous voulez
```
from collections import defaultdict

text = "your text goes here"
pos_index = defaultdict(list)
for pos, term in enumerate(text.split()):
    pos_index[term].append(pos)
```
Maintenant, vous avez un indice pour chaque mot, ses positions. Juste l'interroger en terme..
- Je vous remercie. Je vais étudier cette possibilité, mais j'essaie de trouver quelques mots dans un texte. Je ne peut pas avoir bien expliqué, je pourrais faire un dictionnaire que vous faites, mais avec les occurrences de certains mots dans un texte, plutôt que pour tous les mots du texte.
InformationsquelleAutor hymloth
1

essayer cela, où log est le txt et word_search est le terme que vous essayez d'index dans log
```
 [i for i, item in enumerate(log) if item == word_search]
```
InformationsquelleAutor as - if
1

Je sais que sa fait un moment depuis que vous avez posé la question, mais puisque vous êtes déjà à l'aide de nltk je vous suggérons d'utiliser son outil de word_tokenize:
```
text = 'Lorem ipsum dolor sit amet, consectetur adipiscing elit.'
for index, word in enumerate(nltk.word_tokenize(text)):
  print(index, word)
```
Le résultat serait:

0 Lorem
1 ipsum
2 dolor
3 sit
4 amet
5 ,
6 consectetur
7 adipiscing
8 elit
9 .

Espère que cela aide 🙂

InformationsquelleAutor user10316229

Vous devez vous connecter pour publier un commentaire.