Extraire des sous-chaînes de courrier électronique à partir d'un document volumineux

J'ai une très grande .fichier txt avec des centaines de milliers d'adresses e-mail sont dispersés partout. Ils prennent tous la format:

...<name@domain.com>...

Quelle est la meilleure façon d'avoir de Python pour faire défiler l'ensemble .fichier txt à la recherche pour toutes les instances d'un certain @domaine de chaîne, puis saisir l'intégralité de l'adresse dans le <...>'s, et l'ajouter à une liste? Le problème que j'ai est avec la longueur variable des adresses différentes.

source d'informationauteur user1893148

python string

64

Ce code extrait les adresses e-mail dans une chaîne de caractères. L'utiliser lors de la lecture ligne par ligne
```
>>> import re
>>> line = "should we use regex more often? let me know at  [email protected]"
>>> match = re.search(r'[\w\.-]+@[\w\.-]+', line)
>>> match.group(0)
'[email protected]'
```
Si vous avez plusieurs adresses e-mail utiliser findall:
```
>>> line = "should we use regex more often? let me know at  [email protected]"
>>> match = re.findall(r'[\w\.-]+@[\w\.-]+', line)
>>> match
['[email protected]', '[email protected]']
```
L'expression régulière ci-dessus trouve probablement le plus commun des non-fausse adresse de courriel. Si vous voulez être tout à fait en harmonie avec la RFC 5322 vous devriez vérifier les adresses e-mail suivre le cahier des charges. Vérifier cette pour éviter les bugs dans la recherche d'adresses e-mail correctement.

Edit: comme suggéré dans un commentaire de @kostek:
Dans la chaîne Contact us at [email protected]. ma regex retourne [email protected]. (avec un point à la fin). Pour éviter cela, utilisez [\w\.,]+@[\w\.,]+\.\w+)

Edit II: une autre merveilleuse amélioration a été mentionné dans les commentaires: [\w\.-]+@[\w\.-]+\.\w+qui va capter [email protected] ainsi.
5

Vous pouvez également utiliser la syntaxe suivante pour trouver toutes les adresses e-mail dans un texte et de les imprimer dans un tableau ou chaque e-mail sur une ligne distincte.
```
import re
line = "why people don't know what regex are? let me know [email protected], [email protected] " \
       "[email protected],[email protected]"
match = re.findall(r'[\w\.-]+@[\w\.-]+', line)
for i in match:
    print(i)
```
Si vous souhaitez ajouter à une liste, il suffit d'imprimer le "match"

cela permettra d'imprimer la liste
```
print(match)
```
Espère que cette aide.

Si vous êtes à la recherche pour un domaine spécifique:

>>> import re
>>> text = "this is an email [email protected], it will be matched, [email protected] will not, and [email protected] will"
>>> match = re.findall(r'[\w-\._\+%]+@test\.com',text) # replace test\.com with the domain you're looking for, adding a backslash before periods
>>> match
['[email protected]', '[email protected]']

Voici une autre approche de ce problème spécifique, avec une regex de emailregex.com:

text = "blabla <[email protected]>><[email protected]> <huhu@fake> bla bla <[email protected]>"

# 1. find all potential email addresses (note: < inside <> is a problem)
matches = re.findall('<\S+?>', text)  # ['<[email protected]>', '<[email protected]>', '<huhu@fake>', '<[email protected]>']

# 2. apply email regex pattern to string inside <>
emails = [ x[1:-1] for x in matches if re.match(r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)", x[1:-1]) ]
print emails   # ['[email protected]', '[email protected]', '[email protected]']

Vous devez vous connecter pour publier un commentaire.

Vous pouvez également utiliser la syntaxe suivante pour trouver toutes les adresses e-mail dans un texte et de les imprimer dans un tableau ou chaque e-mail sur une ligne distincte.

cela permettra d'imprimer la liste