Comment trouver des travées avec une classe spécifique contenant un texte spécifique à l'aide de la belle et la soupe de ré?

comment puis-je trouver tous span avec une classe de 'blue' qui contiennent du texte dans le format:

04/18/13 7:29pm

qui pourraient donc être:

04/18/13 7:29pm

ou:

Posted on 04/18/13 7:29pm

en termes de construction de la logique pour ce faire, c'est ce que j'ai obtenu jusqu'à présent:

new_content = original_content.find_all('span', {'class' : 'blue'}) # using beautiful soup's find_all
pattern = re.compile('<span class=\"blue\">[data in the format 04/18/13 7:29pm]</span>') # using re
for _ in new_content:
    result = re.findall(pattern, _)
    print result

J'ai fait allusion à https://stackoverflow.com/a/7732827 et https://stackoverflow.com/a/12229134 pour essayer de trouver une façon de le faire, mais le dessus est tout ce que j'ai obtenu jusqu'à présent.

edit:

de préciser le scénario, il y span avec:

<span class="blue">here is a lot of text that i don't need</span>

<span class="blue">this is the span i need because it contains 04/18/13 7:29pm</span>

et remarque que je n'ai besoin 04/18/13 7:29pm pas le reste du contenu.

edit 2:

J'ai aussi essayé:

pattern = re.compile('<span class="blue">.*?(\d\d/\d\d/\d\d \d\d?:\d\d\w\w)</span>')
for _ in new_content:
    result = re.findall(pattern, _)
    print result

et a reçu l'erreur:

'TypeError: expected string or buffer'

OriginalL'auteur user1063287 | 2013-04-27

import re
from bs4 import BeautifulSoup

html_doc = """
<html>
<body>
<span class="blue">here is a lot of text that i don't need</span>
<span class="blue">this is the span i need because it contains 04/18/13 7:29pm</span>
<span class="blue">04/19/13 7:30pm</span>
<span class="blue">Posted on 04/20/13 10:31pm</span>
</body>
</html>
"""

# parse the html
soup = BeautifulSoup(html_doc)

# find a list of all span elements
spans = soup.find_all('span', {'class' : 'blue'})

# create a list of lines corresponding to element texts
lines = [span.get_text() for span in spans]

# collect the dates from the list of lines using regex matching groups
found_dates = []
for line in lines:
    m = re.search(r'(\d{2}/\d{2}/\d{2} \d+:\d+[a|p]m)', line)
    if m:
        found_dates.append(m.group(1))

# print the dates we collected
for date in found_dates:
    print(date)

de sortie:

04/18/13 7:29pm
04/19/13 7:30pm
04/20/13 10:31pm

j'ai pu exécuter avec succès le code exact ci-dessus, mais il n'a pas de travail dans ma mise en œuvre. j'ai pensé qu'il pourrait être parce qu'il n'y est une   entre la date et l'heure dans le code source d'origine par exemple 04/18/13 7:29pm. pour référence, j'ai ajouté .replace(" "," ") à l'origine 'urlopen read object' et cela a fonctionné. merci beaucoup (à tous les intervenants!).

OriginalL'auteur Corey Goldberg

C'est un flexible regex que vous pouvez utiliser:

"(\d\d?/\d\d?/\d\d\d?\d?\s*\d\d?:\d\d[a|p|A|P][m|M])"

Exemple:

>>> import re
>>> from bs4 import BeautifulSoup
>>> html = """
<html>
<body>
<span class="blue">here is a lot of text that i don't need</span>
<span class="blue">this is the span i need because it contains 04/18/13 7:29pm</span>
<span class="blue">04/19/13 7:30pm</span>
<span class="blue">04/18/13 7:29pm</span>
<span class="blue">Posted on 15/18/2013 10:00AM</span>
<span class="blue">Posted on 04/20/13 10:31pm</span>
<span class="blue">Posted on 4/1/2013 17:09aM</span>
</body>
</html>
"""
>>> soup = BeautifulSoup(html)
>>> lines = [i.get_text() for i in soup.find_all('span', {'class' : 'blue'})]
>>> ok = [m.group(1)
      for line in lines
        for m in (re.search(r'(\d\d?/\d\d?/\d\d\d?\d?\s*\d\d?:\d\d[a|p|A|P][m|M])', line),)
          if m]
>>> ok
[u'04/18/13 7:29pm', u'04/19/13 7:30pm', u'04/18/13 7:29pm', u'15/18/2013 10:00AM', u'04/20/13 10:31pm', u'4/1/2013 17:09aM']
>>> for i in ok:
    print i

04/18/13 7:29pm
04/19/13 7:30pm
04/18/13 7:29pm
15/18/2013 10:00AM
04/20/13 10:31pm
4/1/2013 17:09aM

OriginalL'auteur pradyunsg

2

Ce modèle semble répondre à ce que vous recherchez:
```
>>> pattern = re.compile('.*?(\d\d/\d\d/\d\d \d\d?:\d\d\w\w)')
>>> pattern.match('here is a lot of text that i dont need')
>>> pattern.match('this is the span i need because it contains 04/18/13 7:29pm').groups()
('04/18/13 7:29pm',)
```
je ne sais pas comment le mettre en oeuvre, j'ai posté le code que j'ai tenté basé sur votre suggestion dans le post original (voir edit 2).
essayez de changer votre troisième ligne à result = pattern.match(_).groups(). re.findall attend une chaîne de caractères(comme la chaîne de caractères que vous utilisez le plus tôt lorsque vous appelez re.compile et à la place que vous lui donnant un déjà compilé regex. Essentiellement, vous êtes en essayant de compiler votre modèle à deux reprises.
Il sonne comme _ n'est pas une chaîne encore, vous allez avoir besoin d'extraire la chaîne de votre _ variable avant de pouvoir utiliser une regex. Je suppose que vous pouvez appeler quelque chose comme _.string, essayer quelques-uns des instructions d'impression, comme print _ et print dir(_) afin de comprendre à quel type de l'objet sur lequel vous travaillez en ce moment.
Corey réponse te donne une explication plus détaillée de la façon dont pour ce faire, la méthode que vous avez besoin d'appeler sur _ était get_text(). Mais il propose une réponse plus complète 🙂
Le AttributeError vous obtenez à partir de quand la regex ne correspond pas à une chaîne, elle retourne None. Cela provoque le code d'appel de None.groups() qui n'existe pas. Corey code de la comptabilité de ce avec sa ligne if m: c'est pourquoi j'ai ordonné à son code. Espérons que cette aide!

OriginalL'auteur Nolen Royalty

Vous devez vous connecter pour publier un commentaire.