L'analyse de page web en python à l'aide de Magnifiques Soupe

J'ai quelques problèmes avec l'obtention de données à partir du site web. Le site de la source est ici:

view-source:http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO

il y a qqch comme ceci:

INFORMACJE O FILMIE

Tytuł............................................: La mer à boire

Ocena.............................................: IMDB - 6.3/10 (24)

Produkcja.........................................: Francja

Gatunek...........................................: L

Czas
trwania......................................:
98 min.

Premiera..........................................: 22.02.2012 - Świat

Reżyseria........................................: Jacques Maillot

Scenariusz........................................: Pierre Chosson, Jacques Maillot

Aktorzy...........................................: Daniel Auteuil, Maud Wyler, Yann Trégouët,
Alain Beigel

Et je veux obtenir les données à partir de ce site web pour avoir une liste Python de chaînes:

[[Tytuł, "La mer à boire"]
[Ocena, "IMDB - 6.3/10 (24)"]
[Produkcja, Francja]
[Gatunek, Dramat]
[Czas trwania, 98 min.]
[Premiera, "22.02.2012 - Świat"]
[Reżyseria, "Jacques Maillot"]
[Scenariusz, "Pierre Chosson, Jacques Maillot"]
[Aktorzy, "Daniel Auteuil, Maud Wyler, Yann Trégouët, Alain Beigel"]]

J'ai écrit un code en utilisant BeautifulSoup, mais je ne peux pas aller plus loin, je ne sais pas ce que pour obtenir le reste à partir du site web de la source et convertir est à la chaîne ...
S'il vous plaît, à l'aide!

Mon code:

    # -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib2
from bs4 import BeautifulSoup

try :
    web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
    soup = BeautifulSoup(web_page)
    c = soup.find('span', {'class':'vi'}).contents
    print(c)
except urllib2.HTTPError :
    print("HTTPERROR!")
except urllib2.URLError :
    print("URLERROR!")

HTML est structurée - si vous regardez le code source de la page, vous remarquerez modèles (regardez pour les classes/ou un h2 à la suite d'une div, etc...), et puis essayer de travailler sur ce que la logique vous avez besoin d'extraire les données et si vous avez encore des problèmes de l'écriture du code, quelqu'un sera en mesure d'aider
Bon point:) j'ai écrit qqch comme ceci: ||c = soupe.find('span', {'class':'vi'}).contenu|| mais il ne trouve que le premier 'span' élément mais que diriez-vous de reste d'entre eux? Comment les faire sortir et de le convertir en chaîne de valeur?
Jetez un oeil à soup.findAll

OriginalL'auteur mazix | 2012-06-27

Le secret de l'utilisation de BeautifulSoup est de trouver des modèles cachés de votre document HTML. Par exemple, votre boucle

for ul in soup.findAll('p') :
    print(ul)

est dans la bonne direction, mais il sera de retour tous les paragraphes, pas seulement ceux que vous cherchez. Les paragraphes que vous cherchez, cependant, ont l'aide de la propriété d'avoir une classe i. À l'intérieur de ces paragraphes, on peut trouver deux plages, l'une avec la classe i et un autre avec la classe vi. Nous sommes chanceux car ces travées contient les données que vous recherchez:

<p class="i">
    <span class="i">Tytuł............................................</span>
    <span class="vi">: La mer à boire</span>
</p>

Donc, de la première à obtenir tous les paragraphes avec la classe donnée:

>>> ps = soup.findAll('p', {'class': 'i'})
>>> ps
[<p class="i"><span class="i">Tytuł... <LOTS OF STUFF> ...pan></p>]

Maintenant, à l'aide de interprétations de la liste, nous pouvons générer une liste de paires, où chaque paire contient la première et la seconde travée de l'alinéa:

>>> spans = [(p.find('span', {'class': 'i'}), p.find('span', {'class': 'vi'})) for p in ps]
>>> spans
[(<span class="i">Tyt... ...</span>, <span class="vi">: La mer à boire</span>), 
 (<span class="i">Ocena... ...</span>, <span class="vi">: IMDB - 6.3/10 (24)</span>),
 (<span class="i">Produkcja.. ...</span>, <span class="vi">: Francja</span>),
 # and so on
]

Maintenant que nous avons les travées, nous pouvons obtenir les textes à partir de:

>>> texts = [(span_i.text, span_vi.text) for span_i, span_vi in spans]
>>> texts
[(u'Tytu\u0142............................................', u': La mer \xe0 boire'),
 (u'Ocena.............................................', u': IMDB - 6.3/10 (24)'),
 (u'Produkcja.........................................', u': Francja'), 
  # and so on
]

Ces textes ne sont pas ok encore, mais il est facile de les corriger. Pour supprimer les points de la première, nous pouvons utiliser rstrip():

>>> u'Produkcja.........................................'.rstrip('.')
u'Produkcja'

La : chaîne peut être enlevé avec lstrip():

>>> u': Francja'.lstrip(': ')
u'Francja'

De l'appliquer à l'ensemble du contenu, nous avons juste besoin d'une compréhension de liste:

>>> result = [(text_i.rstrip('.'), text_vi.replace(': ', '')) for text_i, text_vi in texts]
>>> result
[(u'Tytu\u0142', u'La mer \xe0 boire'),
 (u'Ocena', u'IMDB - 6.3/10 (24)'),
 (u'Produkcja', u'Francja'),
 (u'Gatunek', u'Dramat'),
 (u'Czas trwania', u'98 min.'),
 (u'Premiera', u'22.02.2012 - \u015awiat'),
 (u'Re\u017cyseria', u'Jacques Maillot'),
 (u'Scenariusz', u'Pierre Chosson, Jacques Maillot'),
 (u'Aktorzy', u'Daniel Auteuil, Maud Wyler, Yann Tr&eacute;gou&euml;t, Alain Beigel'),
 (u'Wi\u0119cej na', u':'),
 (u'Trailer', u':Obejrzyj zwiastun')]

Et c'est tout. J'espère que cette étape-par-étape de l'exemple peut rendre l'utilisation de BeautifulSoup plus clair pour vous.

Ok, merci beaucoup pour l'explication:) je vais faire un peu plus de exercices de avec ce. Je suppose que le problème est résolu. Merci à tous:)
+1 pour un bien expliqué exemple

OriginalL'auteur brandizzi

Ainsi, vous obtenez la Liste que Vous souhaitez, vous aurez à écrire un peu de code pour se débarrasser de l'arrière '....'s et pour convertir les chaînes de caractères.

    import urllib2
    from bs4 import BeautifulSoup

     try :
 web_page = urllib2.urlopen("http://release24.pl/wpis/23714/%22La+mer+a+boire%22+%282011%29+FRENCH.DVDRip.XviD-AYMO").read()
soup = BeautifulSoup(web_page)
LIST = []
for p in soup.findAll('p'):
    s = p.find('span',{ "class" : 'i' })
    t = p.find('span',{ "class" : 'vi' })
    if s and t:
        p_list = [s.string,t.string]
        LIST.append(p_list)

sauf urllib2.HTTPError :
print("HTTPERROR!")
sauf urllib2.URLError :
print("URLERROR!")

OriginalL'auteur mwoods

Vous devez vous connecter pour publier un commentaire.