Belle Soupe findAll ne les trouve pas tous les
Je suis en train d'analyser un site web et d'obtenir quelques infos avec BeautifulSoup.findAll mais il ne les trouve pas du tout.. j'utilise python3
le code est ce
#!/usr/bin/python3
from bs4 import BeautifulSoup
from urllib.request import urlopen
page = urlopen ("http://mangafox.me/directory/")
# print (page.read ())
soup = BeautifulSoup (page.read ())
manga_img = soup.findAll ('a', {'class' : 'manga_img'}, limit=None)
for manga in manga_img:
print (manga['href'])
il imprime seulement la moitié d'entre eux...
OriginalL'auteur Clepto | 2013-05-01
Vous devez vous connecter pour publier un commentaire.
HTML différents analyseurs de traiter différemment rompu HTML. Cette page sert rompu HTML, et le
lxml
de l'analyseur ne traitent pas très bien avec elle:De la bibliothèque standard
html.l'analyseur
a moins de problèmes avec cette page:De la traduction que de votre code spécifique de l'échantillon à l'aide de
urllib
, vous devez spécifier l'analyseur ainsi:L'expérience, surtout en aidant les gens ici.
Problème similaire s'est produite dans question. Mais, ici, l'évolution
html.parser
àlxml
travaillé (à la recherche d'une explication de pourquoi le revers de travail).exactement la même raison: HTML Différents analyseurs de traiter différemment rompu HTML. Différents brisé d'entrée dans les différents analyseurs entraînera une sortie différente. Il dépend de l'entrée et de la sortie souhaitée laquelle on va travailler mieux.
OriginalL'auteur