Belle Soupe findAll ne les trouve pas tous les

Je suis en train d'analyser un site web et d'obtenir quelques infos avec BeautifulSoup.findAll mais il ne les trouve pas du tout.. j'utilise python3

le code est ce

#!/usr/bin/python3

from bs4 import BeautifulSoup
from urllib.request import urlopen

page = urlopen ("http://mangafox.me/directory/")
# print (page.read ())
soup = BeautifulSoup (page.read ())

manga_img = soup.findAll ('a', {'class' : 'manga_img'}, limit=None)

for manga in manga_img:
    print (manga['href'])

il imprime seulement la moitié d'entre eux...

OriginalL'auteur Clepto | 2013-05-01

56

HTML différents analyseurs de traiter différemment rompu HTML. Cette page sert rompu HTML, et le lxml de l'analyseur ne traitent pas très bien avec elle:
```
>>> import requests
>>> from bs4 import BeautifulSoup
>>> r = requests.get('http://mangafox.me/directory/')
>>> soup = BeautifulSoup(r.content, 'lxml')
>>> len(soup.find_all('a', class_='manga_img'))
18
```
De la bibliothèque standard html.l'analyseur a moins de problèmes avec cette page:
```
>>> soup = BeautifulSoup(r.content, 'html.parser')
>>> len(soup.find_all('a', class_='manga_img'))
44
```
De la traduction que de votre code spécifique de l'échantillon à l'aide de urllib, vous devez spécifier l'analyseur ainsi:
```
soup = BeautifulSoup(page, 'html.parser')  # BeatifulSoup can do the reading
```
Wow. Qui m'a sauvé de cogner ma tête sur la table. Comment saviez-vous que le lxml analyseur a rencontré des problèmes (autres que des évidences, c'est seulement de retour 18 lignes). c'est à dire comment devrais-je l'ai connu, c'était un problème autre qu'elle silencieusement ayant le mauvais nombre de lignes?
L'expérience, surtout en aidant les gens ici.
Problème similaire s'est produite dans question. Mais, ici, l'évolution html.parser à lxml travaillé (à la recherche d'une explication de pourquoi le revers de travail).
exactement la même raison: HTML Différents analyseurs de traiter différemment rompu HTML. Différents brisé d'entrée dans les différents analyseurs entraînera une sortie différente. Il dépend de l'entrée et de la sortie souhaitée laquelle on va travailler mieux.

OriginalL'auteur

Vous devez vous connecter pour publier un commentaire.