À l'aide de Magnifiques Soupe de trouver de la classe spécifique

Je suis en train d'utiliser Belle Soupe pour gratter des prix des logements données de Zillow.

- Je obtenir la page web à l'id de propriété, par exemple. http://www.zillow.com/homes/for_sale/18429834_zpid/

Quand j'essaye de le find_all() fonction, je n'obtenez pas les résultats:

results = soup.find_all('div', attrs={"class":"home-summary-row"})

Cependant, si je prends le HTML et le couper juste les bits je veux, par exemple.:

<html>
    <body>
        <div class=" status-icon-row for-sale-row home-summary-row">
        </div>
        <div class=" home-summary-row">
            <span class=""> $1,342,144 </span>
        </div>
    </body>
</html>

- Je obtenir 2 résultats, à la fois <div>s avec la classe home-summary-row. Donc, ma question est, pourquoi ne puis-je pas obtenir des résultats lors de la recherche de la pleine page?

De travail exemple:

from bs4 import BeautifulSoup
import requests

zpid = "18429834"
url = "http://www.zillow.com/homes/" + zpid + "_zpid/"
response = requests.get(url)
html = response.content
#html = '<html><body><div class=" status-icon-row for-sale-row home-summary-row"></div><div class=" home-summary-row"><span class=""> $1,342,144 </span></div></body></html>'
soup = BeautifulSoup(html, "html5lib")

results = soup.find_all('div', attrs={"class":"home-summary-row"})
print(results)

OriginalL'auteur SFBA26 | 2017-01-17

2

Selon la W3.org Validateur, il y a un certain nombre de questions avec le HTML comme errants balises de fermeture et les balises répartir sur plusieurs lignes. Par exemple:
```
<a 
href="http://www.zillow.com/danville-ca-94526/sold/"  title="Recent home sales" class=""  data-za-action="Recent Home Sales"  >
```
Ce type de balisage peuvent rendre beaucoup plus difficile pour BeautifulSoup de parser le HTML.

Vous pourriez vouloir essayer quelque chose pour nettoyer le HTML, telles que la suppression des sauts de ligne et les espaces de fin de la fin de chaque ligne. BeautifulSoup pouvez également nettoyer le code HTML arbre pour vous:
```
from BeautifulSoup import BeautifulSoup
tree = BeautifulSoup(bad_html)
good_html = tree.prettify()
```
Qui a fait le tour. J'ai essayé de regarder pour les balises manquantes par les yeux, mais il y avait trop de code. W3.org Validator est une grande ressource que je n'étais pas au courant. Merci!

OriginalL'auteur Soviut
5

Votre code HTML est non bien formé et dans ce cas, le choix de l'analyseur est crucial. Dans BeautifulSoup, il y a actuellement 3 disponible HTML parseurs qui travail et poignée cassée HTML différemment:
- html.parser (built-in, pas de modules supplémentaires nécessaires)
- lxml (le plus rapide, nécessite lxml être installé)
- html5lib (la plus grande indulgence, nécessite html5lib être installé)
La Les différences entre les analyseurs page de documentation décrit les différences dans plus de détails. Dans votre cas, afin de démontrer la différence:
```
>>> from bs4 import BeautifulSoup
>>> import requests
>>> 
>>> zpid = "18429834"
>>> url = "http://www.zillow.com/homes/" + zpid + "_zpid/"
>>> response = requests.get(url)
>>> html = response.content
>>> 
>>> len(BeautifulSoup(html, "html5lib").find_all('div', attrs={"class":"home-summary-row"}))
0
>>> len(BeautifulSoup(html, "html.parser").find_all('div', attrs={"class":"home-summary-row"}))
3
>>> len(BeautifulSoup(html, "lxml").find_all('div', attrs={"class":"home-summary-row"}))
3
```
Comme vous pouvez le voir, dans votre cas, les deux html.parser et lxml faire le travail, mais html5lib ne pas.

assurez-vous que vous avez from bs4 import BeautifulSoup import - j'ai vu l'autre réponse, ce qui suggère from BeautifulSoup import BeautifulSoup, ce qui n'est pas bon - c'est le BeautifulSoup la version 3 de l'import - cette version est tout à fait obsolète et non entretenu.
aussi, si vous avez besoin seulement le résumé des éléments, vous pouvez utiliser SoupStrainer pour accélérer l'analyse et de l'analyser uniquement les éléments souhaités au lieu de l'ensemble de l'arbre.
Super infos, merci

OriginalL'auteur alecxe
4
```
import requests
from bs4 import BeautifulSoup

zpid = "18429834"
url = "http://www.zillow.com/homes/" + zpid + "_zpid/"

r = requests.get(url)

soup = BeautifulSoup(r.content, "lxml")

g_data = soup.find_all("div", {"class": "home-summary-row"})

print g_data[1].text

#for item in g_data:
#        print item("span")[0].text
#        print '\n'
```
J'ai eu ce travail, mais il semble que quelqu'un me battre pour elle.

allez poster de toute façon.

Hm, c'est intéressant. Simplement en utilisant un autre analyseur de le faire fonctionner. Je suis curieux de savoir si c'est plus rapide que prettifying le HTML avant de lancer la recherche. Je vais devoir tester cette. Merci!
Yep, désolé pour la faute de frappe dans la première ligne, copier & pâte d'erreur; fixe maintenant

OriginalL'auteur RobBenz

Vous devez vous connecter pour publier un commentaire.