Comprendre les Find() dans la Belle Soupe
Je sais ce que je suis en train de faire est simple mais ça me causer du chagrin. Je voudrais extraire des données à partir de code HTML à l'aide de BeautifulSoup. Pour ce faire j'ai besoin pour utiliser correctement le .find()
fonction. Voici le code HTML, je travaille avec:
<div class="audit">
<div class="profile-info">
<img class="profile-pic" src="https://pbs.twimg.com/profile_images/471758097036226560/tLLeiOiL_normal.jpeg" />
<h4>Ed Boon</h4>
<span class="screen-name"><a href="http://www.twitter.com/noobde" target="_blank">@noobde</a></span>
</div>
<div class="followers">
<div class="pie"></div>
<div class="pie-data">
<span class="real number" data-value=73599>73,599</span><span class="real"> Real</span><br />
<span class="fake number" data-value=32452>32,452</span><span class="fake"> Fake</span><br />
<h6>Followers</h6>
</div>
</div>
<div class="score">
<img src="//twitteraudit-prod.s3.amazonaws.com/dist/f977287de6281fe3e1ef36d48d996fb83dd6a876/img/audit-result-good.png" />
<div class="percentage good">
69%
</div>
<h6>Audit score</h6>
Les valeurs que je veux sont 73599
de data-value=73599
, 32352
de data-value=32452
, et la 69%
de percentage good
.
À l'aide de passé le code et les exemples en ligne, c'est ce que j'ai à ce jour:
RealValue = soup.find("div", {"class":"real number"})['data-value']
FakeValue = soup.find("audit", {"class":"fake number"})['data-value']
À la fois jusqu'à présent à aucun effet. Je ne suis pas sûr de la façon de concevoir les trouver dans l'ordre de tirer la 69%
nombre.
OriginalL'auteur OneManRiot | 2015-12-16
Vous devez vous connecter pour publier un commentaire.
Ici, vous êtes à la recherche d'un
div
élément, mais laspan
a le "vrai" numéro de la classe dans votre exemple des données HTML, essayez plutôt:Ici, nous sommes également de vérifier la présence de
data-value
attribut.De trouver des éléments ayant "nombre réel" ou "faux" numéro de classes, vous pouvez faire un Sélecteur CSS:
Pour obtenir le
69%
valeur:Ou, un sélecteur CSS:
Ou, de la localisation de l'
h6
élément ayantAudit score
texte et l'obtention de la précédent frère:OriginalL'auteur alecxe