Comment puis-je obtenir le premier et le troisième td à partir d'une table avec BeautifulSoup?

Je suis actuellement en utilisant Python et BeautifulSoup pour gratter quelques données du site web.
Je suis en train de tirer des cellules d'un tableau qui est formaté comme suit:

<tr><td>1<td><td>20<td>5%</td></td></td></td></tr>

Le problème avec le HTML ci-dessus est que BeautifulSoup lit comme une balise. J'ai besoin de tirer sur les valeurs à partir de la première <td> et la troisième <td>, qui serait de 1 et 20, respectivement.

Malheureusement, je n'ai aucune idée de comment aller à ce sujet. Comment puis-je obtenir BeautifulSoup de lire le 1er et le 3ème <td> les balises de chaque ligne de la table?

Mise à jour:

J'ai compris le problème. J'ai été en utilisant html.parser au lieu de la valeur par défaut pour BeautifulSoup. Une fois que je suis passé à l'défaut, les problèmes ont disparu. Aussi, j'ai utilisé la méthode décrite dans la réponse.

J'ai aussi découvert que les différents analyseurs sont très capricieux avec code cassé. Par exemple, la valeur par défaut de l'analyseur refusé de lire au-delà de la ligne 192, mais html5lib fait le travail.Donc essayez d'utiliser lxml, html, et aussi html5lib si vous rencontrez des problèmes à l'analyse de l'ensemble de la table.

OriginalL'auteur Alex Ketay | 2013-08-14

10

C'est un méchant morceau de code HTML que vous avez là. Si nous ignorons la sémantique de lignes du tableau et des cellules de tableau, pour un moment, et la traiter comme une pure XML, sa structure ressemble à ceci:
```
<tr>
  <td>1
    <td>
      <td>20
        <td>5%</td>
      </td>
    </td>
  </td>
</tr>
```
BeautifulSoup, cependant, ne sait à propos de la sémantique de tableaux en HTML, et au lieu de cela il analyse comme ceci:
```
<tr>
  <td>1        
  <td>         
  <td>20       
  <td>5%</td>  
  </td>        
  </td>        
  </td>        
</tr>
```
... de sorte que, comme vous le dites, le 1er et le 20 sont dans la première et la troisième td éléments (pas tags) respectivement.

Vous pouvez réellement obtenir le contenu de ces td éléments comme ceci:
```
>>> from bs4 import BeautifulSoup
>>> soup = BeautifulSoup("<tr><td>1<td><td>20<td>5%</td></td></td></td></tr>")
>>> tr = soup.find("tr")
>>> tr
<tr><td>1</td><td></td><td>20</td><td>5%</td></tr>
>>> td_list = tr.find_all("td")
>>> td_list
[<td>1</td>, <td></td>, <td>20</td>, <td>5%</td>]
>>> td_list[0]  # Python starts counting list items from 0, not 1
<td>1</td>
>>> td_list[0].text
'1'
>>> td_list[2].text
'20'
>>> td_list[3].text
'5%'
```
J'ai essayé cela, mais le résultat est [<td>1<td><td>20<td>5%</td></td></td></td>,<td><td>20<td>5%</td></td></td>,<td>20<td>5%</td></td>,<td>5%</td>]
Peu importe, le problème est que j'ai été en utilisant html.analyseur'
Pas de problème 🙂 Comme vous pouvez probablement, avec html.analyseur' le code HTML est interprété comme bien formé XHTML (comme décrit ci-dessus), plutôt que de mal-formé HTML, d'où le imbriquée td éléments dans votre premier résultat.

OriginalL'auteur Zero Piraeus

Vous devez vous connecter pour publier un commentaire.