L'extraction de colonnes sélectionnées à partir d'une table à l'aide de BeautifulSoup

Je suis en train d'extraire la première et troisième colonnes de ce tableau de données à l'aide de BeautifulSoup. En regardant le code HTML de la première colonne a une <th> tag. L'autre colonne d'intérêt est que <td> tag. En tout cas, tout ce que j'ai pu sortir une liste de la colonne avec les balises. Mais, je veux juste le texte.

table est déjà une liste donc je ne peux pas utiliser findAll(text=True). Je ne suis pas sûr de la façon d'obtenir la liste de la première colonne dans une autre forme.

from BeautifulSoup import BeautifulSoup
from sys import argv
import re

filename = argv[1] #get HTML file as a string
html_doc = ''.join(open(filename,'r').readlines())
soup = BeautifulSoup(html_doc)
table = soup.findAll('table')[0].tbody.th.findAll('th') #The relevant table is the first one

print table

Je ne crois pas que vous serez en mesure d'obtenir la totalité de la colonne comme la représentation HTML est à base de lignes (peut être mal). J'imagine que vous pouvez approximative de quelque chose en parcourant les lignes et en tirant la colonne correspondante, en l'ajoutant à une structure de données de votre choix.
J'ai commencé par essayer, mais ne pouvait toujours pas retirer le texte. Je vais mettre à jour ma réponse à inclure la partie. Peut-être que c'est un moyen plus facile d'aller.

OriginalL'auteur mac389 | 2012-10-25

Vous pouvez essayer ce code:

import urllib2
from BeautifulSoup import BeautifulSoup

url = "http://www.samhsa.gov/data/NSDUH/2k10State/NSDUHsae2010/NSDUHsaeAppC2010.htm"
soup = BeautifulSoup(urllib2.urlopen(url).read())

for row in soup.findAll('table')[0].tbody.findAll('tr'):
    first_column = row.findAll('th')[0].contents
    third_column = row.findAll('td')[2].contents
    print first_column, third_column

Comme vous pouvez le voir, le code se connecte à l'url et obtient le html, et le BeautifulSoup trouve le premier tableau, puis tous les " tr " et sélectionne la première colonne, qui est le 'th', et la troisième colonne, qui est une 'td'.

Exactement ce que j'aurais fait. La bonne réponse.

OriginalL'auteur jonhkr

En plus de @jonhkr réponse je pensais que je poste une autre solution je suis venu avec.

 #!/usr/bin/python

 from BeautifulSoup import BeautifulSoup
 from sys import argv

 filename = argv[1]
 #get HTML file as a string
 html_doc = ''.join(open(filename,'r').readlines())
 soup = BeautifulSoup(html_doc)
 table = soup.findAll('table')[0].tbody

 data = map(lambda x: (x.findAll(text=True)[1],x.findAll(text=True)[5]),table.findAll('tr'))
 print data

Contrairement à jonhkr réponse, qui appelle dans la page web, le mien suppose que vous l'avez enregistrer sur votre ordinateur et de le passer comme argument de ligne de commande. Par exemple:

python file.py table.html

OriginalL'auteur mac389

vous pouvez essayer ce code aussi

import requests
from bs4 import BeautifulSoup
page =requests.get("http://www.samhsa.gov/data/NSDUH/2k10State/NSDUHsae2010/NSDUHsaeAppC2010.htm")
soup = BeautifulSoup(page.content, 'html.parser')
for row in soup.findAll('table')[0].tbody.findAll('tr'):
    first_column = row.findAll('th')[0].contents
    third_column = row.findAll('td')[2].contents
    print (first_column, third_column)

OriginalL'auteur KUSHA B K

Vous devez vous connecter pour publier un commentaire.