Comment puis-je analyser un site web en utilisant le Sélénium et le Beautifulsoup en python?
Nouveau à la programmation et compris comment naviguer à l'endroit où j'ai besoin d'aller à l'aide de Sélénium. J'aimerais analyser les données maintenant, mais vous ne savez pas par où commencer. Quelqu'un peut-il me tenir la main, une seconde et me pointer dans la bonne direction?
Toute aide appréciée -
- Ce n'est pas une question malheureusement, vous devez vous demander quelque chose de plus spécifique.
- Twitch, si vous êtes vraiment nouveau à Python et à la programmation en général, j'essayerais de travail vous un chemin à travers les learnpythonthehardway.org - basée sur certaines de vos questions ci-dessous, je pense qu'il serait d'une grande aide. À partir de là, vous serez en mesure de poster plus spécifiques (et devant) questions ici.
- Cette question m'a aidé
Vous devez vous connecter pour publier un commentaire.
En supposant que vous êtes sur la page que vous souhaitez analyser, Sélénium, les magasins la source HTML dans le pilote de l'
page_source
attribut. Vous pouvez alors charger lepage_source
enBeautifulSoup
comme suit:html
se réfère à la source de la page. Chaque fois que vous accéder à votre page, votredriver
objet d'un attribut appelépage_source
, et le code ci-dessus affecte cette valeur àhtml
. Notez que cette étape n'est pas vraiment nécessaire que vous pouviez juste passerdriver.page_source
directement à BeautifulSoup (en tant que root n'a ci-dessus).title
marque, de sorte que dans le cas particulier de la page ne dispose pas d'un rien, alors va le montrer. Essayez d'exécuterprint soup.prettyify()
- voyez-vous quelque chose?soup.prettify()
...Que votre question n'est pas particulièrement concret, voici un exemple simple. Faire quelque chose de plus utile de lire le BS docs. Vous trouverez également de nombreux exemples de sélénium (et BS )utilisation ici dans la.
browser=webdriver.Firefox()
définitbrowser
. il suffit de copier directement le code...vous devez avoir fait une erreur.soup=BeautifulSoup(browser.page_source)
c'est la même chose avec chromeÊtes-vous sûr que vous voulez utiliser le Sélénium? C'est pour cette raison que j'ai utilisé PyQt4, c'est très puissant, et vous pouvez faire ce que vous voulez.
Je peux vous donner un exemple de code, que je viens d'écrire, il suffit de changer l'url et vous bon aller: