Comment extraire l'Url d'une page HTML en Python
Je dois écrire un crawler web en Python. Je ne sais pas comment analyser une page et d'en extraire les Url de HTML. Où dois-je aller étudier à écrire un tel programme?
En d'autres termes, est-il un simple programme en python qui peut être utilisé comme un modèle pour un générique web crawler? Idéalement, il devrait utiliser les modules qui sont relativement simples à utiliser et il devrait inclure beaucoup de commentaires pour décrire ce que chaque ligne de code est en train de faire.
OriginalL'auteur user2189704 | 2013-03-20
Vous devez vous connecter pour publier un commentaire.
Oeil à l'exemple de code ci-dessous. Le script extraits de code html d'une page web (ici page d'accueil Python) et extrait tous les liens dans cette page. Espérons que cette aide.
De sortie:
...
OriginalL'auteur Shankar
Vous pouvez utiliser BeautifulSoup comme beaucoup l'ont également déclaré. Il peut analyser HTML,XML, etc. Pour voir certaines de ses caractéristiques, voir ici.
Exemple:
OriginalL'auteur pradyunsg
Référencé: Python Web Crawler en Moins de 50 Lignes (Lent ou ne fonctionne plus, ne se charge pas pour moi)
OriginalL'auteur Scy
Vous pouvez utiliser beautifulsoup. Suivez la documentation et de voir ce qui correspond à vos besoins. La documentation contient des extraits de code pour savoir comment extraire les URL.
OriginalL'auteur Sushant Gupta
Avec l'analyse des pages, découvrez la
BeautifulSoup
module. Il est simple à utiliser et vous permet d'analyser des pages avec HTML. Vous pouvez extraire l'Url du HTML tout simplement en faisantstr.find('a')
Ne pas utiliser des expressions régulières pour l'analyse HTML
OriginalL'auteur TerryA