Comment faire une recherche sur internet avec Python?
Je veux écrire un programme qui recherche dans un assez grand site web et des extraits de certaines choses. J'ai eu un couple en ligne Python cours, mais aucun ne dit rien de la façon dont l'accès à internet avec Python. Je n'ai aucune idée de là où je dois commencer par cela.
- Vous aurez besoin de lire sur HTTP, HTML et probablement JS/PHP/etc, probablement à la liste de tremper vos orteils dans une plus solide compréhension des DOMs, puis apprenez-en davantage au sujet du texte d'analyse/de traitement. Regardez urllib/urllib2/httplib/demandes/etc, et quelque chose comme BeautifulSoup, ou encore du Sélénium, en fonction de la complexité et de l'interactivité dont vous avez besoin.
- Avez-vous regardé la documentation Python? Premier résultat sur Google pour "Python Internet" par le chemin...
Vous devez vous connecter pour publier un commentaire.
Vous devez d'abord lire à propos de la bibliothèque standard de python urllib2.
Une fois que vous êtes à l'aise avec les idées de base derrière cette lib, vous pouvez essayer les demandes qui est beaucoup plus facile d'interagir avec le web en particulier Api. Je suggère de l'utiliser en parallèle avec httpie de tester les requêtes rapide et sale de ligne de commande.
Si vous allez un peu plus loin, à la construction d'une librairie ou d'un moteur à explorer le web, vous aurez besoin d'une sorte de programmation asynchrone, je recommande de commencer avec Gevent
Enfin, si vous souhaitez créer un robot/bot, vous pouvez prendre un coup d'oeil à Scrapy. Cependant, tu devrais commencer avec les bibliothèques de base avant de plonger dans celui-ci comme il peut être assez complexe
Il semble que vous voulez un web crawler/grattoir. Quelles sortes de choses que vous voulez tirer? Les Images? Les liens? Tout simplement le travail pour un web crawler/grattoir.
Commencer par là, il devrait y avoir beaucoup d'articles sur Stackoverflow qui vous aideront à mettre en œuvre des détails tels que la connexion à l'internet (l'obtention d'une réponse web).
Voir cette article.
Il y a beaucoup plus dans l'internet que juste un site web, mais je suppose que vous voulez juste à explorer quelques-uns des pages html et d'extraire des données à partir d'eux. Vous avez de nombreuses de nombreuses options pour résoudre ce problème. Juste quelques points de départ: