Comment collecter des données à partir d'un site web
Préface: j'ai un large, un collège de la connaissance, d'une poignée de langages (C++, VB,C#,Java, de nombreux langages web), alors allez avec qui vous le souhaitez.
Je veux faire une application android qui permet de comparer des nombres, mais pour ce faire j'ai besoin d'une base de données. Je suis un homme d'équipe, et les chiffres mis à jour toutes les deux semaines si je veux récupérer ces numéros hors d'un wiki qui est mis à jour en tant que bien.
Donc ma question est: comment puis-je accéder à l'information à partir d'un site web à l'aide de l'une des langues ci-dessus?
Vous devez vous connecter pour publier un commentaire.
Ce que je comprends le problème: Certains entité génère un ensemble de données (c'est à dire les numéros) à chaque semaine et vous avez besoin de télécharger ce jeu de données pour le traitement (par exemple, tri).
Idéalement, le site web du maintien de la wiki serait de fournir un Service, comme une Interface RESTful, pour recueillir les données. Si c'était le cas, j'irais avec un langage qui permet de faciliter la manipulation de la requête HTTP, & réponse, et vos données de manipulation facile. En tant qu'ancien de l'affiche dit, Java serait bien travailler.
Si vous êtes coincé avec le wiki de la page, vous avez deux options. Vous pouvez analyser le code HTML de votre navigateur reçoit (Perl vient à l'esprit comme un décent langue pour que). Ou vous pouvez utiliser les outils construits pour cet usage, comme dans l'exemple susmentionné Jsoup.
Votre question mentionne également certains détails de mise en œuvre tels que la nécessité d'une base de données. De toute évidence, il n'y a pas suffisamment d'informations contextuelles pour moi de savoir si c'est optimal, donc je ne vais pas aborder cet aspect du problème.
http://jsoup.org/ est un excellent outil Java pour accéder au contenu des pages html
Envisager https://scraperwiki.com/ - il un site sur lequel les utilisateurs peuvent apporter des grattoirs. C'est gratuit tant que vous laissez votre grattoir être public. Les résultats de votre grattoir sont exposés au format csv et JSON.
Si vous ne savez pas ce qu'est un "gratte" est, de google "capture d'écran" - c'est un long et frustrant tradition pour les programmeurs, qui ont traité avec le même problème que vous avez depuis le début de l'informatique en réseau.
Vous pouvez vérifier :http://web-harvest.sourceforge.net/
Pour Python, BeautifulSoup est l'une des plus tolérantes HTML analyseurs de là-bas. La documentation répertorie également les bibliothèques similaires en Ruby et Java, de sorte que vous aurez probablement trouver quelque chose de pertinent là.