Comment extraire des données à partir de sites web HTML?
J'ai besoin d'extraire du texte à partir d'un code html site web. J'ai environ 3000 Url et le besoin d'extraire une seule ligne de texte à partir de leur code html. Les données dont j'ai besoin ressemble à ceci:
<html xmlns:og="http://opengraphprotocol.org/schema/">
<head>
<title>Pink Floyd Live Audio Feeds</title>//the line i need
...
Comment puis-je automatiser ce processus? Je suis bon à Java donc une méthodologie à l'aide de la langue de préférence. Merci!
- Jetez un oeil à JSOUP pour extraire le contenu HTML d'une page.
- Jetez un oeil à ceci question qui, je pense, peut répondre à cette question.
- Est-il possible que le titre de propriété sera divisée en quelques lignes comme
<title>first line\n second line\n third line</title>
? - Non, tous dans une seule ligne..
Vous devez vous connecter pour publier un commentaire.
Vous pouvez lire html, texte, ligne par ligne, et lorsque vous trouvez
</title>
arrêter la lecture reste de la page. Voici comment cela peut être fait (je suppose que<title>
et</title>
sont dans la même ligne de code HTML comme vous l'avez souligné dans le commentaire)Vous pouvez utiliser jsoup qui est une bonne bibliothèque Java pour travailler avec le monde réel HTML.
Parcourir votre liste d'URL et utiliser
HttpURLConnection
au téléchargement de la page. Après, vous avez toutes les pages de traiter les données pour en extraire les informations dont vous avez besoin. Voici la HttpURLConnection java page de doc