Extraction de texte à partir de l'HTML Java

Je suis en train de travailler sur un programme qui télécharge des pages HTML et ensuite, sélectionne certaines de l'information et de l'écrire dans un autre fichier.

Je veux extraire l'information qui est intbetween les étiquettes de paragraphe, mais je ne peux faire une ligne du paragraphe. Mon code est comme suit;

FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        try {
            out.write(s);
        } catch (IOException e) {
        }
    }
}

j'ai essayé d'ajouter une autre boucle while, qui serait de dire au programme pour garder l'écriture dans le fichier jusqu'à ce que la ligne contient le </p> tag, en disant;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        while(!s.contains("</p>") {
            try {
                out.write(s);
            } catch (IOException e) {
            }
        }
    }
}

Mais cela ne fonctionne pas. Quelqu'un pourrait s'il vous plaît aider.

  • Nous sommes certainement en voir un bug dans l'échappement de balises HTML.
  • Êtes-vous citant comme code avec backticks?
  • HTML analyseurs n'existe pas et il y en a beaucoup.
InformationsquelleAutor | 2009-09-06