Extraction de texte à partir de l'HTML Java

Je suis en train de travailler sur un programme qui télécharge des pages HTML et ensuite, sélectionne certaines de l'information et de l'écrire dans un autre fichier.

Je veux extraire l'information qui est intbetween les étiquettes de paragraphe, mais je ne peux faire une ligne du paragraphe. Mon code est comme suit;

FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        try {
            out.write(s);
        } catch (IOException e) {
        }
    }
}

j'ai essayé d'ajouter une autre boucle while, qui serait de dire au programme pour garder l'écriture dans le fichier jusqu'à ce que la ligne contient le  tag, en disant;

while ((s = br.readLine()) !=null) {
    if(s.contains("<p>")) {
        while(!s.contains("</p>") {
            try {
                out.write(s);
            } catch (IOException e) {
            }
        }
    }
}

Mais cela ne fonctionne pas. Quelqu'un pourrait s'il vous plaît aider.

Nous sommes certainement en voir un bug dans l'échappement de balises HTML.
Êtes-vous citant comme code avec backticks?
HTML analyseurs n'existe pas et il y en a beaucoup.

InformationsquelleAutor | 2009-09-06

23

jsoup

Un autre analyseur html j'ai vraiment aimé l'aide a été jsoup. Vous pouvez obtenir tous les  éléments en 2 lignes de code.
```
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements ps = doc.select("p");
```
Puis l'écrire dans un fichier dans une ligne
```
out.write(ps.text()); //it will append all of the p elements together in one long string
```
ou si vous le souhaitez sur des lignes séparées, vous pouvez parcourir les éléments et de les enregistrer séparément.
- Si un document n'utilise pas p balises (non-sémantique mark up), je suppose que cela ne fonctionne pas
- La Question explicitement demandé p éléments. Cette réponse est sur place correcte.
- Merci @Danny, I ♥ cette soupe !
InformationsquelleAutor Danny
9

jericho est l'un de plusieurs posible html analyseurs qui pourrait rendre cette tâche à la fois facile et sûr.

InformationsquelleAutor Gareth Davis
4

JTidy peut représenter un document HTML (même un mal formé un) comme un modèle de document, ce qui rend le processus de l'extraction du contenu d'un  balise un peu plus élégant que manuellement médiateur à travers le texte brut.
- Oui il vaut mieux éviter d'essayer de parser HTML manuellement
InformationsquelleAutor skaffman

Essayez (si vous ne souhaitez pas utiliser un analyseur HTML bibliothèque):


        FileReader fileReader = new FileReader(file);
        BufferedReader buffRd = new BufferedReader(fileReader);
        BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
        String s;
        int writeTo = 0;
        while ((s = br.readLine()) !=null) 
        {
                if(s.contains("<p>"))
                {
                        writeTo = 1;

                        try 
                        {
                            out.write(s);
                    } 
                        catch (IOException e) 
                        {

                    }
                }
                if(s.contains("</p>"))
                {
                        writeTo = 0;

                        try 
                        {
                            out.write(s);
                    } 
                        catch (IOException e) 
                        {

                    }
                }
                else if(writeTo==1)
                {
                        try 
                        {
                            out.write(s);
                    } 
                        catch (IOException e) 
                        {

                    }
                }
}

Ce qui se passe si les  et  sont sur la même ligne? Dans ce cas, la chaîne sera écrit deux fois. Je suppose que cela dépend vraiment de l'entrée.
Vous pouvez ajouter certains de l'état pour voir si vous avez déjà écrit la ligne avant de l'écrire de nouveau.

InformationsquelleAutor Niall

0

J'ai eu du succès en utilisant TagSoup & XPath pour analyser HTML.

http://home.ccil.org/~cowan/XML/tagsoup/

InformationsquelleAutor Billy Bob Bain

Utiliser un ParserCallback. Ses une classe simple, c'est fourni avec le JDK. Elle vous informe chaque fois qu'un nouveau tag est trouvé et puis vous pouvez extraire le texte de l'étiquette. Exemple Simple:

import java.io.*;
import java.net.*;
import javax.swing.text.*;
import javax.swing.text.html.*;
import javax.swing.text.html.parser.*;
public class ParserCallbackTest extends HTMLEditorKit.ParserCallback
{
private int tabLevel = 1;
private int line = 1;
public void handleComment(char[] data, int pos)
{
displayData(new String(data));
}
public void handleEndOfLineString(String eol)
{
System.out.println( line++ );
}
public void handleEndTag(HTML.Tag tag, int pos)
{
tabLevel--;
displayData("/" + tag);
}
public void handleError(String errorMsg, int pos)
{
displayData(pos + ":" + errorMsg);
}
public void handleMutableTag(HTML.Tag tag, MutableAttributeSet a, int pos)
{
displayData("mutable:" + tag + ": " + pos + ": " + a);
}
public void handleSimpleTag(HTML.Tag tag, MutableAttributeSet a, int pos)
{
displayData( tag + "::" + a );
//     tabLevel++;
}
public void handleStartTag(HTML.Tag tag, MutableAttributeSet a, int pos)
{
displayData( tag + ":" + a );
tabLevel++;
}
public void handleText(char[] data, int pos)
{
displayData( new String(data) );
}
private void displayData(String text)
{
for (int i = 0; i < tabLevel; i++)
System.out.print("\t");
System.out.println(text);
}
public static void main(String[] args)
throws IOException
{
ParserCallbackTest parser = new ParserCallbackTest();
//args[0] is the file to parse
Reader reader = new FileReader(args[0]);
//     URLConnection conn = new URL(args[0]).openConnection();
//     Reader reader = new InputStreamReader(conn.getInputStream());
try
{
new ParserDelegator().parse(reader, parser, true);
}
catch (IOException e)
{
System.out.println(e);
}
}
}

Donc tout ce que vous devez faire est de définir un indicateur booléen lorsque la balise de paragraphe est trouvé. Puis, dans la handleText() la méthode d'extraire le texte.

InformationsquelleAutor camickr

De l'essayer.

 public static void main( String[] args )
{
String url = "http://en.wikipedia.org/wiki/Big_data";
Document document;
try {
document = Jsoup.connect(url).get();
Elements paragraphs = document.select("p");
Element firstParagraph = paragraphs.first();
Element lastParagraph = paragraphs.last();
Element p;
int i=1;
p=firstParagraph;
System.out.println("*  " +p.text());
while (p!=lastParagraph){
p=paragraphs.get(i);
System.out.println("*  " +p.text());
i++;
} 
} catch (IOException e) {
//TODO Auto-generated catch block
e.printStackTrace();
}
}

Qu'est-ce que cet "Élément" et "Document". Est-ce un tiers de l'analyseur? Montrer l'importation de lignes trop

InformationsquelleAutor Consultant

-2

Vous peut-être simplement en utilisant le mauvais outil pour le travail:
```
perl -ne "print if m|| .. m||" infile.txt >outfile.txt
```
- C'est un juste cop. Une sorte de fin du coup.
- La fin de hits aller dans les deux sens 🙂
InformationsquelleAutor brianary

Vous devez vous connecter pour publier un commentaire.

jsoup