Get source de site web en java

Je voudrais utiliser java pour obtenir le code source d'un site internet (sécurisé) et ensuite d'analyser ce site web pour les liens qui sont en elle. J'ai trouvé comment faire pour se connecter à l'url, mais alors, comment puis-je obtenir facilement juste la source, preferraby que le DOM Document oso que je pourrais facilement obtenir les informations que je veux.

Ou est-il une meilleure façon de se connecter au site en https, obtenir le code source (que je neet faire pour obtenir une table de données...c'est assez simple) alors ces liens sont des fichiers, je vais le télécharger.

Je voudrais qu'il était FTP, mais ce sont des fichiers stockés sur mon tivo (je veux par programme à télécharger sur mon ordinateur(

Tu veux dire que la source de "code"?

OriginalL'auteur Adam Lerman | 2009-01-08

Vous pouvez obtenir à faible niveau et il suffit de demander avec un socket. En java, il ressemble à

//Arg[0] = Hostname
//Arg[1] = File like index.html
public static void main(String[] args) throws Exception {
    SSLSocketFactory factory = (SSLSocketFactory) SSLSocketFactory.getDefault();

    SSLSocket sslsock = (SSLSocket) factory.createSocket(args[0], 443);

    SSLSession session = sslsock.getSession();
    X509Certificate cert;
    try {
        cert = (X509Certificate) session.getPeerCertificates()[0];
    } catch (SSLPeerUnverifiedException e) {
        System.err.println(session.getPeerHost() + " did not present a valid cert.");
        return;
    }

    //Now use the secure socket just like a regular socket to read pages.
    PrintWriter out = new PrintWriter(sslsock.getOutputStream());
    out.write("GET " + args[1] + " HTTP/1.0\r\n\r\n");
    out.flush();

    BufferedReader in = new BufferedReader(new InputStreamReader(sslsock.getInputStream()));
    String line;
    String regExp = ".*<a href=\"(.*)\">.*";
    Pattern p = Pattern.compile( regExp, Pattern.CASE_INSENSITIVE );

    while ((line = in.readLine()) != null) {
        //Using Oscar's RegEx.
        Matcher m = p.matcher( line );  
        if( m.matches() ) {
            System.out.println( m.group(1) );
        }
    }

    sslsock.close();
}

Belle façon d'apprendre HTTP aussi.
J'aime votre réponse le meilleur et le plan de l'essayer demain. Si cela fonctionne, je vais l'accepter. Seule question est comment puis-je envoyer un nom d'utilisateur et le mot de passe?
Hey Adam. Ce code se connecte à un site HTTPS (Sécurisé) sur le site avec le protocole SSL. Nom d'utilisateur/mots de passe sont spécifiques à un site. C'est presque comme demander comment se connecter à la Banque de l'Amérique et espérer qu'il fonctionne avec WaMu de connexion c'est différent. J'espère que vous vous accepter ma réponse comme correcte, car son ce que vous avez demandé.

OriginalL'auteur Bernie Perez

5

Extrêmement questions similaires:
OriginalL'auteur matt b

Probablement vous pourriez obtenir un meilleur affichage des trésors. de Pete ou sktrdie options. Voici un moyen supplémentaire si vous voulez savoir comment le faire "en avait"

Je ne suis pas très bon à la regex donc, dans ce cas, elle renvoie le dernier maillon d'une ligne. Eh bien, c'est un début.

import java.io.*;
import java.net.*;
import java.util.regex.*;

public class Links { 
    public static void main( String [] args ) throws IOException  { 

        URL url = new URL( args[0] );
        InputStream is = url.openConnection().getInputStream();

        BufferedReader reader = new BufferedReader( new InputStreamReader( is )  );

        String line = null;
        String regExp = ".*<a href=\"(.*)\">.*";
        Pattern p = Pattern.compile( regExp, Pattern.CASE_INSENSITIVE );

        while( ( line = reader.readLine() ) != null )  {
            Matcher m = p.matcher( line );  
            if( m.matches() ) {
                System.out.println( m.group(1) );
            }
        }
        reader.close();
    }
}

MODIFIER

Ooops j'ai totalement raté le "secure" partie. De toute façon je ne pouvais pas m'en empêcher, j'ai dû écrire cet exemple 😛

Je pensais qu'il dit qu'il avait besoin de Sécuriser l'Accès au support. N'url.openConnection en charge le SSL?
Haha d'accord. Ouais je vais utiliser votre RegEx dans mon exemple, si vous n'avez pas l'esprit.
Pas du tout, aller de l'avant. Il ne fonctionne pas très bien.

OriginalL'auteur OscarRyz

3

Essayer HttpUnit ou HttpClient. Bien que l'ancienne est ostensiblement pour l'écriture de tests d'intégration, il a une pratique de l'API pour par programme une itération à travers une page web, les liens, avec quelque chose comme la suite de l'utilisation de WebResponse.getLinks():
```
WebConversation wc = new WebConversation();
WebResponse resp = wc.getResponse("http://stackoverflow.com/questions/422970/");
WebLink[] links = resp.getLinks();
//Loop over array of links...
```
De bonnes options et je voudrais vous recommandons d'ajouter l'interface htmlunit à la liste.
N'abusez pas de l'objectif. Interface htmlunit est une bibliothèque spécialisée pour faire des tests unitaires.
Je ne sais pas quelle interface htmlunit mais est liée à l'URL, interface htmlunit dit que c'est un "navigateur pour les programmes Java" dans la première para et dans les listes d'utilisations typiques des "fins de test ou de récupérer des informations à partir de sites web". Je ne vois pas ce qu'Adam veut que contredire cette utilisation typique.

OriginalL'auteur Peter Hilton
1

Vous pouvez utiliser javacurl pour obtenir le site du html, et java DOM pour l'analyser.

OriginalL'auteur Luca Matteis

Essayez d'utiliser le jsoup bibliothèque.

import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;


public class ParseHTML {

    public static void main(String args[]) throws IOException{
        Document doc = Jsoup.connect("https://www.wikipedia.org/").get();
        String text = doc.body().text();

        System.out.print(text);
    }
}

Vous pouvez télécharger le jsoup bibliothèque ici.

OriginalL'auteur optimus0127

0

Il y a deux significations de la source dans un contexte web:

La source HTML: Si vous demandez une page web par URL, vous obtenez toujours le code source HTML. En fait, il n'y a rien d'autre que vous pourriez obtenir à partir de l'URL. Les pages web sont toujours transmises sous forme de code source, il n'y a pas une telle chose comme un compilé page web. Et pour ce que vous essayez, cela devrait être suffisant pour remplir votre tâche.

À la Source du Script: Si la page web est généré dynamiquement, alors il est codé dans certains langage de script côté serveur (comme PHP, Ruby, JSP...). Il y a aussi existe un code source à ce niveau. Mais à l'aide d'une connexion HTTP vous n'êtes pas en mesure d'obtenir ce genre de code source. Ce n'est pas un fonctionnalité manquante mais complètement à la fin.

Analyse: Ayant cela dit, vous devez en quelque sorte analyser le code HTML. Si vous avez juste besoin de la des liens, à l'aide d'une RegEx (comme Oscar Reyes a montré) sera la méthode la plus pratique, mais vous pouvez également écrire un simple analyseur "manuellement". Il est lent, plus de code... mais qui fonctionne.

Si vous souhaitez accéder à ce code sur un plus au niveau logique, l'analyse à un DOM serait la voie à suivre. Si le code est valide XHTML vous pouvez simplement analyser pour un org.le w3c.dom.Document et faire quelque chose avec elle. Si elle est au moins HTML valide vous pouvez appliquer quelques astuces pour le convertir en XHTML (dans certains cas rares, en remplacement de <br> par <br/>, et de changer le doctype est assez) et l'utiliser comme XML.

Si il n'est pas valide XML, vous auriez besoin d'un HTML DOM parser. Je n'ai aucune idée si une telle chose existe pour Java et si elle effectue nice.

PS: Désolé de ne pas entrer dans les détails de vous faire les tâches spécifiques, mais j'ai eu le sentiment que certaines choses de base convient de rappeler en premier. Si vous savez exactement quoi faire, vous trouverez les détails facilement.

OriginalL'auteur Lena Schimmel
0

Il existe serveur FTP qui peut être installé sur votre Tivo pour permettre de montrer les téléchargements, voir ici http://dvrpedia.com/MFS_FTP

La question est formulée différemment (comment gérer http/html en java), mais à la fin vous parler de ce que vous voulez, c'est de télécharger des émissions. Tivo utilise le système de fichier unique (MFS - Médias du Système de Fichiers) de leur propre, de sorte qu'il n'est pas facile de monter le disque sur une autre machine - au contraire, il est plus facile de courir serveur http ou ftp sur le Tivo et de la télécharger à partir de ces

OriginalL'auteur Nas Banov

Vous devez vous connecter pour publier un commentaire.