htmlagilitypack et dynamique du contenu litigieux

Je veux créer un site web de scrapper application et je veux le faire avec contrôle webbrowser, htmlagilitypack et xpath.

maintenant j'ai réussi à créer xpath générateur(j'ai utilisé webbrowser dans ce but), qui fonctionne très bien, mais parfois je ne peux pas saisir de manière dynamique (via javascript ou ajax) le contenu généré. J'ai aussi trouvé que, lorsque l'on contrôle webbrowser(en fait le navigateur IE) génère quelques balises supplémentaires comme "tbody", tandis que de nouveau htmlagilitypack
`htmlWeb.Charge(webBrowser.DocumentStream); " ne pas le voir.

une autre note. J'ai découvert que le code suivant fait attrape la page web en cours source, mais je ne pouvais pas fourni avec le htmlagilitypack
`(mshtml.IHTMLDocument3)webBrowser.Document.DomDocument;`

Pouvez vous s'il vous plaît m'aider avec ça?

aider avec quoi? quelle est votre question? Vous devez montrer un peu de code pour obtenir une aide réelle.
désolé les gars, j'ai trouvé la solution ici: var documentAsIHtmlDocument3 = (mshtml.IHTMLDocument3)webBrowser.Document.DomDocument; StringReader sr = new StringReader(documentAsIHtmlDocument3.documentElement.outerHTML); htmlDoc.Charge(sr); et cela a fonctionné.
comment vous pouvez reterived la dynamique du contenu de la page ?est htmlagility pack est utilisé pour reterive le contenu dynamique.

OriginalL'auteur Chyngyz Sydykov | 2012-04-16

c#dynamic-content html-agility-pack

Je viens de passer des heures à essayer d'obtenir HtmlAgilityPack rendre certains ajax du contenu dynamique à partir d'une page web et que j'allais partir un post inutiles à l'autre jusqu'à ce que j'ai trouvé celui-ci.

La réponse est cachée dans un commentaire sous le post initial et j'ai pensé que je devrais redresser.

C'est la méthode que j'ai utilisé au départ et n'a pas fonctionné:

private void LoadTraditionalWay(String url)
{
    WebRequest myWebRequest = WebRequest.Create(url);
    WebResponse myWebResponse = myWebRequest.GetResponse();
    Stream ReceiveStream = myWebResponse.GetResponseStream();
    Encoding encode = System.Text.Encoding.GetEncoding("utf-8");
    TextReader reader = new StreamReader(ReceiveStream, encode);
    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
    doc.Load(reader);
    reader.Close();
}

WebRequest ne sera pas rendu ou d'exécuter les requêtes ajax qui rendent le contenu manquant.

C'est la solution qui a fonctionné:

private void LoadHtmlWithBrowser(String url)
{
    webBrowser1.ScriptErrorsSuppressed = true;
    webBrowser1.Navigate(url);

    waitTillLoad(this.webBrowser1);

    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
    var documentAsIHtmlDocument3 = (mshtml.IHTMLDocument3)webBrowser1.Document.DomDocument; 
    StringReader sr = new StringReader(documentAsIHtmlDocument3.documentElement.outerHTML); 
    doc.Load(sr);
}

private void waitTillLoad(WebBrowser webBrControl)
{
    WebBrowserReadyState loadStatus;
    int waittime = 100000;
    int counter = 0;
    while (true)
    {
        loadStatus = webBrControl.ReadyState;
        Application.DoEvents();
        if ((counter > waittime) || (loadStatus == WebBrowserReadyState.Uninitialized) || (loadStatus == WebBrowserReadyState.Loading) || (loadStatus == WebBrowserReadyState.Interactive))
        {
            break;
        }
        counter++;
    }

    counter = 0;
    while (true)
    {
        loadStatus = webBrControl.ReadyState;
        Application.DoEvents();
        if (loadStatus == WebBrowserReadyState.Complete && webBrControl.IsBusy != true)
        {
            break;
        }
        counter++;
    }
}

L'idée est de charger à l'aide du Navigateur web qui est capable de rendre le contenu ajax et puis attendre que la page est entièrement restitué avant puis à l'aide de Microsoft.mshtml de la bibliothèque de l'analyser à nouveau le code HTML sur l'agilité pack.

C'était la seule façon que je pouvais avoir accès à la dynamique de données.

Espère que cela aide quelqu'un

Bon travail, Nick! Merci de poster votre solution, c'était très utile pour moi! Quelle corvée! Je vais ajouter que MSHTML est nommé "Microsoft HTML object library" lors de l'ajout de la référence.
Le document est-il pour passer à HTMLAgilityPAck maintenant dans " sr " et de cette juste besoin de la manipulation?
quelle heure est-webBrowser1?
Juste pour la référence, si vous êtes en cours d'exécution pas en WinForms (ou tout STA) le contexte, vous aurez pour démarrer le WebBrowser dans STA conteneur. Quelque chose comme ceci: var t = new Thread(MyThreadStartMethod); t.SetApartmentState(N'.STA); t.Start();
Je vais avoir le même problème je veux récupérer le contenu de la table qui est chargé dynamiquement avec JS le div qui est créé par JS son id est packageTabContainer mais je reçois null, j'ai essayé la solution, mais ne pas obtenir le contenu est ici le lien, je suis besoin d'extraire. ikea.com/qa/en/catalog/products/60368726

OriginalL'auteur Nick

1

Serait Le sélénium faire l'affaire. Pour autant que je suis conscient qu'il crée des instances de moteurs de navigateur.. sorte de et devrait permettre de js pour être exécutée et vous permettre d'obtenir le résultat de la manipulés DOM.

J'ai essayé moi-même hier soir, avec le Sélénium (quoique avec une attente) et elle a permis le javascript sur la page pour mettre à jour le DOM et j'ai pu accéder à des changements pour le DOM via le code.

OriginalL'auteur Lee Englestone

-5

Utiliser HTML Agility pack de document de la méthode suivante.

htmlAgilityPackDocument.LoadHtml(this.browser.DocumentText);

if (this.browser.Document.GetElementsByTagName("html")[0] != null)
    _htmlAgilityPackDocument.LoadHtml(this.browser.Document.GetElementsByTagName("html")[0].OuterHtml);

OriginalL'auteur dev

Vous devez vous connecter pour publier un commentaire.