Performant d'analyse de pages avec Node.js et XPath

Je suis dans le web scraping avec Node.js. Je voudrais utiliser XPath que je peux générer des semi-automatiquement avec plusieurs sortes de GUI. Le problème est que je ne peux pas trouver une façon de le faire efficacement.

jsdom est extrêmement lent. C'est l'analyse 500KiB fichier de une minute avec une pleine charge CPU et une lourde empreinte mémoire.
Bibliothèques populaires pour analyse HTML (par exemple,cheerio) ni de support de XPath, ni exposer conforme au W3C DOM.
Efficace d'analyse HTML est, bien évidemment, mis en œuvre dans WebKit, donc à l'aide d' phantom ou casper serait une option, mais ceux-ci exigent d'être en cours d'exécution dans une manière spéciale, et pas seulement node <script>. Je ne peut pas compter sur le risque impliqué par ce changement. Par exemple, il est beaucoup plus difficile de trouver comment exécuter node-inspector avec phantom.
Spooky est une option, mais c'est buggy assez, de sorte qu'il ne fonctionne pas sur ma machine.

Quel est le bon chemin pour parser une page HTML avec XPath alors?

npmjs.org/package/xpath ou github.com/yaronn/xpath.js?
Tout performant DOM mise en œuvre pour les faire fonctionner?

InformationsquelleAutor polkovnikov.ph | 2014-09-09

35

Vous pouvez le faire en plusieurs étapes.
1. Analyser HTML avec parse5. La mauvaise partie est que le résultat n'est pas DOM. Si elle est assez rapide et le W3C-compiant.
2. Sérialiser XHTML avec xmlserializer qui accepte les DOM-comme des structures de parse5 comme entrée.
3. Parse que XHTML nouveau avec xmldom. Maintenant, vous avez enfin que DOM.
4. La xpath bibliothèque s'appuie sur xmldom, vous permettant d'exécuter des requêtes XPath. Sachez que le XHTML a son propre espace de noms, et les requêtes comme //a ne fonctionne pas.
Finalement, vous obtenez quelque chose comme ceci.
```
const fs = require('mz/fs');
const xpath = require('xpath');
const parse5 = require('parse5');
const xmlser = require('xmlserializer');
const dom = require('xmldom').DOMParser;

(async () => {
    const html = await fs.readFile('./test.htm');
    const document = parse5.parse(html.toString());
    const xhtml = xmlser.serializeToString(document);
    const doc = new dom().parseFromString(xhtml);
    const select = xpath.useNamespaces({"x": "http://www.w3.org/1999/xhtml"});
    const nodes = select("//x:a/@href", doc);
    console.log(nodes);
})();
```
- Merci, fonctionne parfaitement. Sauf que j'avais besoin de remplacer var document = parser.parse(html.toString()); par var document = parse5.parse(html.toString()); et de se débarrasser de la ligne var parser = new parse5.Parser(); (à l'aide de parse5 version 2.0.2)
- Vous êtes de chargement tout en mémoire (la totalité du DOM)... est-il un plus de mémoire manière efficace de faire cela?
InformationsquelleAutor pda
13

Libxmljs est actuellement le plus rapide de mise en œuvre (quelque chose comme un point de repère) puisque c'est seulement les liaisons vers la LibXML C-bibliothèque qui prend en charge XPath 1.0 requêtes:
```
var libxmljs = require("libxmljs");
var xmlDoc = libxmljs.parseXml(xml);
//xpath queries
var gchild = xmlDoc.get('//grandchild');
```
Cependant, vous avez besoin de désinfecter votre HTML et de le convertir en XML. Pour cela, vous pouvez soit utiliser le HTMLTidy utilitaire de ligne de commande (tidy -q -asxml input.html), ou si vous souhaitez conserver le nœud-seulement, quelque chose comme xmlserializer devrait faire l'affaire.

InformationsquelleAutor mb21
1

J'ai commencé à utiliser npm install htmlstrip-natif qui utilise un natif de la mise en œuvre pour analyser et en extraire les éléments pertinents parties html. Il prétend être 50 fois plus rapide que le pur js mise en œuvre (je n'ai pas vérifié que la demande de remboursement).

Selon vos besoins, vous pouvez utiliser les balises html-bande directement, ou soulevez le code et les liaisons de vous faire propre C++ utilisé en interne dans htmlstrip indigènes

Si vous souhaitez utiliser xpath, puis utiliser le wrapper déjà disponible ici;
https://www.npmjs.org/package/xpath
- 0. Votre lien est rompu. 1. Cette bibliothèque est de l'analyse des entités, et c'est tout à fait évident à partir de son nom. 2. XPath n'est même pas mentionné dans votre réponse.
- Fixe le lien brisé; ajout d'un lien vers le xpath mise en œuvre, une raison quelconque vous n'avez pas trouvé/utilisation que vous-même?
- A également été pointant vers le mauvais code .. fixe....
- Que xpath de la bibliothèque doit être exécuté sur une sorte de DOM. La seule solution qui analyse le code HTML est jsdom, qui est lent comme l'enfer. C'est le premier élément de la liste de là-haut. Avez-vous lu la question?
- Si vous le lisez l' npm xpath de la documentation, vous verriez qu'il est conseillé d'utiliser la xmldom .
- Et comment xmldom est censé analyser HTML?
- tout comme dans l'exemple de la réponse que vous avez accepté.....
- C'était une très évident façon.
InformationsquelleAutor Soren
1

Je pense que L'osmose est ce que vous cherchez.
- Utilise natif libxml C liaisons
- Prend en charge CSS 3.0 et XPath 1.0 sélecteur hybrides
- Grésillement sélecteurs, de la Nappe de sélecteurs, et plus
- Pas de grandes dépendances comme jQuery, cheerio, ou jsdom
- Analyseur HTML fonctionnalités
  
  Rapide analyse
  
  Très rapide de la recherche
  
  Petite empreinte mémoire
- HTML DOM
  
  De la charge et de la recherche de contenu ajax
  
  DOM l'interaction et les événements
  
  Exécuter embarqués et les scripts distants
  
  Exécuter du code dans les DOM
Voici un exemple:
```
osmosis.get(url)
    .find('//div[@class]/ul[2]/li')
    .then(function () {
        count++;
    })
    .done(function () {
        assert.ok(count == 2);
        assert.done();
    });
```
InformationsquelleAutor rchipka
0

Il y a peut-être jamais une bonne façon d'analyser les pages HTML. Un premier examen sur le web scraping et de l'analyse des me montre que Scrapy peut être un bon candidat pour votre besoin. Il accepte à la fois les CSS et XPath sélecteurs. Dans le domaine de la Node.js, nous avons une assez nouveau module nœud-osmose. Ce module est construit sur libxmljs de sorte qu'il est censé supporter CSS et XPath bien que je n'en trouve aucun exemple à l'aide de XPath.

InformationsquelleAutor pateheo

Vous devez vous connecter pour publier un commentaire.