Quelle est la meilleure façon d'analyser le code html dans google apps script

var page = UrlFetchApp.fetch(contestURL);
var doc = XmlService.parse(page);

Le code ci-dessus donne une erreur d'analyse lorsqu'il est utilisé, cependant si je remplace le XmlService de classe avec le obsolète de la classe Xml, avec clément indicateur est défini, il analyse le code html correctement.

var page = UrlFetchApp.fetch(contestURL);
var doc = Xml.parse(page, true);

Le problème est causé principalement en raison de l'absence CDATA dans la partie javascript de l'html et de l'analyseur se plaint avec l'erreur suivante.

The entity name must immediately follow the '&' in the entity reference.

Même si j'ai supprimer tous les <script>(.*?)</script> en utilisant les regex, il se plaint encore parce que le <br> les balises ne sont pas fermées.
Est-il un moyen propre de l'analyse html dans une arborescence DOM.

  • Voir stackoverflow.com/a/1732454/362634 ...
  • Vous pourriez peut-être aller chercher la page et à l'aide d'un analyseur à dépouiller le unwants balises, puis de lancer une autre analyse, qui peut être possible. Je sais que XmlService fonctionne bien, mais est une sorte de buggy.
InformationsquelleAutor copperhead | 2013-10-18