Utilisation jsoup pour parser XML - prévenir jsoup de “nettoyage” <link> balises
Dans la plupart des cas, je n'ai aucun problème avec l'aide de jsoup pour parser XML. Cependant, si il y a <link>
balises dans le document XML, jsoup va changer <link>some text here</link>
à <link />some text here
. Ce qui rend impossible d'extraire du texte à l'intérieur de la <link>
balise en utilisant le sélecteur CSS.
Alors, comment prévenir jsoup de "nettoyage" <link>
tags?
Utilisez simplement ignoreContentType(true). J'ai utilisé cette réponse: stackoverflow.com/questions/27708009/...
OriginalL'auteur Ethan | 2011-07-17
Vous devez vous connecter pour publier un commentaire.
Dans jsoup 1.6.2 j'ai ajouté un analyseur XML mode, qui analyse l'entrée-est, sans appliquer le HTML5 analyser les règles (contenu de l'élément, la structure du document, etc). Ce mode permet de conserver le texte dans un
<link>
tag, et de permettre à ses multiples, etc.Voici un exemple:
Retourne:
OriginalL'auteur Jonathan Hedley
Ne pas stocker n'importe quel texte à l'intérieur de
<link>
élément - il est invalide. Si vous avez besoin d'informations supplémentaires, garder à l'intérieur de HTML5data-*
attributs. Je suis sûr que jsoup de ne pas y toucher.OriginalL'auteur Nowaker
Il peut y avoir une solution pour ce. Avant de passer XML pour jsoup. Transformer le fichier XML pour remplacer tous avec quelques mannequin balise de dire et de faire ce que vous voulez faire.
OriginalL'auteur Vinay Lodha