Jsoup.propre sans l'ajout d'entités html

Je suis le nettoyage de certains texte des balises HTML (comme <script>) à l'aide de

String clean = Jsoup.clean(someInput, Whitelist.basicWithImages());

Le problème est qu'il remplace par exemple å avec å (ce qui pose des problèmes pour moi, car il n'est pas "pur xml").

Par exemple

Jsoup.clean("hello å <script></script> world", Whitelist.basicWithImages())

rendements

"hello &aring;  world"

mais je voudrais

"hello å  world"

Est-il un moyen simple pour y parvenir? (I. e. plus simple que de convertir å retour à å dans le résultat.)

InformationsquelleAutor aioobe | 2011-12-30

34

Vous pouvez configurer Jsoup de s'échapper mode: à l'Aide de EscapeMode.xhtml vous donnera de sortie w/o des entités.

Ici un extrait qui accepte str en entrée, et le nettoie à l'aide de Whitelist.simpleText():
```
//Parse str into a Document
Document doc = Jsoup.parse(str);

//Clean the document.
doc = new Cleaner(Whitelist.simpleText()).clean(doc);

//Adjust escape mode
doc.outputSettings().escapeMode(EscapeMode.xhtml);

//Get back the string of the body.
str = doc.body().html();
```
- En quelque sorte il n'a pas de travail pour • entité.
- Remarque: Plutôt que d'interagir directement avec un Nettoyeur de l'objet, utilisez la nettoyer des méthodes dans Jsoup.
InformationsquelleAutor bmoc
10

Il y a déjà des demandes de fonctionnalités sur le site web de Jsoup. Vous pouvez étendre le code source de soi-même par l'ajout d'une nouvelle Carte vide et un nouvel échappement type. Si vous ne voulez pas faire cela, vous pouvez utiliser StringEscapeUtils de apache commons.
```
public static String getTextOnlyFromHtmlText(String htmlText){
    Document doc = Jsoup.parse( htmlText );
    doc.outputSettings().charset("UTF-8");
    htmlText = Jsoup.clean( doc.body().html(), Whitelist.simpleText() );
    htmlText = StringEscapeUtils.unescapeHtml(htmlText);
    return htmlText;
}
```
- bon point avec le StringEscapeUtils méthode de Frank. Très utile, non seulement dans ce cas
- Ce serait une très mauvaise idée. Si l'entrée est <script>alert('Hello');</script>, vous allez effectivement injecter dangereux HTML et permettre attaque XSS.
- Cette fonctionnalité est implémentée je Jsoup. Voir L'Analyseur.unescapeEntities, jsoup.org/apidocs/org/jsoup/parser/Parser.html
- Point intéressant, alors Comment voulez-vous nettoyer les entrées de cette <script>alert('Hello');</script> ?
InformationsquelleAutor Frank Szilinski

Réponse de &bmoc fonctionne très bien, mais vous pouvez utiliser une solution plus courte :

//Clean html
Jsoup.clean(someInput, "yourBaseUriOrEmpty", Whitelist.simpleText(), new OutputSettings().escapeMode(EscapeMode.xhtml))

InformationsquelleAutor ersefuril

Un moyen plus simple de le faire est

//clean the html
String output = Jsoup.clean(html, Whitelist.basicWithImages());

//Parse string into a document
Document doc = Jsoup.parse(output);

//Adjust escape mode
doc.outputSettings().escapeMode(EscapeMode.xhtml);

//Get back the string
System.out.println(doc.body().html());

J'ai testé et ça marche

InformationsquelleAutor Girish

2

Accepté la réponse est à l'aide de Jsoup.parse qui semble plus lourd que ce qui se passe dans Jsoup.clean après un rapide coup d'œil à la source.

J'ai copié le code source de Jsoup.clean(...) et ajout de la ligne pour définir le mode fuite. Cela devrait éviter certaines inutiles les mesures effectuées par la méthode d'analyse car il n'a pas à analyser un ensemble de document html, mais juste la poignée d'un fragment.
```
private String clean(String html, Whitelist whitelist) {
    Document dirty = Jsoup.parseBodyFragment(html, "");
    Cleaner cleaner = new Cleaner(whitelist);
    Document clean = cleaner.clean(dirty);
    clean.outputSettings().escapeMode(EscapeMode.xhtml);
    return clean.body().html();
}
```
InformationsquelleAutor kapex
0

Analyser le code HTML d'un Document, puis utilisez un Nettoyant pour nettoyer le document et produire d'un autre, obtenir le outputSettings du document et de définir le jeu de caractères approprié et le mode fuite en xhtml, puis transformer le document à une Chaîne. Pas testé, mais devrait fonctionner.
- J'ai essayé ceci mais Jsoup au moment utilisez toujours s'échapper.
InformationsquelleAutor JB Nizet
0

Manière Simple:
```
EscapeMode em = EscapeMode.xhtml;
em.getMap().clear();

doc.outputSettings().escapeMode(em);
```
Cela permettra d'éliminer TOUS des entités html, y compris les suivants: ', ", & ,< et >. Le EscapeMode.xhtml permet à ces entités.

InformationsquelleAutor Diego Queres

Vous devez vous connecter pour publier un commentaire.