Meilleur regex pour attraper les attaques de type XSS (Cross-site Scripting) attaque (en Java)?

Jeff fait posté à ce sujet dans Nettoyer le code HTML. Mais son exemple est en C# et en fait je suis plus intéressé par une version de Java. Quelqu'un aurait-il une meilleure version de Java? Son exemple en est assez bon pour convertir directement à partir de C# Java?

[Mise à jour] j'ai mis une prime sur cette question, parce que ce n'était pas aussi populaire quand j'ai posé la question comme elle l'est aujourd'hui (*). Comme pour tout ce qui concerne la sécurité, les plus de gens se tournent vers elle, et le meilleur c'est!

(*) En fait, je pense que c'est encore en bêta fermée

Quoi de plus avez-vous besoin? Les réponses semblent bonnes pour moi.

InformationsquelleAutor Thierry-Dimitri Roy | 2008-08-24

67

Ne pas le faire avec des expressions régulières. Rappelez-vous, vous n'êtes pas protéger seulement contre un code HTML valide; vous êtes la protection contre le DOM que les navigateurs web créer. Les navigateurs peuvent être trompé en produisant valide DOM à partir de code HTML non valide assez facilement.

Voir, par exemple, cette liste de obscurci les attaques XSS. Êtes-vous prêt à adapter une regex pour éviter ce monde réel attaque sur Yahoo et Hotmail sur IE6/7/8?
```
<HTML><BODY>
<?xml:namespace prefix="t" ns="urn:schemas-microsoft-com:time">
<?import namespace="t" implementation="#default#time2">
<t:set attributeName="innerHTML" to="XSS&lt;SCRIPT DEFER&gt;alert(&quot;XSS&quot;)&lt;/SCRIPT&gt;">
</BODY></HTML>
```
Comment au sujet de cette attaque, qui fonctionne sous IE6?
```
<TABLE BACKGROUND="javascript:alert('XSS')">
```
Comment sur des attaques qui ne sont pas répertoriées sur ce site? Le problème avec Jeff approche est qu'elle n'est pas une "liste blanche", comme le prétend. Comme quelqu'un sur cette page habilement notes:

Le problème, c'est que le code html
doit être propre. Il y a des cas où
vous pouvez passer dans piraté html, et il
ne correspond pas, dans quel cas il va
de retour de l'piraté chaîne html comme il
ne correspondent à rien de ce à remplacer. Cette
n'est pas strictement une liste blanche.

Je dirais un outil comme AntiSamy. Il fonctionne en analysant le code HTML, puis traversant les DOM et en supprimant tout ce qui n'est pas dans le configurable liste blanche. La différence majeure est la capacité à gérer harmonieusement code HTML mal formé.

La meilleure partie est qu'il fait des tests unitaires pour toutes les attaques XSS sur le site ci-dessus. D'ailleurs, quoi de plus simple que cet appel d'API:
```
public String toSafeHtml(String html) throws ScanException, PolicyException {

    Policy policy = Policy.getInstance(POLICY_FILE);
    AntiSamy antiSamy = new AntiSamy();
    CleanResults cleanResults = antiSamy.scan(html, policy);
    return cleanResults.getCleanHTML().trim();
}
```
- AntiSamy ressemble beaucoup! Aussi, à l'aide de différentes politiques est une bonne idée car cela permet de garder le nettoyage de règles en dehors du code plus facile à maintenir. C'est clairement une très bonne approche. Bravo.
- +1. Vous ne pouvez pas fiable du processus de HTML à l'aide de regex. L'analyse en un facilement filtrables, DOM, puis de les utiliser et de les bonnes de la sérialisation, est de loin la plus sensible.
- J'aime vraiment cette réponse, car elle ne répond pas directement à la question, mais l'adresse la question de la place!
- Votre deuxième lien est mort.
InformationsquelleAutor Chase Seibert
10

L'Open Web Application Security Project (OWASP) avons quelques suggestions pour l'assainissement de votre entrée. Voir par exemple:
- Tous les liens sont brisés aujourd'hui.
InformationsquelleAutor Einar
4

Je suis pas convaincu que l'utilisation d'une expression régulière est le meilleur moyen pour trouver tous les code suspect. Les expressions régulières sont assez facile de tromper spécialement lorsque vous traitez avec rompu HTML. Par exemple, l'expression régulière répertoriés dans le Désinfecter HTML lien ne parviennent pas à éliminer tous les 'a' éléments qui possèdent un attribut entre le nom de l'élément et l'attribut 'href':

< alt="xss, injection" href="http://www.malicous.com/bad.php" >

Une façon plus robuste de suppression de code malveillant est de s'appuyer sur un Analyseur XML qui peut gérer tous les types de documents HTML (bien Rangé, TagSoup, etc) et de sélectionner les éléments à supprimer avec une expression XPath. Une fois le document HTML est analysé dans un document DOM les éléments de revome peuvent être trouvés facilement et en toute sécurité. C'est même facile à faire avec XSLT.
- +1, voir ma réponse pour un monde réel de l'API Java qui fait exactement cela
InformationsquelleAutor potyl

J'ai extrait de NoScript meilleur Anti-XSS addon, voici la Regex:
Travail impeccable:

<[^\w<>]*(?:[^<>"'\s]*:)?[^\w<>]*(?:\W*s\W*c\W*r\W*i\W*p\W*t|\W*f\W*o\W*r\W*m|\W*s\W*t\W*y\W*l\W*e|\W*s\W*v\W*g|\W*m\W*a\W*r\W*q\W*u\W*e\W*e|(?:\W*l\W*i\W*n\W*k|\W*o\W*b\W*j\W*e\W*c\W*t|\W*e\W*m\W*b\W*e\W*d|\W*a\W*p\W*p\W*l\W*e\W*t|\W*p\W*a\W*r\W*a\W*m|\W*i?\W*f\W*r\W*a\W*m\W*e|\W*b\W*a\W*s\W*e|\W*b\W*o\W*d\W*y|\W*m\W*e\W*t\W*a|\W*i\W*m\W*a?\W*g\W*e?|\W*v\W*i\W*d\W*e\W*o|\W*a\W*u\W*d\W*i\W*o|\W*b\W*i\W*n\W*d\W*i\W*n\W*g\W*s|\W*s\W*e\W*t|\W*i\W*s\W*i\W*n\W*d\W*e\W*x|\W*a\W*n\W*i\W*m\W*a\W*t\W*e)[^>\w])|(?:<\w[\s\S]*[\s\0\/]|['"])(?:formaction|style|background|src|lowsrc|ping|on(?:d(?:e(?:vice(?:(?:orienta|mo)tion|proximity|found|light)|livery(?:success|error)|activate)|r(?:ag(?:e(?:n(?:ter|d)|xit)|(?:gestur|leav)e|start|drop|over)?|op)|i(?:s(?:c(?:hargingtimechange|onnect(?:ing|ed))|abled)|aling)|ata(?:setc(?:omplete|hanged)|(?:availabl|chang)e|error)|urationchange|ownloading|blclick)|Moz(?:M(?:agnifyGesture(?:Update|Start)?|ouse(?:PixelScroll|Hittest))|S(?:wipeGesture(?:Update|Start|End)?|crolledAreaChanged)|(?:(?:Press)?TapGestur|BeforeResiz)e|EdgeUI(?:C(?:omplet|ancel)|Start)ed|RotateGesture(?:Update|Start)?|A(?:udioAvailable|fterPaint))|c(?:o(?:m(?:p(?:osition(?:update|start|end)|lete)|mand(?:update)?)|n(?:t(?:rolselect|extmenu)|nect(?:ing|ed))|py)|a(?:(?:llschang|ch)ed|nplay(?:through)?|rdstatechange)|h(?:(?:arging(?:time)?ch)?ange|ecking)|(?:fstate|ell)change|u(?:echange|t)|l(?:ick|ose))|m(?:o(?:z(?:pointerlock(?:change|error)|(?:orientation|time)change|fullscreen(?:change|error)|network(?:down|up)load)|use(?:(?:lea|mo)ve|o(?:ver|ut)|enter|wheel|down|up)|ve(?:start|end)?)|essage|ark)|s(?:t(?:a(?:t(?:uschanged|echange)|lled|rt)|k(?:sessione|comma)nd|op)|e(?:ek(?:complete|ing|ed)|(?:lec(?:tstar)?)?t|n(?:ding|t))|u(?:ccess|spend|bmit)|peech(?:start|end)|ound(?:start|end)|croll|how)|b(?:e(?:for(?:e(?:(?:scriptexecu|activa)te|u(?:nload|pdate)|p(?:aste|rint)|c(?:opy|ut)|editfocus)|deactivate)|gin(?:Event)?)|oun(?:dary|ce)|l(?:ocked|ur)|roadcast|usy)|a(?:n(?:imation(?:iteration|start|end)|tennastatechange)|fter(?:(?:scriptexecu|upda)te|print)|udio(?:process|start|end)|d(?:apteradded|dtrack)|ctivate|lerting|bort)|DOM(?:Node(?:Inserted(?:IntoDocument)?|Removed(?:FromDocument)?)|(?:CharacterData|Subtree)Modified|A(?:ttrModified|ctivate)|Focus(?:Out|In)|MouseScroll)|r(?:e(?:s(?:u(?:m(?:ing|e)|lt)|ize|et)|adystatechange|pea(?:tEven)?t|movetrack|trieving|ceived)|ow(?:s(?:inserted|delete)|e(?:nter|xit))|atechange)|p(?:op(?:up(?:hid(?:den|ing)|show(?:ing|n))|state)|a(?:ge(?:hide|show)|(?:st|us)e|int)|ro(?:pertychange|gress)|lay(?:ing)?)|t(?:ouch(?:(?:lea|mo)ve|en(?:ter|d)|cancel|start)|ime(?:update|out)|ransitionend|ext)|u(?:s(?:erproximity|sdreceived)|p(?:gradeneeded|dateready)|n(?:derflow|load))|f(?:o(?:rm(?:change|input)|cus(?:out|in)?)|i(?:lterchange|nish)|ailed)|l(?:o(?:ad(?:e(?:d(?:meta)?data|nd)|start)?|secapture)|evelchange|y)|g(?:amepad(?:(?:dis)?connected|button(?:down|up)|axismove)|et)|e(?:n(?:d(?:Event|ed)?|abled|ter)|rror(?:update)?|mptied|xit)|i(?:cc(?:cardlockerror|infochange)|n(?:coming|valid|put))|o(?:(?:(?:ff|n)lin|bsolet)e|verflow(?:changed)?|pen)|SVG(?:(?:Unl|L)oad|Resize|Scroll|Abort|Error|Zoom)|h(?:e(?:adphoneschange|l[dp])|ashchange|olding)|v(?:o(?:lum|ic)e|ersion)change|w(?:a(?:it|rn)ing|heel)|key(?:press|down|up)|(?:AppComman|Loa)d|no(?:update|match)|Request|zoom))[\s\0]*=

Test: http://regex101.com/r/rV7zK8

Je pense que c'bloquer 99% XSS parce que c'est une partie de NoScript, un addon qui me mis à jour régulièrement

ne pas compiler en java: Causée par: java.util.regex.PatternSyntaxException: Illégal octal séquence d'échappement près de l'indice 525
J'en ai essayé un extrêmement peu simple de XSS dans ce regex101 chaîne de test et il a brisé mon premier essai. Pas très impeccable. Que je n'ai fait ajouter un lien avec un javascript: href.

InformationsquelleAutor user3709489

1
```
^(\s|\w|\d|<br>)*?$ 
```
Valider les caractères, chiffres, espaces et aussi la <br> tag.
Si vous voulez plus de risques, vous pouvez ajouter d'autres balises comme
```
^(\s|\w|\d|<br>|<ul>|<\ul>)*?$
```
InformationsquelleAutor
1

Cette question illustre parfaitement une grande application à l'étude de la Théorie de l'informatique. La théorie de l'informatique est un domaine qui se concentre sur la production de représentations mathématiques de l'informatique.

Certains des plus profondes de la recherche dans le calcul de la théorie est la preuve, qui illustrent les relations des diverses langues.

Une partie de la langue des relations que le calcul de théoriciens ont prouvé comprennent:

Cela montre que sans contexte langues sont plus puissants que les langages réguliers. Ainsi, si une langue est explicitement sans contexte (contexte libre et non régulier), alors il est impossible pour tout expression régulière à la reconnaître.

JavaScript est à tout le moins, sans contexte, ainsi, nous savons à cent pour cent de certitude que la conception d'une expression régulière (regex) capable d'attraper tous les XSS est une tâche impossible.

InformationsquelleAutor Philip DiSarro
0

Le plus gros problème en utilisant jeffs est le code de @ qui actuellement n'est pas disponible.

Je serais probablement juste prendre le "raw" regexp de jeffs code si j'en avais besoin et le coller dans

http://www.cis.upenn.edu/~matuszek/General/RegexTester/regex-tester.html

et de voir les choses qui ont besoin d'évasion obtenir échappé et ensuite de l'utiliser.

La prise de l'utilisation de cette expression dans l'esprit, je serais personnellement me faire comprendre exactement ce que je faisais, pourquoi et quelles seraient les conséquences si je n'ai pas de réussir, avant de copier/coller quoi que ce soit, comme les autres réponses essayer de vous aider avec.

(C'est propbably assez judicieux conseils pour tout copier/coller)

InformationsquelleAutor svrist
0

[\s\w\.]*. Si elle ne correspond pas, vous avez XSS. Peut-être. Prendre note que cette expression permet uniquement de lettres, de chiffres, et des périodes. Il évite tous les symboles, même ceux qui sont utiles, de peur de XSS. Une fois que vous laissez &, vous avez des soucis. Et rien que le remplacement de toutes les instances de & avec & n'est pas suffisant. Trop compliqué de confiance :P. Évidemment, cela empêche beaucoup de légitime texte (que Vous pouvez remplacer toutes ces différences de caractères avec un ! ou quelque chose), mais je pense qu'il va tuer XSS.

L'idée de simplement analyser comme du html et de générer de nouveaux html est probablement mieux.

InformationsquelleAutor Brian
0

Un vieux thread mais peut-être que ce sera utile pour d'autres utilisateurs. Il y a un maintenu la couche de sécurité de l'outil pour php: https://github.com/PHPIDS/ Il est basé sur un ensemble de regex que vous pouvez trouver ici:

https://github.com/PHPIDS/PHPIDS/blob/master/lib/IDS/default_filter.xml

InformationsquelleAutor KIC

Vous devez vous connecter pour publier un commentaire.