Valider (X)HTML en Python

Quelle est la meilleure façon d'aller sur la validation d'un document suit une certaine version de HTML (prefereably que je peux préciser)? Je aimerais être en mesure de savoir d'où les échecs se produisent, comme dans un basé sur le web programme de validation, sauf dans un natif Python app.

Veuillez noter que la validation est différent de rangement! Certaines des réponses que les gens sont d'affichage sont automatiquement corriger HTML, au lieu de se contenter de vérifier si le code HTML est valide ou pas.

InformationsquelleAutor cdleary | 2008-08-30

10

XHTML est facile, utilisez lxml.

HTML est plus difficile, car il n'y a pas été traditionnellement comme beaucoup d'intérêt dans le processus de validation parmi les HTML foule (exécuter StackOverflow lui-même par le biais d'un programme de validation, aïe). La solution la plus simple serait d'exécuter des applications externes telles que nsgmls ou OpenJade, puis d'analyser leur sortie.

InformationsquelleAutor John Millikin
24

PyTidyLib est une belle binding python pour de HTML Tidy. Leur exemple:
```
from tidylib import tidy_document
document, errors = tidy_document('''<p>f&otilde;o <img src="bar.jpg">''',
    options={'numeric-entities':1})
print document
print errors
```
En outre, il est compatible avec les l'héritage de HTML Tidy et la les nouvelles de l'ordre, html5.
- Paquet dans Debian: python-tidylib
InformationsquelleAutor Dave Brondsema

Je pense que la façon la plus élégante pour invoquer le Service de Validation du W3C à

http://validator.w3.org/

par programmation. Peu de gens savent que vous n'avez pas à l'écran-gratter les résultats afin d'obtenir des résultats, car les retours de service non-standard en-tête HTTP paramètres

X-W3C-Validator-Recursion: 1
X-W3C-Validator-Status: Invalid (or Valid)
X-W3C-Validator-Errors: 6
X-W3C-Validator-Warnings: 0

pour indiquer la validité et le nombre d'erreurs et d'avertissements.

Par exemple, la ligne de commande

curl -I "http://validator.w3.org/check?uri=http%3A%2F%2Fwww.stalsoft.com"

retourne

HTTP/1.1 200 OK
Date: Wed, 09 May 2012 15:23:58 GMT
Server: Apache/2.2.9 (Debian) mod_python/3.3.1 Python/2.5.2
Content-Language: en
X-W3C-Validator-Recursion: 1
X-W3C-Validator-Status: Invalid
X-W3C-Validator-Errors: 6
X-W3C-Validator-Warnings: 0
Content-Type: text/html; charset=UTF-8
Vary: Accept-Encoding
Connection: close

Ainsi, vous pouvez élégamment appeler le Service de Validation du W3C et d'extraire les résultats de l'en-tête HTTP:

# Programmatic XHTML Validations in Python
# Martin Hepp and Alex Stolz
# [email protected] /[email protected]

import urllib
import urllib2

URL = "http://validator.w3.org/check?uri=%s"
SITE_URL = "http://www.heppnetz.de"

# pattern for HEAD request taken from 
# http://stackoverflow.com/questions/4421170/python-head-request-with-urllib2

request = urllib2.Request(URL % urllib.quote(SITE_URL))
request.get_method = lambda : 'HEAD'
response = urllib2.urlopen(request)

valid = response.info().getheader('X-W3C-Validator-Status')
if valid == "Valid":
    valid = True
else:
    valid = False
errors = int(response.info().getheader('X-W3C-Validator-Errors'))
warnings = int(response.info().getheader('X-W3C-Validator-Warnings'))

print "Valid markup: %s (Errors: %i, Warnings: %i) " % (valid, errors, warnings)

Il ya aussi une API de Service Web pour le Validateur du W3C et un binding Python pour ça: bitbucket.org/nmb10/py_w3c
Cette url est de retour 302 maintenant, et non pas 200. Ne fonctionne pas aujourd'hui!

InformationsquelleAutor Martin Hepp

Vous pouvez décider d'installer le validateur HTML localement et créer un client pour demander la validation.

Ici, j'avais fait un programme pour valider une liste d'url dans un fichier txt. J'ai été vérifier simplement la TÊTE pour obtenir la validation de l'état, mais si vous faites un OBTENIR vous obtenez les résultats complets. Regardez l'API de le validateur, il ya beaucoup d'options pour cela.

import httplib2
import time

h = httplib2.Http(".cache")

f = open("urllistfile.txt", "r")
urllist = f.readlines()
f.close()

for url in urllist:
   # wait 10 seconds before the next request - be nice with the validator
   time.sleep(10)
   resp= {}
   url = url.strip()
   urlrequest = "http://qa-dev.w3.org/wmvs/HEAD/check?doctype=HTML5&uri="+url
   try:
      resp, content = h.request(urlrequest, "HEAD")
      if resp['x-w3c-validator-status'] == "Abort":
         print url, "FAIL"
      else:
         print url, resp['x-w3c-validator-status'], resp['x-w3c-validator-errors'], resp['x-w3c-validator-warnings']
   except:
      pass

Malheureusement, html5lib ne pas valider.

InformationsquelleAutor karlcow

5

Essayer tidylib. Vous pouvez obtenir quelques très de base des liaisons dans le cadre de la elementtidy module (construit elementtrees à partir de documents HTML). http://effbot.org/downloads/#elementtidy
```
>>> import _elementtidy
>>> xhtml, log = _elementtidy.fixup("<html></html>")
>>> print log
line 1 column 1 - Warning: missing <!DOCTYPE> declaration
line 1 column 7 - Warning: discarding unexpected </html>
line 1 column 14 - Warning: inserting missing 'title' element
```
De l'analyse du journal devrait vous donner presque tout ce dont vous avez besoin.

InformationsquelleAutor Aaron Maenpaa
2

Je pense que HTML tidy faire ce que vous souhaitez. Il y a un binding Python pour elle.

InformationsquelleAutor Neall

Dans mon cas, le python W3C/HTML validation des paquets n'ont pas de travail pip search w3c (à compter de septembre 2016).

J'ai résolu ce problème avec

$ pip install requests

$ python
Python 2.7.12 (default, Jun 29 2016, 12:46:54)
[GCC 4.2.1 Compatible Apple LLVM 6.0 (clang-600.0.57)] on darwin
Type "help", "copyright", "credits" or "license" for more information.

>>> r = requests.post('https://validator.w3.org/nu/', 
...                    data=file('index.html', 'rb').read(), 
...                    params={'out': 'json'}, 
...                    headers={'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36', 
...                    'Content-Type': 'text/html; charset=UTF-8'})

>>> r.text
>>> u'{"messages":[{"type":"info", ...

>>> r.json()
>>> {u'messages': [{u'lastColumn': 59, ...

Plus de documentation ici python demandes, Le Validateur du W3C API

InformationsquelleAutor user9869932

-1

C'est très basique, le validateur html basé sur lxml de HTMLParser. Il ne nécessite pas de connexion internet.
```
_html_parser = None
def validate_html(html):
    global _html_parser
    from lxml import etree
    from StringIO import StringIO
    if not _html_parser:
        _html_parser = etree.HTMLParser(recover = False)
    return etree.parse(StringIO(html), _html_parser)
```
Noter que ce ne sera pas vérifier les balises de fermeture, ainsi, par exemple, la commande suivante va passer:
```
validate_html("<a href='example.com'>foo</a>")
```
Cependant, suivant la coutume:
```
validate_html("<a href='example.com'>foo</a")
```
- Quand j'ai trouvé cette réponse, le score était de -1. Mais c'est le seul qui marche pour moi, sans installer quoi que ce soit d'autre. Je vous remercie.
InformationsquelleAutor speedplane

Vous devez vous connecter pour publier un commentaire.