Die Validierung von XML-basierten Auszeichnungssprachen ist denkbar simpel, die Validierung von HTML5 gibt sogar eine Diplomarbeit her?
Die Diplomarbeit ist die wissenschaftliche Dokumentation des HTML5-Validators als Open-Source-Softwareprojekt (auf dem damaligen Stand). Wie es bei wissenschaftlichen Arbeiten üblich ist, behandelt ein großer Teil die Einordnung in den Forschungskontext, die Vorstellung der Tools und die kritische Diskussion der eigenen Ergebnisse. Aber ja, das Software-Projekt dahinter ist sehr kompliziert (http://about.validator.nu/, https://bitbucket.org/validator).
Die Validierung von (X)HTML war nie einfach. Sie war insofern einfach, dass die SGML-/XML-DTDs nicht die vollen Regeln des Standards geprüft haben. DTD konnte ja noch nicht einmal alle Attributwerte prüfen. XHTML in XML Schema bzw. XHTML M12n in DTD und XML Schema war da schon genauer und versuchte, so viele »menschenlesbare« Erfordernisse des Standards in die maschinenlesbare Grammatik zu gießen. In dieser Tradition hat dann Henri Sivonen angefangen, die noch detaillierteren und komplexeren Regeln von HTML5 in Schemata zu gießen. Dabei hat er RELAX NG und Schematron als Sprachen/Tools verwendet sowie weitere händische Überprüfungen, weil sich viele Regeln nicht in den Schema-Sprachen ausdrücken lassen.
Mathias