Hi Christian,
<gedankensprung /> Ein Strict-HTML-Junkbuster waere was feines. Also eine Art Webwasher, der nur den Teil von Webseiten durchlaesst, der den Regeln des strikten HTML entspricht. Denn die nervigsten Webseiten kommen ja nicht von denen, die mit HTML und CSS sauber umgehen koennen (CSS-Designsuenden sind noch nicht so verbreitet), sondern von den Klickproleten mit Frontpage & Co.
Forget it. Wie soll der mit falschen Verschachtelungen umgehen können?
kommt darauf an, was Du als Ergebnis erwartest.
First-Fit oder Best-Fit?
Willst Du eine algorithmisch einfache Lösung (dann analog zum Validator: Alles als gewollt und korrekt annehmen bis zum Beweis des Gegenteils, danach alles ignorieren, bis wieder irgendwas Passendes kommt - ja, das _kann_ die Seite zerfetzen, ich weiß) oder eine intelligente, die mit Backtracking verschiedene Versuche macht und dann "möglichst viel" HTML-Quellcode erhält?
Disassembliere doch mal den M$IE ;-) - wenn der fehlerhafte Seiten erkennen und interpretieren kann, müßte man einfach nur die Interpretationsroutine minimal anpassen ...
Viele Grüße
Michael
T'Pol: I apologize if I acted inappropriately.
V'Lar: Not at all. In fact, your bluntness made me reconsider some of my positions. Much as it has now.