Christoph Zurnieden: HTML Scanner

Beitrag lesen

Hi,

Nun. Einfach alles innerhalb von < > und diese selbst auch ignorieren/Löschen.

Nein, das funktioniert leider nicht. Alleine schon wenn etwas Javascript mit drin ist:

  
if(i < foo && j > bar)  

Du müßtest also schonmal alles zwischen <script> und </script> rauswerfen. Dann gibt es noch die eine und auch andere Kleinigkeit und schon hast Du einen kompletten Lexer gebastelt und vier Wochen sind um.

Sowas geht also nur, wenn man das HTML gut kennt, am besten sogar noch dafür garantieren kann, das es valides XHTML ist. Im letztgenanntem Fall würde sogar Dein Algorithmus funktionieren (zumindest fast).

Es ist also im Allgemeinem günstiger zu prüfen, ob sich der Bedarf etwas einschränken läßt, wie Du auch ganz richtig erwähnt hast. Z.B. nachzuschauen, ob man nur Listen oder Tabellen benötigt, oder das Wichtige immer in einem <div id="momentous">wichtig!</div> steht o.ä.

Da ich ansonsten außer obiger Kleinigkeit rein gar nix an Deinem Posting auszusetzen habe frage ich mich: wer mag Dich denn nicht, das er Dir für Dein Posting ein "nicht hilfreich" setzt?

so short

Christoph Zurnieden