Moin!
Das ist doch viel zu komplex!
das sowieso, aber das ist grundsätzlich kein grund, es zu lassen, oder?
ich meine, wenn eine praktikable bibliothek dabei rauskommt hat sich das doch gelohnt oder?
Ich würde davon abraten, zu versuchen, HTML herauszufiltern.
Aber nur du kannst die Frage beantworten. Denn: Was gibt dein Forumsbesucher ein? HTML-Text? Wohl eher kaum, sondern eher Plain Text.
Wenn der eingegebene Text aber "Plain Text" ist, dann enthält er per Definition keine HTML-Tags, sondern ggf. größer/kleiner-Zeichen und Buchstaben dazwischen. Wie willst du jemals wissen, daß ein b zwischen "<" und ">" das HTML-Tag für "boldface" ist? Könnte das nicht auch ein Schreibfehler sein und "<bg>" meinen, eine typische Schreibweise für "big grin", die sehr gerne in ... hm, wie heißen die Dinger eigentlich? Nennen wir sie Komparatorenwinkel ;) ... also, die sehr gerne in Komparatorenwinkel gesetzt werden.
Dein Problem ist also: Du mußt die Bedeutung des Textes erkennen. Nun haben aber Computer so ihre Probleme damit, Bedeutungen erkennen zu können. Sie haben ja keinen Verstand.
Und dann ist da noch ein Gegenargument, welches auch hier im Forum zieht: Was ist, wenn ein hilfloser (und wenn dein Forum nicht paßt, auch hilflos verirrter) Teilnehmer eine Frage zu HTML stellen möchte? Wäre dumm, wenn dann entweder seine Tags alle ausgeführt würden, oder gelöscht.
Du siehst: Die Antwort auf deine Frage hängt ganz davon ab, welche Bedeutung du der Benutzereingabe gibst, ob du den Text eher als normalen Text ansiehst (dann kannst du keine HTML-Tags herausfiltern, weil "<" ein im Text vorkommendes Zeichen ist), oder ob du den Text als HTML-Text ansiehst (dann mußt du den Besuchern klarmachen, daß sie die Zeichen "<", ">" und "&" als HTML-Entities eingegeben müssen: "<", ">" und "&" - nicht wirklich komfortabel, oder?).
- Sven Rautenberg