hi!
Ich habe ein Shellprogramm geschrieben - insofern ist der Themenbereich irreführend - , was
eine beliebige HTML Seite aus dem Netz holt. Als nächster Schritt sollen alle HTML Tags
entfernt werden, also alle Zeichenketten, die zwischen < und > eingeschlossen sind.
Wenn es keine zeilenübergreifenden HTML-Tags gibt, lässt es sich auf jeden Fall so lösen, wie Stefan es geschrieben hat.
Ein Aufruf (Perl)
tr /<[a-zA-Z0-9äöüß]>//
oder (Shell)
tr -d '<[a-zA-Z0-9äöüß]'
löscht aber den kompletten Text, nicht nur die Tags.
Was mache ich falsch?
tr// erwartet keinen regulären Ausdruck, sondern ersetzt jeweils das vorne angegebene Zeichen durch eines, das hinten an gleicher Stelle steht. Insofern ist es natürlich für diesen Zweck ungeeignet.
bye, Frank!