Frank Schönmann: HTML Tags ausschneiden

Beitrag lesen

hi!

Ich habe ein Shellprogramm geschrieben - insofern ist der Themenbereich irreführend - , was
eine beliebige HTML Seite aus dem Netz holt. Als nächster Schritt sollen alle HTML Tags
entfernt werden, also alle Zeichenketten, die zwischen < und > eingeschlossen sind.

Wenn es keine zeilenübergreifenden HTML-Tags gibt, lässt es sich auf jeden Fall so lösen, wie Stefan es geschrieben hat.

Ein Aufruf (Perl)
tr /<[a-zA-Z0-9äöüß]>//
oder (Shell)
tr -d '<[a-zA-Z0-9äöüß]'
löscht aber den kompletten Text, nicht nur die Tags.
Was mache ich falsch?

tr// erwartet keinen regulären Ausdruck, sondern ersetzt jeweils das vorne angegebene Zeichen durch eines, das hinten an gleicher Stelle steht. Insofern ist es natürlich für diesen Zweck ungeeignet.

bye, Frank!