Joerg Peschke: HTML-Tags entfernen mittels RegExp?

Beitrag lesen

Hallo RexExper,
Ich weiss, das Thema ist so alt wie die Welt, aber meine Recherche in diversen Foren hat noch keine zufriedenstellende Lösung geliefert. Deswegen:

Ich bräuchte einen RexExp, der mir aus HTML-Quelltext die Tags entfernt (quasi eine Art HTML->Plaintext-Konverter).

Mein bisheriges Vorgehen
$html_text =~ s/<[^>]*>/gs;

klappt meistens, geht aber natürlich vor den Baum, wenn ich > in Attributen stehen habe:
<img = "foo" alt="bar>">blubb

liefert

">blubb
von der Problematik von maskierten > mal ganz abgesehen.

Frage: Kriegt man das mit RegExp halbwegs sauber hin? Oder muss ich doch wieder HTML::Parser den weiten Weg von CPAN her kommen lassen?

Gruesse,

Jörg