Hallo RexExper,
Ich weiss, das Thema ist so alt wie die Welt, aber meine Recherche in diversen Foren hat noch keine zufriedenstellende Lösung geliefert. Deswegen:
Ich bräuchte einen RexExp, der mir aus HTML-Quelltext die Tags entfernt (quasi eine Art HTML->Plaintext-Konverter).
Mein bisheriges Vorgehen
$html_text =~ s/<[^>]*>/gs;
klappt meistens, geht aber natürlich vor den Baum, wenn ich > in Attributen stehen habe:
<img = "foo" alt="bar>">blubb
liefert
">blubb
von der Problematik von maskierten > mal ganz abgesehen.
Frage: Kriegt man das mit RegExp halbwegs sauber hin? Oder muss ich doch wieder HTML::Parser den weiten Weg von CPAN her kommen lassen?
Gruesse,
Jörg