Michael Schröpl: Daten aus einer HTML-Seite auslesen

Beitrag lesen

reguläre Ausdrücke zu verwenden, ist sehr schlecht, da das bei komlizierten HTML-Dateien in die hose gehen kann.
<!-- <TAG>text</TAG> -->
<TAG param="<TAG>">
Man muß die HTML-Datei parsen.

???? Und zwar womit, wenn nicht mit regulären Ausdrücken?

Das Verbindungs-Skript http://www.teamone.de/cgi-local/haupt.pl parst die Hauptdatei dieses Forums mit einem einzigen regulären Ausdruck für Posting-Zeilen. Zugegeben, die sind dann *etwas* länger, etwa in der Art:

if ($zeile =~ /^<!--top: (\d+)-->.*<img.*> <a href=[^>]+>(.+)</a> von <b>(.+)</b>, (\d+).(\d+).(\d+), (\d+):(\d+) Uhr<br>$/i)

und das Austesten ist keine wirkliche Freude, aber der Parser wird sagenhaft kurz dabei ...