Alexander (HH): Regex Wert zwischen zweit DIV

Beitrag lesen

Moin Moin!

Hi,

#<div[^>]*>(.*)</div>#
=> $1 sowas in die richtung?
Ne das gibt ja die DIVs mit aus,

nur wenn Du die Bedeutung der Zeichen ( und ) im Regex nicht kennst.

(wobei der genannte Ausdruck versagt, wenn in einem Attributwert des div ein > vorkommt)

Die RE versagt ebenfalls, wenn im Dokument mehr als ein DIV-Element vorkommt, denn auch in PHP sind REs "greedy".

Und wenn HTML5 2.0 irgendwann ein neues Element erfindet, dass mit "div" beginnt, fällt die RE ebenfalls auf die Nase.

Von SGML Minimization will ich gar nicht anfangen, die so verkürzt notierten Elemente findet die RE nicht einmal.

Der einzig sichere Weg, Daten aus HTML zu extrahieren, ist ein HTML-Parser.

Alexander

--
Today I will gladly share my knowledge and experience, for there are no sweeter words than "I told you so".