Gerd: Reg expr: Wie erfasse ich URLs im Fließtext?

Beitrag lesen

Hi,

ich möchte eine oder auch mehrere URLs aus einem eingelesenen Fließtext (html) erfassen, ich habs hiermit versucht, aber das hat nicht so funktioniert, wie ich wollte:

$pattern = "<a(.*)href=[^>]*>(.*)</a>";

Dabei dachte ich, $pattern beschreibt einen Ausdruck <a(mit eventuellem weiterem Text)href=[und zwar nicht >]und nochmal eventuelle Zeichen, gefolgt von >, dann wieder Zeichen und zum Schluß </a>.

Womit dann bspw. <a href="http://www.domain.de/blabla/datei.html">Link</a> vollständig erfasst sein sollte.

Ist aber in der Praxis so, daß über </a> hinaus erfasst wird.

Warum denn das?

Grüße, Gerd