snorri: RegExp: SRCs und ALTs auslesen

Beitrag lesen

Hallo alle,

ich frage mich gerade, wie man folgendes Problem am besten angeht: Ich möchte den HTML-Code einer Webseite einlesen und dann ein preg_match_all() darauf loslassen, das mir alle Bilder erkennt (für eine anschließende übersichtliche Ausgabe). Derzeit sieht das so aus:

preg_match_all ("|<img src="([^>]*)thumb_(\d+).jpg|", $html, $treffer);

Nachteile:

  • Wenn zwischen "img" und "src" noch andere Attribute stehen, klappt das schon nicht mehr.

  • Ich möchte gerne noch die ALT-Texte einlesen. Zwischen SRC und ALT kann aber wiederum noch anderes Zeuch stehen. (Im schlimmsten Fall kommt das ALT vielleicht sogar mal vor dem SRC, aber das muss ich nicht unbedingt abfangen).

Kann jemand einem RegExp-Amateur einen Tipp geben, wie ich mein Statement am besten aufbaue, um dieses Ziel zu erreichen?

-- snorri