hotti: Regex um <img>-Elemente mit und ohne alt-Attribut

Beitrag lesen

hi,

ich möchte den HTML-Quelltext einer Datei zu reinem Text reduzieren, um ihn inhaltlich durchsuchbar zu machen. Dabei entferne ich <img>-Elemente, bei denen ich jedoch ein eventuell gesetztes alt-Attribut (ich kenne das Muss aus der Spec) inhaltlich erhalten will.

Meine Idee hierzu triffts nicht ganz, löst jedoch eine weitere, evntl. bestehende Anforderung: Image-Sitemaps automatisch erstellen (für die Suchmaschine ein xml erzeugen, wo unter dem jeweiligen URL die dazugehörigen Images aufgelistet sind).

Im HTML steht dann z.B. sowas:
Hund:  %bild1%
Katze: %bild2%

also die Bilder sind einfach nur durchnumeriert. Damit die Template-Engine die Bilder in die richtigen Platzhalter setzt, bekommt der URL ein Attribut was die Bilder in der richtigen Reihenfolge enthält:
bilder=/hund.png:AltHund:400:300 /katze.png:AltKatze:150:150

woraus die Liste mit der richtigen Reihenfolge erzeugt wird. Nachdem die Template-Engine ihr Geschäft verrichtet hat, kriegt der Browser z.B.:
Hund: <img src="/hund.png" alt="AltHund" width="400" height="300" title="AltHund" />

Horst