Christian Michel: Reverse und HTML-Tags

Beitrag lesen

Hallo,

für die Suchmaschine Swish-e habe ich bereits für verschiedene Bereiche einer Webseite Indices erstellt.
Mittels Wildcard (Begriff*) kann ich den Suchbereich auch erweitern

Nun soll die Suche noch einen Schritt weiter gehen.
Es sollen auch Wildcards der Art *Begriff* gefunden werden.
Dafür ist es aber notwendig einen Reverse-Index aufzubauen, da swish-e von Haus  aus keine Reverse-Indices kennt.

Das ganze läuft über die Prog-Schnittstelle und wird an ein Perlscript übergeben.
Dieses soll jede Datei aus dem Suchmuster öffnen und den reinen Text umdrehen.
Dabei müssen aber die Tags gleich bleiben, da swish-e xml-typisch sucht und damit natürlich Fehler auswirft, wenn Tags nicht richtig stehen.

Das Script, bzw. die Regex muss also folgendes leisten:
1. jede Zeile durchgehen
2. den reinen Text umdrehen (reverse)
3. jeden Tag stehen lassen.

Bisher habe ich es aber nur geschafft, Tags auszublenden.
Da ich aber den <font>-Tag benötige, da er als Property definiert ist, ist es also problematisch, alle Tags zu entfernen.

Nun suche ich Ideen, die das Reverse mit einer Regex verbinden.

Wäre für Hilfe bzw. Ansätze sehr dankbar

MfG

CM