Michael Schröpl: Neue Suchfunktion: Freigabe zum Anwendertest

Beitrag lesen

Alle HTML-Tags, die in Nachrichtentexten stehen, werden vor dem Schreiben in die Suchindexdatei in ihre Entities < und > umgewandelt. Die Suche koennte also die Zeichen < und > im Sucheingabefeld als Wunsch interpretieren, nach HTML-Tags zu suchen, und diese im eigentlichen zeilenweisen Pattern-Matching in die Entities umzuwandeln, so dass die entsprechenden Textstellen gefunden werden.

Hm ... hm ... hm ...

Wenn das stimmen würde, dann müßte man "<table" bereits jetzt suchen können, und zwar durch die Eingabe "<table". Man kann ja die "Übersetzung" nach HTML notfalls selbst machen, solange sie nicht ins Skript eingebaut ist.

Ausprobieren: Wir nehmen das wichtigste aller HTML-tags, nämlich die Suchzeichenkette "<g>" (notiert als "<g>").
Und erhalten 0 Treffer! Wieso denn das?!

Ein Blick in die von Dir mitgelieferte Indexdatei produziert folgende überraschende Erkenntnis:
a) Das Posting-Skript scheint tatsächlich alle "<"-Zeichen umzucodieren.
b) Aber es scheint dabei alle ">"-Zeichen wegzuwerfen!
In dem mir vorliegenden Index sind jedenfalls alle Tags "hinten offen" ... und was im Archiv nicht gespeichert ist, kann auch nicht gefunden werden.

Verifikation: "<g" als Suchzeichenkette liefert 1606 Treffer in 15.7 Sekunden. Was meine Beobachtung zu stützen scheint ...

Und nun? Ich wage gar nicht vorzuschlagen, den Schwanzabschneider zu reparieren und irgendwie das gesamte Archiv neu zu indexen ... :-(