Christoph Zurnieden: Offline Suchmaschine für HTML-Paket

Beitrag lesen

Hi,

Du kannst nur das schnell finden, was Du im Index wörtlich drin stehen hast, keine Teilzeichenketten oder gar reguläre Ausdrücke, dazu müßtest Du dann wieder jeden Eintrag im Index einzeln anfassen

man kann aber diese Teilzeichenketten auch alle einzeln indizieren.

Welche möchtest Du denn indizieren? Das weiß man nicht vorher, oder? Also müßte man Buchstabenweise indizieren (Speicherung dann z.B. mit einem Suffix-Tree o.ä.). Klar geht das, aber ich finde nicht, das es sich lohnen würde.

Wenn man eh schon dabei ist - man wird ja wohl maschinell indizieren - macht das nicht mehr so'n Unterschied. Der Index wird halt nur groß.

Ich kenne ja nicht die durchschnittliche Länge eines deutschen Wortes (oder in welcher Sprache auch immer das Tutorial da geschrieben wurde und bei Silbenschrift ist's eh Essig) aber ich würde da mindestens auf 5-6 tippen. Das wird für Javascript einfach zu viel, da bekommen einige Browser schon ob der schieren Menge Schwierigkeiten. Man müßte also aufteilen und/oder probabilistisch arbeiten (z.B. mit Bloomfiltern vorsortieren). Das dürfte dann aber so komplex werden, das die Kosten dafür einfach zu hoch würden. Das kann man bei einer regulären Suchmaschine machen und sollte es da auch, aber nicht für das hier beschriebene Problem.

so short

Christoph Zurnieden