Christoph Zurnieden: Offline Suchmaschine für HTML-Paket

Beitrag lesen

Hi,

Nein, auch zur Bearbeitung der Wortlisten ist ein DBMS sehr hilfreich. Viele Datenbanksysteme liefern solche Tools sogar mit. Ich erinnere mich gern noch an den inkrementellen Tokenizer von Clipper, man, war der flott.

Flott?

(AMD Duron 1200 mit einem halbem Gig RAM und DMA-IDE-Platten)

$ time find ~/selfhtml/selfhtml81/ -name '*htm'
real    0m0.288s
user    0m0.030s
sys     0m0.010s
$ time ./htmlindex find ~/selfhtml/selfhtml81/ -name '\*htm'
real    0m3.119s
user    0m2.090s
sys     0m0.240s
$ ls -l
-rw-r--r--    1 cz       users      107003 Apr 10 14:47 fileresolve
-rw-r--r--    1 cz       users      955688 Apr 10 14:47 tree
$ cat fileresolve | wc -l
   1446
$ cat tree | wc -l
  24563
$ tail tree
üblichen | 1431,1413,897,893,891,890,883,877,824,709,704,642,635,627,623,618,615,614,576,569,564,561,560,557,554,550,549,544,540,529,405,403,362,350,266,207,201,196,159,32,30,
üblicher | 549,136,
üblichere | 250,
üblicherweise | 775,721,647,564,558,549,543,522,392,324,251,207,206,198,
üblichste | 745,
übrig | 892,566,552,539,391,
übrige | 718,551,350,258,
übrigen | 1446,1438,1433,900,881,813,755,724,709,643,580,577,570,569,567,561,555,551,543,454,406,322,271,207,201,195,189,186,37,29,
übrigens | 1415,877,872,778,755,723,704,637,550,547,541,540,531,522,488,460,255,250,206,29,
üppigen | 1443,

Wie man sieht: kein Stemming. Das gibt es zwar schon fertig durch Snowball, jedoch nur für C und Java nicht für Javascript. Das hatte ich zwar mal angefangen, bin jedoch mittendrin hängengeblieben. Trotz guter Hilfe einiger Forumsmitglieder habe ich das nicht gebacken bekommen. Gut, ich gebe es zu: ich habe die Lust verloren, als ich eingesehen hatte, das ein richtiges Javascript-backend für Snowball sinnvoller wäre ;-)

Imerhin scheint mir aber, das der Bedarf für eine reine Javascript-Suche für Offline-Dokumentation in letzter Zeit steigt. Das früher für solche Zwecke obligate kleine Javaapplet kann immer weniger eingesetzt werden: zum einen der Ärger mit den JVMs (Ja, Plural!) zum anderem das steigende Sicherheitsbewußtsein.

Ich hatte das eigentlich nur als kleine Fingerübung angefangen, als Proof-of-Concept. Mittlerweile überkommt mich jedoch das dumpfe Gefühl, das die Nische groß genug wäre für ein Projekt bei Sourceforge. Aber alleine habe ich da keine Lust zu, da ich nur Programmierer im viertem Bildungsweg bin; mir fehlen einfach die Rezeptoren soziale Abgeschiedenheit genießen zu können ;-)

so short

Christoph Zurnieden