Stefan Muenz: Java-Volltextsuche fuer SELFHTML

Liebe Forumsbesucher,

SELFHTML wird nicht nur von Homepagebastlern benutzt, sondern oft auch von Software-Entwicklern, die hier "idealtypische" Bedingungen fuer ihre Produkte vorfinden - viel Text, viele Dateien, viele Strukturen, die bestimmten Konventionen und Schemata folgen.
Eine beliebte Gattung ist dabei die java-basierte Volltextsuche fuer groesere HTML-basierte Projekte. Ein vergleichsweise schlankes und "uncluttered" Java-Applet, das fuer SELFHTML 7.0 eine Volltextsuche realisiert, gibt's nun unter http://www.lexcorp.de/html/volltextsuche_selfhtml_7.0.html downzuloaden. Wenn man die downloadbare ZIP-Datei ins SELFHTML-Verzeichnis entpackt, hat man hinterher ueber die Einstiegsseite Zugriff auf die Suche (der Autor des Applets hat mich vorher um Erlaubnis gefragt, die erforderliche Anpassung von SELFHTML vornehmen zu duerfen).
Vorteil: funktioniert offline ohne CGI und findet wirklich jedes Wort, das im Dokument vorkommt. Einfach zu handhaben, man muss kein Suchprofi sein.
Nachteil: funktioniert nur offline, in http-Umgebungen findet das Applet seine Datendatei nicht. Muss erst mal sichtbar lange laden, das liegt halt an Java.

viele Gruesse
  Stefan Muenz

  1. Moin,

    Nicht schlecht, das Teil. Erinnert sehr an das kleine Applet, das PC Online zu Anfang des Jahres unters Volk gebracht hat. Oops, da stehts ja: Kein Wunder, ist es doch eine Weiterentwickung.

    Ich habe ein wenig damit herumgespielt und festgestellt, dass es dann am Nützlichsten ist, wenn man Suchbegriffe verknüpft. (Nicht ganz überraschend ;-) Ist zum Glück als default eingestellt. Wie man sich leicht vorstellen kann, bringen Suchworte wie "tabellen" nicht so recht weiter, aber die "Und" Verknüpfung funktioniert fast so gut wie die Phrasensuche und macht sie damit entbehrlich. Mit "Hintergrundfarbe Tabellen" kommt man ruckzuck ans Ziel.

    Ein prima Plug-In für Selfhtml!

    Auf der anderen Seite werden nochmal die Schwierigkeiten der Volltextsuche deutlich, die aber durch den Umstand entschärft werden, dass in Selfhtml konsequent die korrekte Terminologie verwendet wird. Die muss man allerdings ein wenig kennen, dann ist dieses Suchmaschinchen eine erstklassige Navigationshilfe.

    Viele Grüße, Stefan

    1. Hallo Stephan,

      Nicht schlecht, das Teil. Erinnert sehr an das kleine Applet, das PC Online zu Anfang des Jahres unters Volk gebracht hat. Oops, da stehts ja: Kein Wunder, ist es doch eine Weiterentwickung.

      Ich hab noch ein anderes auf Lager, das mir eine andere Firma seit Monaten immer mal wieder anempfiehlt. Das nennt sich DocFather SiteSearch. Wer mag, kann es mal testen hier unter http://www.teamone.de/selfhtml/tr.htm. Ich finde es zwar gar nicht schlecht vom Konzept her (orientiert sich an der Navigation der Windows-Hilfe und bietet neben Volltextsuche auch einen Strukturbaum des Inhalts). Aber es ist elend langsam, finde ich (fuer meinen Geschmack deshalb nicht praktikabel).

      Auf der anderen Seite werden nochmal die Schwierigkeiten der Volltextsuche deutlich, die aber durch den Umstand entschärft werden, dass in Selfhtml konsequent die korrekte Terminologie verwendet wird. Die muss man allerdings ein wenig kennen, dann ist dieses Suchmaschinchen eine erstklassige Navigationshilfe.

      Das ist immer das Problem bei Volltextsuche, stimmt. Schoen ist halt, dass z.B. einfach irgendwelche JS-Befehle eingeben kann, da bekommt man sehr schnell heraus, ob und wo die vorkommen. Oder Produktnamen, oder Eigennamen usw., die in den Meta's natuerlich nicht auftauchen. Da muesste man halt die naechste Kompexitaetsstufe fuer Suchmaschinen einbauen - Gewichtung - aber wie man sieht, sind die Applets ja so schon so langsam, dass alles Weitere eine Horrorvorstellung ist...

      viele Gruesse
        Stefan Muenz

      1. Hallo Stefan, (auch mit F ;-)

        Ich hab noch ein anderes auf Lager, das mir eine andere Firma seit Monaten immer mal wieder anempfiehlt. Das nennt sich DocFather SiteSearch. Wer mag, kann es mal testen hier unter http://www.teamone.de/selfhtml/tr.htm. Ich finde es zwar gar nicht schlecht vom Konzept her (orientiert sich an der Navigation der Windows-Hilfe und bietet neben Volltextsuche auch einen Strukturbaum des Inhalts). Aber es ist elend langsam, finde ich (fuer meinen Geschmack deshalb nicht praktikabel).

        Funktioniert zudem nicht mit MSIE 4, ich kriege nur einen funktionslosen Button. nervig ist zudem (das ist aber eher Java), dass der ganze Rechner ziemlich in die Knie geht. Und vor allem geht keine and Verknüpfung und erst das macht die Suche im Selfthml-Datenraum erst sinnvoll.

        Da muesste man halt die naechste Kompexitaetsstufe fuer Suchmaschinen einbauen - Gewichtung - aber wie man sieht, sind die Applets ja so schon so langsam, dass alles Weitere eine Horrorvorstellung ist...

        Da wirds dann erst spannend, ob das dann noch mit Java geht? Der Katalog Allesklar hatte seine sehr elegante und funktionale Navigation mit Java realisiert und jetzt seit geraumer Zeit als Option versteckt und auf der Homepage zu normalem CGI gewechselt. Die Erfahrung zeigt leider immer wieder, dass komplexere Anwendungen in Java, so sinnvoll sie auch sein mögen, nicht so recht akzeptiert werden.

        Viele Grüße, Stefan

        1. Hallo Stefan,

          Da wirds dann erst spannend, ob das dann noch mit Java geht? Der Katalog Allesklar hatte seine sehr elegante und funktionale Navigation mit Java realisiert und jetzt seit geraumer Zeit als Option versteckt und auf der Homepage zu normalem CGI gewechselt. Die Erfahrung zeigt leider immer wieder, dass komplexere Anwendungen in Java, so sinnvoll sie auch sein mögen, nicht so recht akzeptiert werden.

          Leider. Denn was die Demo-Applets mit den zappelnden Maskottchen koennen, geht viel besser mit animierten GIFs, und so Sachen wie Text-Ticker mit DHTML. Bleiben eigentlich nur die groesseren, "ernsthafteren" Anwendungen. Und da ist halt wieder so schnell Schluss mit den Systemressourcen der meisten Anwenderrechner - offenbar verursacht jede eingebundene Klassenbibliothek wieder Unmengen an zu reservierendem Arbeitsspeicher. Bei Such-Applets kommen die Dateien mit den Indexdaten dazu, die eingelesen werden muessen - je mehr, desto kritischer.
          Das Beste, was ich von Java kenne, sind immer noch die Chat-Applets <g>...

          viele Gruesse
            Stefan Muenz