Reiner: Professionelle Suchmaschine gesucht :)

Beitrag lesen

Hallo Wolfgang,

wir haben so ein Ding unter http://www.w3sitesearch.de.

wer kennt eine professionelle Suchmaschine, die mindestens folgende
Eigenschaften hat:
 - verschiedene Mediendateien sollen mit durchsucht werden (z.B.
    PDF, Word, PPT)

PDF kann sie schon durchsuchen, Word und PPT noch nicht, sollte aber machbar sein.

- es soll ein Datenvolumen von mehr als 10 GB durchsucht werden können,
   ohne dass die Suchmaschine an der 2GB Grenze "platzt" (obwohl man
   mit 64Bit compiliert hat).

Ich sehe da kein generelles Problem drin. Ist eher ein Problem der Maschine, d.h. u.U. müßte man einen Cluster bauen. Die 2GB-Grenze meinst Du sicher in Bezug auf das Filesystem?! Diese Grenze gibt es schon länger nicht mehr, zumindest bei ext2 oder ext3. Bei ReiseFS bin ich mir nicht sicher, würde ich aber auch nicht empfehlen.

- es sollen Dateien durchsucht werden können, die in einem
   Passwortgeschützten Bereich (Intranet) liegen

Sollte machbar sein. Entweder man baut ein Türchen für die Maschine ein. Oder das Ding postet eben User/Paßwort.
Ist noch nicht realisiert, sehe ich aber kein Problem drin.

- die Ausgabe der Ergebnisse, genauso wie die EIngabe soll mit Hilfe
   von HTML-Templates angepasst werden können.

Ist schon realisiert.

- die Suchmaschine soll in mehrere Instanzen (Domains) unabhaengig
   voneinander suchen können.

Ist schon realisiert.

- die Suchmaschine soll nicht nur ueber TCP/IP, sondern auch über
   Filesystem suchen können.
(- die Maschine soll natürlich vor Ort zum Einsatz kommen und nicht
    irgendwo remote von irgendeiner Firma betrieben werden.)

Wenn man aufs Filesystem kommt, ist es ja noch einfacher! ;-)

- Das Ding soll auf Linux oder Solaris laufen.

Linux!

Nicht in Frage kommen derzeit:
   htDigger (haben wir schon - die schafft es nicht mehr)
   Google (leider exportieren die noch nicht nach Europa)

Falls irgendjemand einen Tipp hat, bitte heraus damit.

Bei Fragen, Wünschen... einfach kurze Mail.

Gruß
Reiner