xwolf: Professionelle Suchmaschine gesucht :)

Hi,

wer kennt eine professionelle Suchmaschine, die mindestens folgende
Eigenschaften hat:
 - verschiedene Mediendateien sollen mit durchsucht werden (z.B.
    PDF, Word, PPT)
 - es soll ein Datenvolumen von mehr als 10 GB durchsucht werden können,
   ohne dass die Suchmaschine an der 2GB Grenze "platzt" (obwohl man
   mit 64Bit compiliert hat).
 - es sollen Dateien durchsucht werden können, die in einem
   Passwortgeschützten Bereich (Intranet) liegen
 - die Ausgabe der Ergebnisse, genauso wie die EIngabe soll mit Hilfe
   von HTML-Templates angepasst werden können.
 - die Suchmaschine soll in mehrere Instanzen (Domains) unabhaengig
   voneinander suchen können.
 - die Suchmaschine soll nicht nur ueber TCP/IP, sondern auch über
   Filesystem suchen können.
(- die Maschine soll natürlich vor Ort zum Einsatz kommen und nicht
    irgendwo remote von irgendeiner Firma betrieben werden.)
 - Das Ding soll auf Linux oder Solaris laufen.

Nicht in Frage kommen derzeit:
   htDigger (haben wir schon - die schafft es nicht mehr)
   Google (leider exportieren die noch nicht nach Europa)

Falls irgendjemand einen Tipp hat, bitte heraus damit.

Ciao,
  Wolfgang

  1. Hallo Wolfgang,

    wir haben so ein Ding unter http://www.w3sitesearch.de.

    wer kennt eine professionelle Suchmaschine, die mindestens folgende
    Eigenschaften hat:
     - verschiedene Mediendateien sollen mit durchsucht werden (z.B.
        PDF, Word, PPT)

    PDF kann sie schon durchsuchen, Word und PPT noch nicht, sollte aber machbar sein.

    - es soll ein Datenvolumen von mehr als 10 GB durchsucht werden können,
       ohne dass die Suchmaschine an der 2GB Grenze "platzt" (obwohl man
       mit 64Bit compiliert hat).

    Ich sehe da kein generelles Problem drin. Ist eher ein Problem der Maschine, d.h. u.U. müßte man einen Cluster bauen. Die 2GB-Grenze meinst Du sicher in Bezug auf das Filesystem?! Diese Grenze gibt es schon länger nicht mehr, zumindest bei ext2 oder ext3. Bei ReiseFS bin ich mir nicht sicher, würde ich aber auch nicht empfehlen.

    - es sollen Dateien durchsucht werden können, die in einem
       Passwortgeschützten Bereich (Intranet) liegen

    Sollte machbar sein. Entweder man baut ein Türchen für die Maschine ein. Oder das Ding postet eben User/Paßwort.
    Ist noch nicht realisiert, sehe ich aber kein Problem drin.

    - die Ausgabe der Ergebnisse, genauso wie die EIngabe soll mit Hilfe
       von HTML-Templates angepasst werden können.

    Ist schon realisiert.

    - die Suchmaschine soll in mehrere Instanzen (Domains) unabhaengig
       voneinander suchen können.

    Ist schon realisiert.

    - die Suchmaschine soll nicht nur ueber TCP/IP, sondern auch über
       Filesystem suchen können.
    (- die Maschine soll natürlich vor Ort zum Einsatz kommen und nicht
        irgendwo remote von irgendeiner Firma betrieben werden.)

    Wenn man aufs Filesystem kommt, ist es ja noch einfacher! ;-)

    - Das Ding soll auf Linux oder Solaris laufen.

    Linux!

    Nicht in Frage kommen derzeit:
       htDigger (haben wir schon - die schafft es nicht mehr)
       Google (leider exportieren die noch nicht nach Europa)

    Falls irgendjemand einen Tipp hat, bitte heraus damit.

    Bei Fragen, Wünschen... einfach kurze Mail.

    Gruß
    Reiner

    1. Hi,

      wir haben so ein Ding unter http://www.w3sitesearch.de.

      Schau ich mir mal an :=)

      • es soll ein Datenvolumen von mehr als 10 GB durchsucht werden können,
           ohne dass die Suchmaschine an der 2GB Grenze "platzt" (obwohl man
           mit 64Bit compiliert hat).

      Ich sehe da kein generelles Problem drin. Ist eher ein Problem der Maschine, d.h. u.U. müßte man einen Cluster bauen. Die 2GB-Grenze

      Nee, bei uns war/ist das Problem bei der Software. Die Kiste
      kommt zwar laengst ueber 2GB und hat damit längst keine Probleme mehr, aber der htDigger schaft es nicht, seine Metadatenbank zu verwalten,
      wenn man diese Größe überschreitet.
      (Und das obwohl genau das Gegenteil behauptet wird.)

      Ausserdem findet der einfach nicht mehr alle Files :(

      • es sollen Dateien durchsucht werden können, die in einem
           Passwortgeschützten Bereich (Intranet) liegen

      Sollte machbar sein. Entweder man baut ein Türchen für die Maschine ein. Oder das Ding postet eben User/Paßwort.
      Ist noch nicht realisiert, sehe ich aber kein Problem drin.

      Hmmmm... machen kann man ja alles, das weiss ich - bin ja
      selbst auch Entwickler. Aber das Problem ist auch, daß wenn
      es erst gemacht wird für eine Firma/Einrichtung, diese quasi
      der Testfall wird...

      (Nun ja, das wäre bei uns eigentlich nichts neues...)

      Bei Fragen, Wünschen... einfach kurze Mail.

      ich schau mir mal die Website an.

      Bei mir geht es auch um eine Planung für die nächsten
      2 Jahre, nicht um eine Anschaffung in den nächsten Wochen/Monaten.

      Ciao,
        Wolfgang