Clemens: KSearch von www.kscripts.com

Hallo!

Setzt hier jemand das Suchscript KSearch von <www.kscripts.com> ein? Ich habe da einige Fragen u.a. nach einer deutschen Oberfläche und wie man das Ding dazu bringt meta-robots Anweisungen beim Indizieren zu befolgen.

Clemens

  1. Hi,

    Setzt hier jemand das Suchscript KSearch

    nein.

    <www.kscripts.com>

    Merke: Ein Hostname ist keine URL.

    Ich habe da einige Fragen u.a. nach einer deutschen Oberfläche und wie man das Ding dazu bringt meta-robots Anweisungen beim Indizieren zu befolgen.

    Warum stellst Du Deine Fragen nicht auf etwas abstrakterer Ebene, so dass eine Kenntnis des Scripts nicht mehr notwendig ist?

    Cheatah

    1. Hi,

      Setzt hier jemand das Suchscript KSearch

      nein.

      Ach Cheatah, jetzt habe ich mich schon über (D)ein Posting gefreut, aber bei solchen Kommentaren...

      <www.kscripts.com>

      Merke: Ein Hostname ist keine URL.

      Ja, habe schon gemerkt, dass da das SelfUniversum etwas genauer ist als ich.

      Ich habe da einige Fragen u.a. nach einer deutschen Oberfläche und wie man das Ding dazu bringt meta-robots Anweisungen beim Indizieren zu befolgen.

      Warum stellst Du Deine Fragen nicht auf etwas abstrakterer Ebene, so dass eine Kenntnis des Scripts nicht mehr notwendig ist?

      Ok, das mit der deutschen Oberfläche hätte nur eine Übersetzung meinerseits nicht mehr nötig gemacht, so viel dazu, aber das andere ist wichtiger:

      Das Suchscript indexiert alle Seiten eines Verzeichnisbaums, man kann zwar Verzeichnise oder auch Dateien nach Namen ausschließen, aber

      <meta name="robots" content="noindex">-Tags

      werden dabei nicht beachtet, d.h. trotz des Tags werden die Dateien indexiert und tauchen dann in der Ergebnisliste der lokalen Suche auf. .htaccess wird übrigens auch nicht beachtet, da es ja eine interne Suche ist und nicht über http erfolgt (wobei wir wieder bei den URLs wären :-). Aber das ist ein lösbares Problem, man kann einfach die Verzeichnisse von Hand in die Ausschlussliste eintragen.

      Da ich nicht allzuviel Ahnung von Perl habe überlege ich auf ein anderes Script umzusteigen, hat jemand Erfahrungen mit phpDIG  http://phpdig.toiletoine.net?

      Clemens

      1. Hi,

        Da ich nicht allzuviel Ahnung von Perl habe überlege
        ich auf ein anderes Script umzusteigen, hat jemand
        Erfahrungen mit phpDIG
        http://phpdig.toiletoine.net?

        was hältst Du denn davon, mal Deine _exakte_ Aufgaben-
        stellung zu erläutern?

        _Danach_ macht es Sinn, sich Gedanken zu machen, welche
        der unzähligen vorhandenen Lösungen dazu passen könnte.

        Viele Grüße
              Michael

        1. was hältst Du denn davon, mal Deine _exakte_ Aufgaben-
          stellung zu erläutern?

          _Danach_ macht es Sinn, sich Gedanken zu machen, welche
          der unzähligen vorhandenen Lösungen dazu passen könnte.

          Hi Michael!

          Du hast natürlich recht! Nur ist es meist recht schwierig die Features der Scripts herauszufinden. Manchmal wachsen auch die Ansprüche, wenn man z.B. ein Scipt hat, das statische Seiten indiziert und dann mit includes oder einer Datenbank ankommt.

          Was die Suchfunktion bieten soll:

          • serverseitig mit Index, kein Scannen on demand

          • in Perl oder PHP/MySQL, bevorzugt PHP

          • Indexierung
              * Suche soll nicht auf Dateisystemebene,
                sondern über http erfolgen, damit auch
                dynamische Seiten indexiert werden
              * meta robots-Angaben sollen beachtet werden
              * evtl. auch PDF-Dateien

          • Suchoptionen einstellbar
              * case sensitive
              * boolesche Verknüpfungen
              * wildcard
              * Bestimmbar, ob nur in title/description
                gesucht werden soll, oder auch im body
              * optional Suche in Ergebnisliste

          • Suchausgabe
              * Anzahl gefundener Dokumente insgesamt
              * Titel
              * URL
              * wahlweise (von User bestimmbar) Fundstellen
                der gesuchten Wörter oder meta-description
                des Dokuments
              * letzte Änderung
              * Dateigröße
              * evtl. gefundene Stellen/Dokument

          Was bei mir bisher in die engere Auswahl kam

          KSearch
          http://www.kscripts.com/scripts.shtml

          bietet alles bist auf die beiden Hauptprobleme: robots noindex in den Metaangaben wird nicht berücksichtigt, Dateien werden durchsucht, kein Zugriff des "spiders" über http

          Perlfect Search
          http://perlfect.com/freescripts/search/

          Hier kann die Indexierung über http geschehen, allerdings sind die einstellbaren Suchoptionen etwas dürftig, Text mit Fundstellen im Dokument wird ausgegeben, Ausgabe der description ist afaik nicht möglich.

          phpDIG
          [link:http://phpdig.toiletoine.net}
          unterstützt "HTTP Spidering", so nennen die das ;-), beachtet meta-robots-Angaben, etwas bessere Suchoptionen als bei Perlfect, aber noch nicht so umfangreich wie bei KSearch, keine Angabe der letzten Änderung in der Trefferübersicht, wie bei Perlfect sind nur die Treffer angezeit, nicht der description-Text

          Clemens

          1. Hi,

            * boolesche Verknüpfungen
              * wildcard

            das halte ich für die beiden anspruchsvollsten Teile
            der Aufgabenstellung. Wie wichtig sind die?

            Dafür fehlen Angaben über den Preis ebenso wie über
            die Menge der zu verarbeitenden Daten ...

            Was bei mir bisher in die engere Auswahl kam

            Aus eigener Erfahrung würde ich noch FDSE dazu nehmen:
               http://www.xav.com/scripts/search/
            Solange Du den Copyright-Vermerk nicht entfernen
            willst, ist das Freeware; ob der Crawler via HTTP
            oder Dateizugriff arbeitet, ist einstellbar (beides
            macht Sinn in dem entsprechenden Kontext). Mehr als
            10000 Dokumente sollten es aber eher nicht sein, weil
            FDSE so ähnlich arbeitet wie die Self-Archivsuche.

            Ansonsten gibt es natürlich die Suchfibel:
               http://www.suchfibel.de/7personlich/serversoftware.htm

            Viele Grüße
                  Michael

            1. Hi Michael!

              * boolesche Verknüpfungen
                * wildcard

              das halte ich für die beiden anspruchsvollsten Teile
              der Aufgabenstellung. Wie wichtig sind die?

              Naja, wenn man schon mal die Sachen eingesetzt hat möchte man sie nicht mehr missen ;-) Wobei das mit den wildcards nicht unbedingt sein muss, da man sie sowieso meist am Anfang oder Ende eines Suchbegriffs nutzt, wenn das Script die Suche nach ganzen Wörtern vs. Wortteilen unterstützt reicht das auch.

              Dafür fehlen Angaben über den Preis ebenso wie über
              die Menge der zu verarbeitenden Daten ...

              Open Source, wenn möglich, man hat ja immer irgendwelche Kleinigkeiten, die einem nicht passen und an denen man selbst noch herumschrauben will. Die von Dir unten genannten 10.000 Dokumente reichen locker. Wobei man sich - wie ich gerade festgestellt habe - da auch leicht verschätzt, wenn man mal in /Apache/htdocs schaut, ist doch 'ne ganze Menge, dazu kommt ja - wenn die Anfrage über http kommt noch etwas aus der Datenbank... aber 5.000 bis 10.000 Dokumente würden reichen.

              Was bei mir bisher in die engere Auswahl kam

              Aus eigener Erfahrung würde ich noch FDSE dazu nehmen:
                 http://www.xav.com/scripts/search/
              Solange Du den Copyright-Vermerk nicht entfernen
              willst, ist das Freeware; ob der Crawler via HTTP
              oder Dateizugriff arbeitet, ist einstellbar (beides
              macht Sinn in dem entsprechenden Kontext). Mehr als
              10000 Dokumente sollten es aber eher nicht sein, weil
              FDSE so ähnlich arbeitet wie die Self-Archivsuche.

              Danke für den Hinweis, werde ich mir mal anschauen.

              Clemens

            2. Hi!

              Habe mir mal die Sachen angeschaut.

              http://www.xav.com/scripts/search/

              Was hier wirklich nett ist, es werden sowohl description als auch die Fundstelle im Text angezeigt.

              Ansonsten gibt es natürlich die Suchfibel:
                 http://www.suchfibel.de/7personlich/serversoftware.htm

              Die Aufstellung ist wohl recht alt, viele Seiten nicht mehr verfügbar, einige dargestellte Projekte sind schon seit den 90ern eingestellt.

              Clemens