KSearch von www.kscripts.com
Clemens
- perl
0 Cheatah0 Clemens
Hallo!
Setzt hier jemand das Suchscript KSearch von <www.kscripts.com> ein? Ich habe da einige Fragen u.a. nach einer deutschen Oberfläche und wie man das Ding dazu bringt meta-robots Anweisungen beim Indizieren zu befolgen.
Clemens
Hi,
Setzt hier jemand das Suchscript KSearch
nein.
<www.kscripts.com>
Merke: Ein Hostname ist keine URL.
Ich habe da einige Fragen u.a. nach einer deutschen Oberfläche und wie man das Ding dazu bringt meta-robots Anweisungen beim Indizieren zu befolgen.
Warum stellst Du Deine Fragen nicht auf etwas abstrakterer Ebene, so dass eine Kenntnis des Scripts nicht mehr notwendig ist?
Cheatah
Hi,
Setzt hier jemand das Suchscript KSearch
nein.
Ach Cheatah, jetzt habe ich mich schon über (D)ein Posting gefreut, aber bei solchen Kommentaren...
<www.kscripts.com>
Merke: Ein Hostname ist keine URL.
Ja, habe schon gemerkt, dass da das SelfUniversum etwas genauer ist als ich.
Ich habe da einige Fragen u.a. nach einer deutschen Oberfläche und wie man das Ding dazu bringt meta-robots Anweisungen beim Indizieren zu befolgen.
Warum stellst Du Deine Fragen nicht auf etwas abstrakterer Ebene, so dass eine Kenntnis des Scripts nicht mehr notwendig ist?
Ok, das mit der deutschen Oberfläche hätte nur eine Übersetzung meinerseits nicht mehr nötig gemacht, so viel dazu, aber das andere ist wichtiger:
Das Suchscript indexiert alle Seiten eines Verzeichnisbaums, man kann zwar Verzeichnise oder auch Dateien nach Namen ausschließen, aber
<meta name="robots" content="noindex">-Tags
werden dabei nicht beachtet, d.h. trotz des Tags werden die Dateien indexiert und tauchen dann in der Ergebnisliste der lokalen Suche auf. .htaccess wird übrigens auch nicht beachtet, da es ja eine interne Suche ist und nicht über http erfolgt (wobei wir wieder bei den URLs wären :-). Aber das ist ein lösbares Problem, man kann einfach die Verzeichnisse von Hand in die Ausschlussliste eintragen.
Da ich nicht allzuviel Ahnung von Perl habe überlege ich auf ein anderes Script umzusteigen, hat jemand Erfahrungen mit phpDIG http://phpdig.toiletoine.net?
Clemens
Hi,
Da ich nicht allzuviel Ahnung von Perl habe überlege
ich auf ein anderes Script umzusteigen, hat jemand
Erfahrungen mit phpDIG
http://phpdig.toiletoine.net?
was hältst Du denn davon, mal Deine _exakte_ Aufgaben-
stellung zu erläutern?
_Danach_ macht es Sinn, sich Gedanken zu machen, welche
der unzähligen vorhandenen Lösungen dazu passen könnte.
Viele Grüße
Michael
was hältst Du denn davon, mal Deine _exakte_ Aufgaben-
stellung zu erläutern?
_Danach_ macht es Sinn, sich Gedanken zu machen, welche
der unzähligen vorhandenen Lösungen dazu passen könnte.
Hi Michael!
Du hast natürlich recht! Nur ist es meist recht schwierig die Features der Scripts herauszufinden. Manchmal wachsen auch die Ansprüche, wenn man z.B. ein Scipt hat, das statische Seiten indiziert und dann mit includes oder einer Datenbank ankommt.
Was die Suchfunktion bieten soll:
serverseitig mit Index, kein Scannen on demand
in Perl oder PHP/MySQL, bevorzugt PHP
Indexierung
* Suche soll nicht auf Dateisystemebene,
sondern über http erfolgen, damit auch
dynamische Seiten indexiert werden
* meta robots-Angaben sollen beachtet werden
* evtl. auch PDF-Dateien
Suchoptionen einstellbar
* case sensitive
* boolesche Verknüpfungen
* wildcard
* Bestimmbar, ob nur in title/description
gesucht werden soll, oder auch im body
* optional Suche in Ergebnisliste
Suchausgabe
* Anzahl gefundener Dokumente insgesamt
* Titel
* URL
* wahlweise (von User bestimmbar) Fundstellen
der gesuchten Wörter oder meta-description
des Dokuments
* letzte Änderung
* Dateigröße
* evtl. gefundene Stellen/Dokument
Was bei mir bisher in die engere Auswahl kam
KSearch
http://www.kscripts.com/scripts.shtml
bietet alles bist auf die beiden Hauptprobleme: robots noindex in den Metaangaben wird nicht berücksichtigt, Dateien werden durchsucht, kein Zugriff des "spiders" über http
Perlfect Search
http://perlfect.com/freescripts/search/
Hier kann die Indexierung über http geschehen, allerdings sind die einstellbaren Suchoptionen etwas dürftig, Text mit Fundstellen im Dokument wird ausgegeben, Ausgabe der description ist afaik nicht möglich.
phpDIG
[link:http://phpdig.toiletoine.net}
unterstützt "HTTP Spidering", so nennen die das ;-), beachtet meta-robots-Angaben, etwas bessere Suchoptionen als bei Perlfect, aber noch nicht so umfangreich wie bei KSearch, keine Angabe der letzten Änderung in der Trefferübersicht, wie bei Perlfect sind nur die Treffer angezeit, nicht der description-Text
Clemens
Hi,
* boolesche Verknüpfungen
* wildcard
das halte ich für die beiden anspruchsvollsten Teile
der Aufgabenstellung. Wie wichtig sind die?
Dafür fehlen Angaben über den Preis ebenso wie über
die Menge der zu verarbeitenden Daten ...
Was bei mir bisher in die engere Auswahl kam
Aus eigener Erfahrung würde ich noch FDSE dazu nehmen:
http://www.xav.com/scripts/search/
Solange Du den Copyright-Vermerk nicht entfernen
willst, ist das Freeware; ob der Crawler via HTTP
oder Dateizugriff arbeitet, ist einstellbar (beides
macht Sinn in dem entsprechenden Kontext). Mehr als
10000 Dokumente sollten es aber eher nicht sein, weil
FDSE so ähnlich arbeitet wie die Self-Archivsuche.
Ansonsten gibt es natürlich die Suchfibel:
http://www.suchfibel.de/7personlich/serversoftware.htm
Viele Grüße
Michael
Hi Michael!
* boolesche Verknüpfungen
* wildcard
das halte ich für die beiden anspruchsvollsten Teile
der Aufgabenstellung. Wie wichtig sind die?
Naja, wenn man schon mal die Sachen eingesetzt hat möchte man sie nicht mehr missen ;-) Wobei das mit den wildcards nicht unbedingt sein muss, da man sie sowieso meist am Anfang oder Ende eines Suchbegriffs nutzt, wenn das Script die Suche nach ganzen Wörtern vs. Wortteilen unterstützt reicht das auch.
Dafür fehlen Angaben über den Preis ebenso wie über
die Menge der zu verarbeitenden Daten ...
Open Source, wenn möglich, man hat ja immer irgendwelche Kleinigkeiten, die einem nicht passen und an denen man selbst noch herumschrauben will. Die von Dir unten genannten 10.000 Dokumente reichen locker. Wobei man sich - wie ich gerade festgestellt habe - da auch leicht verschätzt, wenn man mal in /Apache/htdocs schaut, ist doch 'ne ganze Menge, dazu kommt ja - wenn die Anfrage über http kommt noch etwas aus der Datenbank... aber 5.000 bis 10.000 Dokumente würden reichen.
Was bei mir bisher in die engere Auswahl kam
Aus eigener Erfahrung würde ich noch FDSE dazu nehmen:
http://www.xav.com/scripts/search/
Solange Du den Copyright-Vermerk nicht entfernen
willst, ist das Freeware; ob der Crawler via HTTP
oder Dateizugriff arbeitet, ist einstellbar (beides
macht Sinn in dem entsprechenden Kontext). Mehr als
10000 Dokumente sollten es aber eher nicht sein, weil
FDSE so ähnlich arbeitet wie die Self-Archivsuche.
Danke für den Hinweis, werde ich mir mal anschauen.
Clemens
Hi!
Habe mir mal die Sachen angeschaut.
Was hier wirklich nett ist, es werden sowohl description als auch die Fundstelle im Text angezeigt.
Ansonsten gibt es natürlich die Suchfibel:
http://www.suchfibel.de/7personlich/serversoftware.htm
Die Aufstellung ist wohl recht alt, viele Seiten nicht mehr verfügbar, einige dargestellte Projekte sind schon seit den 90ern eingestellt.
Clemens