was hältst Du denn davon, mal Deine _exakte_ Aufgaben-
stellung zu erläutern?
_Danach_ macht es Sinn, sich Gedanken zu machen, welche
der unzähligen vorhandenen Lösungen dazu passen könnte.
Hi Michael!
Du hast natürlich recht! Nur ist es meist recht schwierig die Features der Scripts herauszufinden. Manchmal wachsen auch die Ansprüche, wenn man z.B. ein Scipt hat, das statische Seiten indiziert und dann mit includes oder einer Datenbank ankommt.
Was die Suchfunktion bieten soll:
-
serverseitig mit Index, kein Scannen on demand
-
in Perl oder PHP/MySQL, bevorzugt PHP
-
Indexierung
* Suche soll nicht auf Dateisystemebene,
sondern über http erfolgen, damit auch
dynamische Seiten indexiert werden
* meta robots-Angaben sollen beachtet werden
* evtl. auch PDF-Dateien -
Suchoptionen einstellbar
* case sensitive
* boolesche Verknüpfungen
* wildcard
* Bestimmbar, ob nur in title/description
gesucht werden soll, oder auch im body
* optional Suche in Ergebnisliste -
Suchausgabe
* Anzahl gefundener Dokumente insgesamt
* Titel
* URL
* wahlweise (von User bestimmbar) Fundstellen
der gesuchten Wörter oder meta-description
des Dokuments
* letzte Änderung
* Dateigröße
* evtl. gefundene Stellen/Dokument
Was bei mir bisher in die engere Auswahl kam
KSearch
http://www.kscripts.com/scripts.shtml
bietet alles bist auf die beiden Hauptprobleme: robots noindex in den Metaangaben wird nicht berücksichtigt, Dateien werden durchsucht, kein Zugriff des "spiders" über http
Perlfect Search
http://perlfect.com/freescripts/search/
Hier kann die Indexierung über http geschehen, allerdings sind die einstellbaren Suchoptionen etwas dürftig, Text mit Fundstellen im Dokument wird ausgegeben, Ausgabe der description ist afaik nicht möglich.
phpDIG
[link:http://phpdig.toiletoine.net}
unterstützt "HTTP Spidering", so nennen die das ;-), beachtet meta-robots-Angaben, etwas bessere Suchoptionen als bei Perlfect, aber noch nicht so umfangreich wie bei KSearch, keine Angabe der letzten Änderung in der Trefferübersicht, wie bei Perlfect sind nur die Treffer angezeit, nicht der description-Text
Clemens