Edgar Ehritt: Website Suche

Beitrag lesen

Hallo Michi,

Ich möchte keinen Code, sondern eine Denkanstoss / Lösungsansätze.

Das ist doch ein Wort! :)
Dokumente, die statisch serviert werden, sind mit PHP sehr leicht zu durchsuchen. Dokumente (sourcen), die dynamisch generiert werden, sind schon etwas aufwändiger zu durchsuchen. Um alle zu durchsuchenden Dokumente dem Suchskript bekannt zu geben, musst Du Dir eine geeignete Methode einfallen lassen. Am einfachsten wären eine Datei/Datenbank, die alle Dokument auflistet. Gleichsam könnte das Suchskript aber auch die Verzeichnisstruktur rekursiv auslesen und so alle Dokumente/Skripte erfassen. Du könntest auch von der Startseite ausgehend alle Verweise auslesen und so rekursiv alle tatsächlich (gewollt) erreichbaren Dokumente der Webpräsenz erfassen. Letzteres ist selbstverständlich die eleganteste Methode, da hier insbesondere von sourcen ausgegangen wird. Probleme durch Rewrite-Applikationen und Skripte umgeht man so, wenn die verwiesenen sourcen immer mittels HTTP abgerufen werden.

Um den Inhalt eines statischen Dokuments zu erhalten, liest Du dieses ein und entfernst alle HTML-Tags mit strip_tags() oder fgetss(). Dynamische Dokumente müssen jedoch vor dem Einlesen durch den entsprechenden Interpreter oder durch das generierende Programm erst erzeugt werden. Du darfst sie also nicht über das Dateisystem einlesen, sondern musst sie per HTTP über den Webserver beziehen.

Fragen? Frag!

Gruß aus Berlin!
eddi