Hi
Das Prinzip einer Suchmaschine ist denkbar einfach - nur das zu programmieren wird nicht leicht.
Der Robot fängt an, das Internet zu durchsuchen. Dabei indiziert er seine Seiten nach folgenden Kriterien, die nachher auch zur Ausgabepriorität wichtig sind:
- Seitentitel <title></title>
- meta-Daten <meta>
- Häufigkeit der vorkommenen Worte
- Welches HTML-Element die Worte haben, bspw <h1>, <h2>, afaik auch wie groß die geschrieben sind
- Welches Dateiformat die Datei hat - .html- und .htm-Dateien werden bspw von den meisten Suchmaschinen bevorzugt
Dann durchsucht er auf den Seiten, auf die die davorige Seite verlinkt hat, weiter. Das können Unterseiten und/oder projektexterne Links sein, und indiziert auch diese auf dieselbe Weise. Meistens wird auch noch indiziert, welche Seite wohin verlinkt (google zum Beispiel, was man dann per Eingabe von "link:" auslesen lassen kann).
Das ist das Grundprinzip.
Es ist also quasi ein Code, der immer läuft. Ob die Suchmaschinen das per Cronjob machen, was sich auch anbieten würde, weiß ich nicht. Da wissen andere bestimmt mehr.
Ich wünsche die viel Spaß beim Programmieren, viel Geduld und Spaß an der Sache (ich denke das alles wirst du brauchen)
Omer
PS: Ein Robot kennt kein Flash, kein Java, kein Javascript, keine Bilder, er kennt nur TEXT!
Kennst du die Geschichte vom Webserver im Pub? Könnte da bitte jemand drauf verlinken, denn ich hab den Link nicht mehr...