Hallo,
Ein Webcrawler, der sich von Webseiten vorschreiben lässt, wann er die Seiten zu besuchen hat, ist schlichtweg kaputt, deshalb hält sich keiner daran.
ein intelligenter crawler wird doch aber vielleicht empfehlungen annehmen?
wenn ich eine seite nur in einem festen intervall von sagen wir drei monaten update - dann kann ich doch auch dem crawler einen hinweis geben, dass er sich nicht unbedingt jede woche die mühe machen muss.
Grundsätzlich stimmt das. Aber ich kann mir zuverlässigere Methoden für einen Crawler vorstellen. Beispielsweise:
Die Suchmaschine ist immer bestrebt, topaktuelle Inhalte zu haben, also crawlt sie lieber zu viel als zu wenig. Auch soll der Index an keiner Stelle älter sein als ca. ein Monat (war zumindest einmal eine ungefähre Zahl bei Google - dürfte mittlerweile kürzer sein, von »Zusätzlichen Ergebnissen« abgsehen, die meist schon 404 sind). Andererseits kann eine Suchmaschine nicht alle Webseiten täglich oder sogar öfters crawlen (*). Daher wird erst einmal jede Seite relativ oft abgerufen (jeweils mit Conditional GETs, Abgleich der Prüfsummen usw.). Wenn sich auf diese Weise herausstellt, dass sich die Seite oft ändert, kommt der Crawler öfter vorbei. Wenn nach einiger Zeit hingegen keine Änderungen beobachtet werden, wird der Intervall größer. Sobald es eine Änderung gibt, wird in der nächsten Zeit wieder etwas öfters geprüft usw. Auf diese Weise, vielleicht zusätzlich unter Berücksichtigung des PageRanks der Seite, bekommt der Crawler ein gutes Bild vom nötigen Intervall.
Natürlich könnte er sich zusätzlich an die Revisit-After-Empfehlung halten, um z.B. mit einem entsprechenden Intervall zu starten. Letztlich aber würde die anfängliche Empfehlung nur eine sehr kleine Rolle spielen. Sprich, ein guter Crawler, der möglichst frische Inhalte haben will, vertraut einer solchen Angabe auch nur eingeschränkt und versucht sie zu verifizieren.
(*) Wobei Google alle paar Tage meine Domains mit lächerlichem PR 3-4 (mittlere Größe, jeweils ingesamt unter 50 Dokumente pro Domain) komplett neu crawlt, ohne dass sie sich geändert hätten. Last-Modified und Prüfsummen dürften z.T. seit Monaten identisch sein, trotzdem werden die Dokumente neu heruntergeladen (teilweise sogar ohne Conditional GET, wenn ich mich recht erinnere, sonst antwortet der Server ja nur mit 304 Not Modified). Ich glaube nicht, dass der Googlebot dermaßen kaputt ist, sondern nehme eine Absicht an. Vielleicht hat Google tatsächlich genug Infrastruktur, um unwichtige Seiten in solchen Intervallen crawlen zu können, ohne sich an der Aktualisierung orientieren zu müssen.
Mathias