Moin!
Das ist eben der Punkt. Die Seite enthält Zusatzinformation, die nicht indexiert werden soll. Jetzt tilge ich entweder für Bots diese Info, oder ich übergebe den Bots eben doch einen Statuscode, welcher die Nicht-Indexierung zur Folge hat.
Wenn deine URL nicht indiziert werden kann, fliegt sie über kurz oder lang aus dem Index. Was dann sicher verhindert, dass die Seite als Grundlage für Suchergebnisse dient. Das kann aber nicht gewünscht sein, denn dann könnte man sich das Indizieren des Gästebuchs gleich komplett schenken (robots.txt) und braucht sich dann keinen Kopf mehr um den HTTP-Statuscode zu machen.
Insofern ist Status 404 sicherlich am schädlichsten: Nicht nur wird mitgeteilt, dass die angeforderte URL nicht zu indizieren ist, es wird ebenso mitgeteilt, dass sie aufgrund von clientseitigen Gründen nicht verfügbar ist (Statusgruppe 4xx), und dass das Wiederholen des Requests keine Verbesserung der Lage mit sich bringt. Ein Suchspider wird das mit Sicherheit mit Elimination der URL (auch der vorher indizierten Seite) aus dem Index bewerten.
Aber auch ein 5xx-Statuscode dürfte je nach Zeitraum, in dem er immer wieder auftritt, einen Einfluss auf den Index der Suchmaschinen haben. Schließlich wird eine Suchmaschine nur Suchergebnisse auf Seiten bringen wollen, die existieren und erfolgreich abgerufen werden können.
Insofern verbieten sich eigentlich alle Spielereien am Statuscode, die über die Darstellung von "Fehler" das Indizieren des zusätzlichen Texthinweises verhindern wollen.
Es gibt zahlreiche Methoden, eine Indizierung zu verhindern:
- Einfügen des Textes per Javascript.
- Robots.txt
- Meta-Tag "robots"
Es gibt aber keine HTTP-Status, der besagt "behalte die alte Seite im Index, und indiziere nur die jetzt sichtbaren Veränderungen nicht".
- Sven Rautenberg