ChrisB: Zusatzfrage: mod_rewrite - andere Seiten/ Header für Bots?

Beitrag lesen

Hi,

Anders sieht das aus, wenn man erst mal "sämtliche" Benutzereingaben in Form von URLs akzeptiert, und dann versucht, bei nicht auffindbaren Inhalten auf das nächstbeste zu verweisen - dann kann man in der 404-Antwort gerne auch "Hamm ja nich, aber meinten sie vielleicht eines der folgenden Dokumente: [Auflistung]" mit ausgeben.
Ja, weil dann ja auch eine konkret angeforderte Resource definitiv nicht verfügbar ist.

Jetzt frage ich mich allerdings nur noch, wie ich die braven Bots (also jene, die sich an die robots.txt halten), von allen möglichen Suchergebnisseiten fernhalten soll?

Du hältst sie, was oben beschriebenes Szenario angeht - 404-Antwortdokument, das Alternativvorschläge enthält - dadurch davon fern, dies als für den Allgemeinsurfer relevanten Inhalt zu betrachten, dass du das ganze mit dem HTTP-Statuscode 404 auslieferst.
404 interpretiert auch ein durchschnittsinteligenter SuMa-Bot als das, was die HTTP-Spezifikation darunter versteht: Der Inhalt, der angefordert wurde, steht unter dieser Adresse definitiv nicht zur Verfügung. Damit ist das, was Google in seinen Richtlinien von dir will, erfüllt - du hast der Suchmaschine mitgeteilt, dass der Inhalt dieser

automatisch erstellten Seite[n], die keinen großen Wert für Besucher [hat], die über eine Suchmaschine auf Ihre Website geleitet wurden

genau so zu bewerten ist.

Und außerdem ist diese Methode doch spätestens dann zum Scheitern verurteilt, wenn irgendwo im Web entsprechende Links auftauchen, auf die sich die Bots stürzen (auch der von Google)!?

Wo Links auftauchen, ist egal - dein Server ist der, der Google gegenüber bei einer Anfrage nach einer solchen Adresse darüber "Rechenschaft ablegt", ob es unter dieser relevanten Inhalt gibt oder nicht.
Wenn nicht, dann sagst du einfach und ehrlich Nein - HTTP-Statuscode 404.

MfG ChrisB

--
Light travels faster than sound - that's why most people appear bright until you hear them speak.