Gunther: Zusatzfrage: mod_rewrite - andere Seiten/ Header für Bots?

Beitrag lesen

Hi,

boah, ich werd' alt glaub' ich! Also erstmal eine Korrektur:
Die Anmerkung

Angeregt wurden meine Überlegungen übrigens durch den hier im Thread vorgebrachten Vorschlag, Such(ergebnis)seiten generell mit einem 404er auszuliefern.

bezog sich nicht auf diesen Thread hier, sondern auf den etwas älteren hier im Archiv.

  • Macht es aus eurer Sicht Sinn, den Bots, die sich offen als solche zu erkennen geben (bspw. per User-Agent), bspw. bei Links mit Query Strings, einen anderen Inhalt zu liefern, als den normalen Usern?

Nein, überhaupt nicht.
Wenn die Suchmaschinen merken, dass sie andere Inhalte vorgesetzt bekommen, als der normale Surfer, dann strafen sie das idR. ab.

Ja, so ist mir das auch bekannt und fällt meines Wissens nach unter den Begriff "cloaking".
Google selber sagt ja u.a.:"Verhindern Sie mithilfe der Datei "robots.txt" das Crawlen von Suchergebnisseiten oder anderen automatisch erstellten Seiten, die keinen großen Wert für Besucher haben, die über eine Suchmaschine auf Ihre Website geleitet wurden."
(siehe: Richtlinien für Webmaster - Technische Richtlinien

  • Oder ihnen zwar den "normalen" Content, aber mit anderem HTTP Header (bspw. 404) auszuliefern?

Nein, auch unsinnig.
Der HTTP-Statuscode 404 ist für die SuMa das entscheidende, der Inhalt dieses Dokuments interessiert sie kaum; 404 ist dazu *da*, ihr zu sagen, dass der gewünschte Inhalt nicht gefunden würde - also hat sie keinen Grund, dem damit ausgelieferten Dokumentinhalt irgendeine Bedeutung beizumessen.

Angeregt wurden meine Überlegungen übrigens durch den hier im Thread vorgebrachten Vorschlag, Such(ergebnis)seiten generell mit einem 404er auszuliefern.

Halte ich nicht viel von.

Zu der Ansicht tendiere ich auch eher.

Eine "normale", vom Benutzer durchgeführte Suche (über explizit auf der Seite bereitgestellte Funktionalität), kann mein Server auf jeden Fall bedienen. Wenn diese keine Ergebnisse liefert, ist das zwar Pech für den Suchenden - aber für mich kein Fall von 404.

Ja eben. Das ist für mich auch einer der Hauptgründe, das nicht so zu machen.

Anders sieht das aus, wenn man erst mal "sämtliche" Benutzereingaben in Form von URLs akzeptiert, und dann versucht, bei nicht auffindbaren Inhalten auf das nächstbeste zu verweisen - dann kann man in der 404-Antwort gerne auch "Hamm ja nich, aber meinten sie vielleicht eines der folgenden Dokumente: [Auflistung]" mit ausgeben.

Ja, weil dann ja auch eine konkret angeforderte Resource definitiv nicht verfügbar ist.

Jetzt frage ich mich allerdings nur noch, wie ich die braven Bots (also jene, die sich an die robots.txt halten), von allen möglichen Suchergebnisseiten fernhalten soll? Und außerdem ist diese Methode doch spätestens dann zum Scheitern verurteilt, wenn irgendwo im Web entsprechende Links auftauchen, auf die sich die Bots stürzen (auch der von Google)!?

Gruß Gunther