Thomas Luethi: Suchmaschinen sollen diese HTML-Seite nicht finden

Beitrag lesen

Hallo,

Streiten brauchen wir uns wirklich nicht.

Einverstanden - Peace! ;-)

Ich meine nur, dass ich mich nicht über das Verhalten von Google beschweren brauche, wenn widersprüchliche Angaben existieren und dazu kein offizieller Standard festlegt, welche Angabe stärker gewichtet werden soll.

Auf den "offiziellen" Seiten habe ich noch folgendes gefunden:
http://www.robotstxt.org/wc/meta-notes.html
  "This tag is meant to provide users who cannot control the robots.txt file at their sites.
   It provides a last chance to keep their content out of search services."

Der Gedanke bei der Einfuehrung der robots.txt und der Robots-Meta-Tags
lag also IMHO ganz klar auf dem "Ausschliessen".

Die Robots-Meta-Tags sollten es den Seitenautoren, die keinen Zugriff
auf die robots.txt haben, ermoeglichen, in den einzelnen Dateien das
Spider- und Indizierungs-_Verbot_ auszusprechen - meine Hervorhebung:
"keep their content OUT of search services".

Natuerlich ist dadurch immer noch nicht abschliessend definiert, wie sich ein
Robot verhalten soll, wenn die robots.txt den Besuch eines ganzen Verzeichnisses
verbietet, in den einzelnen Dateien aber steht, dass er sie indizieren und den
Links folgen soll.

Nach meinem Verstaendnis sollte ein anstaendiger Robot, bevor er eine Seite
abruft und anschaut, zuerst in der robots.txt schauen, ob er sie ueberhaupt
abrufen und anschauen darf:
http://www.robotstxt.org/wc/exclusion.html#robotstxt
  "[...] when a Robot vists a Web site, say http://www.foobar.com/, it firsts checks for
  http://www.foobar.com/robots.txt. If it can find this document, it will analyse its contents
  for records like:
    User-agent: *
    Disallow: /
  to see if it is allowed to retrieve the document."

Wenn also in der robots.txt steht, dass der Robot das Dokument gar nicht abholen soll,
und wenn der Robot sich daran haelt, dann gibt es auch keinen Widerspruch, weil der
Robot das Meta-Tag, das ihm das Indizieren erlauben wuerde, gar nie zu Gesicht bekommt...

So gesehen verstoesst Google IMHO gegen die Vereinbarungen und
die Idee hinter der robots.txt.

Historisch gesehen war vermutlich zuerst (Juni 1994) die robots.txt da, und
die Robots-Meta-Tags kamen erst etwas spaeter (Juni 1996) hinzu.
So verstehe ich jedenfalls folgenden Abschnitt:
http://www.kollar.com/robots.html
  "Lastly, we would like to propose some modest extensions to the exclusion standard
  which we feel would help the web based catalogue building community, as well as
  give the creator of a page the ability to control its spidering. These extensions will
  be based on the HTML meta tag."

Verzeichnisse, die nur für mich oder einen eng begrenzten Benutzerkreis zur Verfügung stehen sollen, bei denen es wichtig ist, dass Google sie nicht besucht, bekommen einen Passwortschutz.

Sicher sinnvoll.

Verzeichnisse [...] bei denen ein Besuch durch Google nicht wünschenswert aber auch kein Beinbruch ist, bekommen nur den Eintrag in der robots.txt.

Auch das kann ich nachvollziehen.

Ich war eben etwas veraergert, als ich zum ersten Mal feststellte, dass Google
sich nicht an die robots.txt haelt, und werde seither nicht muede, hier davor
zu warnen, sich auf die robots.txt zu verlassen.

Freundliche Gruesse,

Thomas

--
Bitte keine Mails mit Fachfragen - dafuer gibt es das Forum!
Ich mag es, wenn URLs verlinkt sind (</faq/#Q-19>).
Oft gestellte PHP-Fragen beantwortet die dclp-FAQ bestens: http://www.dclp-faq.de/