ChrisB: robots.txt - Verfolgung von weiterführenden Links?

Beitrag lesen

Hi,

Google "crawled" auch das, was es nicht *indizieren* soll.

sicher, nur sagt die robots.txt aus, welche Seiten der Bot nicht *besuchen* darf. Gibt es Belege für ein diesbezügliches Fehlverhalten des Google-Bot?

Google hat bspw. mein Impressum in seinem Index [1] - obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?

Dass es dieses Disallow zur Kenntnis genommen hat (und es auch so notiert ist, dass es für die in Frage kommende Ressource "greift"), bestätigen mir die Google Webmaster Tools unter "URLs restricted by robots.txt".

[1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an [2]. Wohlgemerkt ohne weitere Informationen wie bei "normalen" Suchtreffern, also weder den title der Seite, noch einen excerpt - nur darunter noch den Link "ähnliche Seiten".

[2] Als weitere Ergebnisse kommen dann eine weitere Seite von meiner Domain (nach rechts eingerückt), und dann folgen Seiten von anderen Domains, die auf mein Impressum verlinken.

MfG ChrisB

--
Light travels faster than sound - that's why most people appear bright until you hear them speak.