TorstenA: Probleme beim Eintrag in Google

Beitrag lesen

Hallo wahsaga,

es ist festgelegt, dass sich die robots.txt immer direkt im web root der domain befindet, also über http://www.domain.example/robots.txt abrufbar ist.

Das ist mir bekannt.

robots.txt in einzelnen unterverzeichnissen ist demnach per se ein zweckloses unterfangen.

Aus Sicht des Admins mit Sicherheit.

auch bei einer direkt verlinkten datei in unterverzeichnisxy _weiss_ ein robot, der sich an den standard hält also trotzdem, dass er im webroot der site nach der robots.txt zu suchen hat.

Jetzt wird's interessant, denn woher weiß er das? Rät er, indem er den URI einfach nach der TLD "abschneidet"? Oder hängt er einfach bloß ein robots.txt dran? Oder fragt er am Ende die robots.txt nur dann ab, wenn er mit der Indizierung im obersten Verzeichnis anfängt, nicht jedoch bei Deeplinks in Unterverzeichnisse? Fragen über Fragen ...

Eines steht nach der bisherigen Diskussion zumindest aus meiner Sicht fest, nämlich die Tatsache, dass das Verhalten des Googlebots (wie auch jedes anderen Suchrobots) nicht mit Sicherheit vorhergesagt werden kann. Das ist doch auch schon was ...

Torsten

PS: beim Stöbern in meinen Logfiles ist mir noch aufgefallen, dass alle Robots nicht bei jeder Indizierung die robots.txt abfragen, obwohl sie vorhanden ist. Sehr seltsames Verhalten.