Ingo Turski: robots.txt

Beitrag lesen

Hi,

also, der slurp schlürft ein dokument auch, wenn er es laut robots.txt nicht soll - er folgt dort aber weder links, noch indexiert er das dokument.

hm, komisches verhalten - und zu welchem "internen gebrauch" das passieren soll, ist mir auch unklar.

ich könnte mir denken, daß Inktomi zumindest prüfen will, was der "Normaluser" da zu sehen bekommt bzw. was Robots nicht sehen sollen - das könnte ja unschöne Gründe haben.

wenn du slurp also wirklich davon abhalten willst, kommt wohl offenbar nur eine abfrage des user agent strings in frage, per mod_rewrite o.ä., um dann mit einem 401 forbidden zu antworten.

Besser eine Abfrage der IP-Bereiche - falls das möglich ist. Yahoo/inktomi kommt auch mit anderen UAs, manchmal sogar als simpler Mozilla.

freundliche Grüße
Ingo