web.archive.org - robots.txt blockiert Zugriff, warum?
Phil
- projektverwaltung
Hi!
Wenn ich auf http://www.web.archive.org nach http://www.yubb.de suche, wird mir gesagt, dass die robots.txt den Zugriff verweigern würde. (http://www.yubb.de/robots.txt)
Nun wollte ich fragen, was ich falsch mache.
Wenn ihr was wisst, wärs nett, wenn ihr mir helfen könntet.
CU
http://www.yubb.de--
Probier mal was anderes diesen Winter: Coke bei 60 °
User-agent: *
Disallow: /stats
Disallow: /mysqladmin
Disallow: /gb
Disallow: /forum/admin
Disallow: /usage
User-agent: WebZIP
Disallow: /
User-agent: ia_archiver
Disallow: /
Da steht WebZip und ia-archiver dürfen die Website nicht scannen. Also machen die das erfreulicherweise auch nicht.
Es ist alles richtig.
fastix
Hi!
Und was für einen User-Agent nutzt web.archive.org? Ich mein, wenn der da rumzickt?!
CU
http://www.yubb.de
Moin!
Und was für einen User-Agent nutzt web.archive.org? Ich mein, wenn der da rumzickt?!
Mal schlau überlegen: web.archive.org nennt sich auch "Internet Archive Wayback Machine"
Und wie könnte man dann den Archivier-Spider des "Internet Archive" wohl nennen? Na, kommst du selbst drauf?
- Sven Rautenberg
Hi!
okok ;D
CU
http://www.yubb.de
Hi Phil,
Und was für einen User-Agent nutzt web.archive.org? Ich mein, wenn der da rumzickt?!
läßt Du solche Informationen etwa nicht von Deinem Webserver-Log erfassen?
Viele Grüße
Michael