c:): Robots.txt - Welche Spider Exoten ausschliessen?

Beitrag lesen

Moin!

Oha :) Du glaubst doch nicht etwa im Ernst, daß sich irgendjemand an die robots.txt hält, wenn er Dir unbedingt Werbemüll schicken möchte oder sonstwas unfeines im Schilde führt? Es gibt keine robots-Polizei, die Verstöße gegen Deine Regelungen mit Bußgeldern straft.

Genau! Um wirklich z.B. Email-Sammel-Spider auszuschließen kann man diese höchstens in die Falle locken. Also in der robots.txt ein "Disallow: /email-adressen" eintragen. Eine böse Email-Sammel-Spider wird vermutlich versuchen, in dieses Unterverzeichnis reinzugucken. Mit einem kleinen Perl-Script merkst du dir deren IP# und blockst sie danach auf deinem Server. Ok, bei "normalen" shared accounts geht das wohl nicht, es sei denn, du generierst alle Seiten dynamisch mit Perl, PHP, etc. Dann kannst du dir da ja deine eigene liste mit geblockten IP# anlegen.

Ob es allerdings den Aufwandt lohnt ist ne ganz andere Frage...

Gruß