Die robots.txt-Datei ist eine Empfehlung, eine Hilfestellung, um seriösen Suchmaschinen das Auslesen von unnötigen Daten zu ersparen.
Nur, welche Suchmaschinen sind denn unseriös?
Das kann Dir niemand sagen und es muß (!) Dir letztenendes auch vollkommen wurscht sein, denn ob sich jemand an Deine Empfehlungen aus der robots.txt hält oder nicht, liegt nicht in Deiner Hand.
Nochmal: Die robots.txt-Datei wird von _niemandem_ forciert. Wenn ein Spiderbetreiber sich nicht daran halten will, dann tut er es einfach nicht; er die Datei nicht einmal abzurufen, denn Du hast keinerlei Möglichkeit, ihn dazu zu zwingen (zumindest nicht, ohne Dir vorher selbst in's Bein zu schießen).
Also, in meiner Robots.txt habe ich ca. 30 Spider die ich ausschliesse. Deren Namen sagen mir nichts (habe die Liste von einer Seite übernommen).
Das ist schonmal ein sehr schlechter Ansatz..
Nun hoffe ich, nicht all zu viele seriöse Spider auszuschliessen.
..wie Du ja schon selbst bemerkst.
Die robots.txt-Datei sollte wirklich _nur_ dazu benutzt werden, Objekte, deren Indizierung keinen Sinn macht, von vornherein auszuschließen.
Die Möglichkeit, Regeln für bestimmte Spider aufzustellen, ist letztenendes nur dazu da, den Funktionsumfang der robots.txt zu komplettieren. Einen echten Nutzen hat sie nicht.
Beachte auch, daß Du die Namensangaben nicht einfach aus den Protokollen ziehen kannst, Angaben wie "RepoMonkey Bait & Tackle/v1.01" sind mit Sicherheit vollkommen nutzlos. Du wirst Dich schon vorher beim Dienstebetreiber informieren müssen unter welchem Eintragsnamen er in der robots.txt nach Regeln für sich sucht.
Und um noch das Thema "bösartige Datensammler allgemein" gleich mit zu erschlagen, unabhängig von der robots.txt: Du hast so gut wie keinerlei Möglichkeit, derartigen Datensammlern Daten von Deinen Webseiten vorzuenthalten. Die Identifizierung über die User-Agent-Angabe (die auch in den Protokollen auftaucht) ist freiwillig und mittlerweile selbst mit Standardbrowsern wie Opera und Mozilla beliebig manipulierbar (wegen der Dummheit mancher Seitenbaster ist das manchmal sogar ein Muss).
Darauf basierend möchte ich mal behaupten, daß die meisten Datensammeldienste sich sowieso nicht mit "Spambot v42.23" o.ä. identifizieren, sondern als irgendein stinknormaler Browser in Deinen Protokollen auftauchen - oder kennst Du einen Schnüffler, der sich öffentlich als Schnüffler vorstellt? "Guten Tag, ich bin Spion und möchte mal eben Ihre persönlichen Papiere kopieren"?
Womit wir dann wieder bei Deiner derzeitigen robots.txt wären: Wahrscheinlich sind sämtliche Dienste, denen Du in der robots.txt die Nicht-Durchsuchung nahelegst, völlig harmlos.
Gruß,
soenk.e