Meines Erachtens interessieren sich Bots eher nicht so für die robots.txt,
Dein "Erachten" lässt sich durch einen schnellen Einzeiler be- oder widerlegen:
`grep robots.txt code.fastix.org_access.log | grep '10/Aug/2018' | cut -d ' ' -f 12,13,14,15,16,17 | sort -u`
Hier also die sortierte Liste der Agenten, welche gestern code.fastix.org nach der robots.txt gefragt haben:
"Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/)"
"Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)"
"Mozilla/5.0 (compatible; BLEXBot/1.0; +http://webmeup-crawler.com/)"
"Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)"
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
"Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)"
"Mozilla/5.0 (compatible; SemrushBot/2~bl; +http://www.semrush.com/bot.html)"
"Mozilla/5.0 (compatible; tracemyfile/1.0; +bot@tracemyfile.com)"
"Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)"
"panscient.com"
das machen echte Menschen.
Natürlich. Aber weil diese echten Menschen nicht diese langweiligen Textdateien lesen und parsen wollen, programmieren die "bots". Übrigen auch die böswilligen oder Spammer.
In der Liste findet sich z.B.
"panscient.com"
Auf deren Webseite finde ich (Ich war dabei sehr vorsichtig, denn auch die Angaben zum referrer und die URLs in den Angaben der Agenten können höchst böswillig sein!), was die verkaufen:
A collection of over 8.6 million US business names and contact information. Each record includes the website URL, the business name, business description, keywords, and at least a US address or US phone. Fax and email address are also provided where available.
warum in der robots.txt nach "Disallow: /wp-admin/" suchen, wenn man das Verzeichnis genauso gut direkt abrufen kann?
Böswillige Programmierer halten sich für raffiniert. Deren "Schriebs" holt also die robots.txt und schaut mal nach, was alles verboten ist.
Denn was lernen kleine Jungs und junge Hunde als Erstes?
- Alles was interessant ist heißt "Pfui!".
Das beantwortet folgende Deiner Fragen:
Was soll ich als Bot mit der Information "Disallow: /badewanne" anfangen? Hui, da versteckt einer seine Badewanne? Welchen Wert hat diese Information?
Die Sache ist also klar: In der robots.txt genannte Ressourcen sind "Pfui", ergo "interessant".
Diese Suche unternejmen sie aber, gerade bei Sicherheitslücken, entweder gezielt, denn warum in der robots.txt nach "Disallow: /wp-admin/" suchen, wenn man das Verzeichnis genauso gut direkt abrufen kann? Das Ergebnis ist dasselbe, gefunden oder nicht gefunden, aber der Direktabruf spart 50% der Arbeitslast.
Das stimmt nur, wenn er nur auf '/wp-admin/' untersuchen will. Aber, was wenn sein Skript mehrere Lücken in einem dutzend CMS oder gar hunderten anderen Webanwendungen (angefangen vom Klassiker ("Matts Gästebuch"...) sucht? Dann kann er so, womöglich einige Requests sparen, wenn er mit einem Abruf die robots.txt abholt und dann befragt, ob sich darin Trigger-Einträge befinden, die auf ein bestimmtes CMS oder Skript hinweisen. Das spart dann verräterische Zugriffe. Es ist also nicht ganz dumm, sowas zu tun.
Das machen bestenfalls Anfänger, Skript-Kiddies, nicht die tatsächlich gefährlichen Leute,
Diese Aussage ist also einfach mal falsch.
Freilich muss es ein solcher Bot hinnehmen von so manch schnellem Typen dann eben daran erkannt zu werden.