Gegen Spam, Bots, Referrer die htaccess absichern
bearbeitet von
Hallo Robert,
den zweiten Screenshot hat er nachgeliefert - der bringt nur nicht viel, weil man den Inhalt auch findet, wenn man dem genannten Link zu Mitchell Krogs Bad Bot Blocker folgt.
Ich bin ganz guter Dinge, die Homepage des TO eruiert zu haben. Nennen wir sie mal... example.org. Indiz ist das dbeS Verzeichnis und der Umstand, dass ich an diese Homepage die im Log gezeigten Pfade anhängen kann und eine sinnvolle Antwort bekomme.
In der robots.txt steht:
User-agent: *
Disallow: /navi.php
Disallow: /druckansicht.php
Disallow: /suche.php
Disallow: /bestellabschluss.php
Disallow: /bestellvorgang.php
Disallow: /jtl.php
Disallow: /pass.php
Disallow: /registrieren.php
Disallow: /warenkorb.php
Disallow: /admin
Disallow: /admin/*
Disallow: /dbeS/*
Disallow: ./well-known/*
Disallow: ./well-known/
Sitemap: https://example.org/sitemap_index.xml
Und das erklärt für mich, warum auch die Bots, die die robots.txt berücksichtigen, fleißig Produktseiten aufrufen. Alle drei gezeigten Log-Einträge werden durch die robots.txt nicht verboten.
Die Frage, wie sie überhaupt an die Produktseiten 'rangekommen sind, beantwortet sich durch die Sitemap. Die ist über 2 MB groß und listet jede Menge Produktseiten auf.
GPTBot und ClaudeBot sollte man, soweit sie compliant sind, durch
~~~
User-Agent: gptbot
User-Agent: claudebot
Disallow: /
~~~
am Anfang der robots.txt abhalten können (der Bot-Name ist laut RFC 9309 case-insensitive und man kann durch Wiederholen der User-Agent Line eine Zugriffsgruppe für mehrere Bots bauen).
[Dieses Git-Repo](https://github.com/ai-robots-txt/ai.robots.txt) hilft bei der Liste der AI-Bots. Inwieweit die robots.txt compliant sind, weiß man natürlich nicht.
_Rolf_
--
sumpsi - posui - obstruxi