Hallo Robert,
den zweiten Screenshot hat er nachgeliefert - der bringt nur nicht viel, weil man den Inhalt auch findet, wenn man dem genannten Link zu Mitchell Krogs Bad Bot Blocker folgt.
Ich bin ganz guter Dinge, die Homepage des TO eruiert zu haben. Nennen wir sie mal... example.org. Indiz ist das dbeS Verzeichnis und der Umstand, dass ich an diese Homepage die im Log gezeigten Pfade anhängen kann und eine sinnvolle Antwort bekomme.
In der robots.txt steht:
User-agent: *
Disallow: /navi.php
Disallow: /druckansicht.php
Disallow: /suche.php
Disallow: /bestellabschluss.php
Disallow: /bestellvorgang.php
Disallow: /jtl.php
Disallow: /pass.php
Disallow: /registrieren.php
Disallow: /warenkorb.php
Disallow: /admin
Disallow: /admin/*
Disallow: /dbeS/*
Disallow: ./well-known/*
Disallow: ./well-known/
Sitemap: https://example.org/sitemap_index.xml
Und das erklärt für mich, warum auch die Bots, die die robots.txt berücksichtigen, fleißig Produktseiten aufrufen. Alle drei gezeigten Log-Einträge werden durch die robots.txt nicht verboten.
Die Frage, wie sie überhaupt an die Produktseiten 'rangekommen sind, beantwortet sich durch die Sitemap. Die ist über 2 MB groß und listet jede Menge Produktseiten auf.
GPTBot und ClaudeBot sollte man, soweit sie compliant sind, durch
User-Agent: gptbot
User-Agent: claudebot
Disallow: /
am Anfang der robots.txt abhalten können (der Bot-Name ist laut RFC 9309 case-insensitive und man kann durch Wiederholen der User-Agent Line eine Zugriffsgruppe für mehrere Bots bauen).
Dieses Git-Repo hilft bei der Liste der AI-Bots. Inwieweit die robots.txt compliant sind, weiß man natürlich nicht.
Rolf
sumpsi - posui - obstruxi