Versions-Historie des Beitrags „Gegen Spam, Bots, Referrer die htaccess absichern“

Gegen Spam, Bots, Referrer die htaccess absichern

bearbeitet von

Rolf B 16.05.2025 08:53

Hallo Robert, den zweiten Screenshot hat er nachgeliefert - der bringt nur nicht viel, weil man den Inhalt auch findet, wenn man dem genannten Link zu Mitchell Krogs Bad Bot Blocker folgt. Ich bin ganz guter Dinge, die Homepage des TO eruiert zu haben. Nennen wir sie mal... example.org. Indiz ist das dbeS Verzeichnis und der Umstand, dass ich an diese Homepage die im Log gezeigten Pfade anhängen kann und eine sinnvolle Antwort bekomme. In der robots.txt steht: ~~~ User-agent: * Disallow: /navi.php Disallow: /druckansicht.php Disallow: /suche.php Disallow: /bestellabschluss.php Disallow: /bestellvorgang.php Disallow: /jtl.php Disallow: /pass.php Disallow: /registrieren.php Disallow: /warenkorb.php Disallow: /admin Disallow: /admin/* Disallow: /dbeS/* Disallow: ./well-known/* Disallow: ./well-known/ Sitemap: https://example.org/sitemap_index.xml ~~~ Und das erklärt für mich, warum auch die Bots, die die robots.txt berücksichtigen, fleißig Produktseiten aufrufen. Alle drei gezeigten Log-Einträge werden durch die robots.txt nicht verboten. Die Frage, wie sie überhaupt an die Produktseiten 'rangekommen sind, beantwortet sich durch die Sitemap. Die ist über 2 MB groß und listet jede Menge Produktseiten auf. GPTBot und ClaudeBot sollte man, soweit sie compliant sind, durch ~~~ User-Agent: gptbot User-Agent: claudebot Disallow: / ~~~ am Anfang der robots.txt abhalten können (der Bot-Name ist laut RFC 9309 case-insensitive und man kann durch Wiederholen der User-Agent Line eine Zugriffsgruppe für mehrere Bots bauen). [Dieses Git-Repo](https://github.com/ai-robots-txt/ai.robots.txt) hilft bei der Liste der AI-Bots. Inwieweit die robots.txt compliant sind, weiß man natürlich nicht. _Rolf_ -- sumpsi - posui - obstruxi

Gegen Spam, Bots, Referrer die htaccess absichern

bearbeitet von

Robert B. 16.05.2025 09:22

Hallo Robert, den zweiten Screenshot hat er nachgeliefert - der bringt nur nicht viel, weil man den Inhalt auch findet, wenn man dem genannten Link zu Mitchell Krogs Bad Bot Blocker folgt. Ich bin ganz guter Dinge, die Homepage des TO eruiert zu haben. Nennen wir sie mal... example.org. Indiz ist das dbeS Verzeichnis und der Umstand, dass ich an diese Homepage die im Log gezeigten Pfade anhängen kann und eine sinnvolle Antwort bekomme. In der robots.txt steht: User-agent: * Disallow: /navi.php Disallow: /druckansicht.php Disallow: /suche.php Disallow: /bestellabschluss.php Disallow: /bestellvorgang.php Disallow: /jtl.php Disallow: /pass.php Disallow: /registrieren.php Disallow: /warenkorb.php Disallow: /admin Disallow: /admin/* Disallow: /dbeS/* Disallow: ./well-known/* Disallow: ./well-known/ Sitemap: https://example.org/sitemap_index.xml Und das erklärt für mich, warum auch die Bots, die die robots.txt berücksichtigen, fleißig Produktseiten aufrufen. Alle drei gezeigten Log-Einträge werden durch die robots.txt nicht verboten. Die Frage, wie sie überhaupt an die Produktseiten 'rangekommen sind, beantwortet sich durch die Sitemap. Die ist über 2 MB groß und listet jede Menge Produktseiten auf. GPTBot und ClaudeBot sollte man, soweit sie compliant sind, durch ~~~ User-Agent: gptbot User-Agent: claudebot Disallow: / ~~~ am Anfang der robots.txt abhalten können (der Bot-Name ist laut RFC 9309 case-insensitive und man kann durch Wiederholen der User-Agent Line eine Zugriffsgruppe für mehrere Bots bauen). [Dieses Git-Repo](https://github.com/ai-robots-txt/ai.robots.txt) hilft bei der Liste der AI-Bots. Inwieweit die robots.txt compliant sind, weiß man natürlich nicht. _Rolf_ -- sumpsi - posui - obstruxi