Antwort an „Rolf B“ verfassen

Gegen Spam, Bots, Referrer die htaccess absichern

Rolf B 16.05.2025 08:53 (Versionen)

Hallo Robert,

den zweiten Screenshot hat er nachgeliefert - der bringt nur nicht viel, weil man den Inhalt auch findet, wenn man dem genannten Link zu Mitchell Krogs Bad Bot Blocker folgt.

Ich bin ganz guter Dinge, die Homepage des TO eruiert zu haben. Nennen wir sie mal... example.org. Indiz ist das dbeS Verzeichnis und der Umstand, dass ich an diese Homepage die im Log gezeigten Pfade anhängen kann und eine sinnvolle Antwort bekomme.

In der robots.txt steht:

User-agent: *
Disallow: /navi.php
Disallow: /druckansicht.php
Disallow: /suche.php
Disallow: /bestellabschluss.php
Disallow: /bestellvorgang.php
Disallow: /jtl.php
Disallow: /pass.php
Disallow: /registrieren.php
Disallow: /warenkorb.php
Disallow: /admin
Disallow: /admin/*
Disallow: /dbeS/*
Disallow: ./well-known/*
Disallow: ./well-known/
Sitemap: https://example.org/sitemap_index.xml

Und das erklärt für mich, warum auch die Bots, die die robots.txt berücksichtigen, fleißig Produktseiten aufrufen. Alle drei gezeigten Log-Einträge werden durch die robots.txt nicht verboten.

Die Frage, wie sie überhaupt an die Produktseiten 'rangekommen sind, beantwortet sich durch die Sitemap. Die ist über 2 MB groß und listet jede Menge Produktseiten auf.

GPTBot und ClaudeBot sollte man, soweit sie compliant sind, durch

User-Agent: gptbot
User-Agent: claudebot
Disallow: /

am Anfang der robots.txt abhalten können (der Bot-Name ist laut RFC 9309 case-insensitive und man kann durch Wiederholen der User-Agent Line eine Zugriffsgruppe für mehrere Bots bauen).

Dieses Git-Repo hilft bei der Liste der AI-Bots. Inwieweit die robots.txt compliant sind, weiß man natürlich nicht.

Rolf

--
sumpsi - posui - obstruxi

Betreff

Autor

E-Mail-Adresse freiwillig, öffentlich sichtbar

Homepage freiwillig, öffentlich sichtbar

problematische Seite freiwillig, öffentlich sichtbar

Beitragstext

> Hallo Robert,
> 
> den zweiten Screenshot hat er nachgeliefert - der bringt nur nicht viel, weil man den Inhalt auch findet, wenn man dem genannten Link zu Mitchell Krogs Bad Bot Blocker folgt.
> 
> Ich bin ganz guter Dinge, die Homepage des TO eruiert zu haben. Nennen wir sie mal... example.org. Indiz ist das dbeS Verzeichnis und der Umstand, dass ich an diese Homepage die im Log gezeigten Pfade anhängen kann und eine sinnvolle Antwort bekomme.
> 
> In der robots.txt steht:
> 
> ~~~
> User-agent: *
> Disallow: /navi.php
> Disallow: /druckansicht.php
> Disallow: /suche.php
> Disallow: /bestellabschluss.php
> Disallow: /bestellvorgang.php
> Disallow: /jtl.php
> Disallow: /pass.php
> Disallow: /registrieren.php
> Disallow: /warenkorb.php
> Disallow: /admin
> Disallow: /admin/*
> Disallow: /dbeS/*
> Disallow: ./well-known/*
> Disallow: ./well-known/
> Sitemap: https://example.org/sitemap_index.xml
> ~~~
> 
> Und das erklärt für mich, warum auch die Bots, die die robots.txt berücksichtigen, fleißig Produktseiten aufrufen. Alle drei gezeigten Log-Einträge werden durch die robots.txt nicht verboten.
> 
> Die Frage, wie sie überhaupt an die Produktseiten 'rangekommen sind, beantwortet sich durch die Sitemap. Die ist über 2 MB groß und listet jede Menge Produktseiten auf.
> 
> GPTBot und ClaudeBot sollte man, soweit sie compliant sind, durch
> 
> ~~~
> User-Agent: gptbot
> User-Agent: claudebot
> Disallow: /
> 
> ~~~
> 
> am Anfang der robots.txt abhalten können (der Bot-Name ist laut RFC 9309 case-insensitive und man kann durch Wiederholen der User-Agent Line eine Zugriffsgruppe für mehrere Bots bauen).
> 
> [Dieses Git-Repo](https://github.com/ai-robots-txt/ai.robots.txt) hilft bei der Liste der AI-Bots. Inwieweit die robots.txt compliant sind, weiß man natürlich nicht.
> 
> _Rolf_

Tag 1
Tag 2
Tag 3

speichere die Identität in einem Cookie

Ihre Identität in einem Cookie zu speichern erlaubt es Ihnen, Ihre Beiträge zu editieren. Außerdem müssen Sie dann bei neuen Beiträgen nicht mehr die Felder Name, E-Mail und Homepage ausfüllen.

Formulieren Sie bitte höflich und wertschätzend.
Im Wiki erhalten Sie Hilfe bei der Formatierung Ihrer Beiträge.
Ihr Beitrag wird dauerhaft archiviert.

abbrechen