Robert B.: Traffic von Text-Scraping Bots für LLM-Training

Beitrag lesen

Moin Forum,

ich bin heute Morgen auf einen interessanten Blog-Artikel eines Webhosters gestoßen: Bad Robots[1]. Bei denen machen Bots, die Text zum Training von Large-Language-Models (LLM) scrapen, angeblich über 50% der Abfragen aus, wobei sich diese Bots anscheined nicht an die robots.txt und Crawl-Delays halten, sowie zum Teil mit vielen IPs gleichzeitig massenhaft Inhalte anfragen.

Ich kann das bislang nicht beurteilen, weil die von mir betreuten Webseiten insgesamt nicht so „relevant sind“ und daher nicht soviel Traffic haben. Bei anderen hier sieht es bestimmt anders aus. Ich werde dennoch mal öfter nach den dort genannten Bots Ausschau halten.

Viele Grüße
Robert


  1. Wer wie Uberspace bei dem Titel an das „8-Bit Lagerfeuer“ einer darmstädter Band denkt, wird auch direkt bei denen fündig. ↩︎