Traffic von Text-Scraping Bots für LLM-Training
Robert B.
- machine learning
Moin Forum,
ich bin heute Morgen auf einen interessanten Blog-Artikel eines Webhosters gestoßen: Bad Robots[1]. Bei denen machen Bots, die Text zum Training von Large-Language-Models (LLM) scrapen, angeblich über 50% der Abfragen aus, wobei sich diese Bots anscheined nicht an die robots.txt
und Crawl-Delays halten, sowie zum Teil mit vielen IPs gleichzeitig massenhaft Inhalte anfragen.
Ich kann das bislang nicht beurteilen, weil die von mir betreuten Webseiten insgesamt nicht so „relevant sind“ und daher nicht soviel Traffic haben. Bei anderen hier sieht es bestimmt anders aus. Ich werde dennoch mal öfter nach den dort genannten Bots Ausschau halten.
Viele Grüße
Robert
Wer wie Uberspace bei dem Titel an das „8-Bit Lagerfeuer“ einer darmstädter Band denkt, wird auch direkt bei denen fündig. ↩︎
Lieber Robert,
Ich kann das bislang nicht beurteilen,
vielleicht ist Dir Fefes Einschätzung dazu dienlich?
Liebe Grüße
Felix Riesterer
Hallo Felix,
tatsächlich finde ich in den Wowbagger-Logs auch Massen von Zugriffen, die teils scrapen und teils einfach sinnlos sind. Warum ruft man die gleiche Seite stundenlang im Sekundentakt ab?
Claudebot - ja, den meine ich auch gesehen zu haben. Da wir auf Wowbagger etliche Sites hosten, läppert sich da einiges zusammen.
Ob es hilft, das zu filtern? Wohl kaum, die Typen kommen dann einfach über andere Adressen oder modifizieren ihren UA-String.
Rolf
Moin Felix,
Ich kann das bislang nicht beurteilen,
vielleicht ist Dir Fefes Einschätzung dazu dienlich?
ich hätte noch ein „für die von mir betreuten Seiten“ einfügen sollen 😉
Bezüglich Fefe gibt es ein Update.
Viele Grüße
Robert