Traffic von Text-Scraping Bots für LLM-Training von Felix Riesterer, 28.08.2024 11:58

Traffic von Text-Scraping Bots für LLM-Training

Robert B. 28.08.2024 10:20

machine learning

Moin Forum,

ich bin heute Morgen auf einen interessanten Blog-Artikel eines Webhosters gestoßen: Bad Robots^[1]. Bei denen machen Bots, die Text zum Training von Large-Language-Models (LLM) scrapen, angeblich über 50% der Abfragen aus, wobei sich diese Bots anscheined nicht an die robots.txt und Crawl-Delays halten, sowie zum Teil mit vielen IPs gleichzeitig massenhaft Inhalte anfragen.

Ich kann das bislang nicht beurteilen, weil die von mir betreuten Webseiten insgesamt nicht so „relevant sind“ und daher nicht soviel Traffic haben. Bei anderen hier sieht es bestimmt anders aus. Ich werde dennoch mal öfter nach den dort genannten Bots Ausschau halten.

Viele Grüße
Robert

Wer wie Uberspace bei dem Titel an das „8-Bit Lagerfeuer“ einer darmstädter Band denkt, wird auch direkt bei denen fündig. ↩︎

Beitrag melden

– Informationen zu den Bewertungsregeln

Traffic von Text-Scraping Bots für LLM-Training
Felix Riesterer Homepage des Autors 28.08.2024 11:58

machine learning
– Informationen zu den Bewertungsregeln
Lieber Robert,

Ich kann das bislang nicht beurteilen,

vielleicht ist Dir Fefes Einschätzung dazu dienlich?

Liebe Grüße

Felix Riesterer
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Traffic von Text-Scraping Bots für LLM-Training
  
  Rolf B 28.08.2024 12:07 (Versionen)
  
  machine learning
  – Informationen zu den Bewertungsregeln
  Hallo Felix,
  
  tatsächlich finde ich in den Wowbagger-Logs auch Massen von Zugriffen, die teils scrapen und teils einfach sinnlos sind. Warum ruft man die gleiche Seite stundenlang im Sekundentakt ab?
  
  Claudebot - ja, den meine ich auch gesehen zu haben. Da wir auf Wowbagger etliche Sites hosten, läppert sich da einiges zusammen.
  
  Ob es hilft, das zu filtern? Wohl kaum, die Typen kommen dann einfach über andere Adressen oder modifizieren ihren UA-String.
  
  Rolf
  
  --
  sumpsi - posui - obstruxi
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
2. Traffic von Text-Scraping Bots für LLM-Training
  
  Robert B. 29.08.2024 10:53
  
  machine learning
  – Informationen zu den Bewertungsregeln
  Moin Felix,
  
  Ich kann das bislang nicht beurteilen,
  
  vielleicht ist Dir Fefes Einschätzung dazu dienlich?
  
  ich hätte noch ein „für die von mir betreuten Seiten“ einfügen sollen 😉
  
  Bezüglich Fefe gibt es ein Update.
  
  Viele Grüße
  Robert
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Robert B.: Traffic von Text-Scraping Bots für LLM-Training