Ich betreibe noch ein VPS und nutze Nginx als Reverse-Proxy vor meinen Diensten.
Gerade mein Forgejo bekommt auch regelmäßig „Besuch” von AI-Crawlern, die ich mittlerweile recht zuverlässig über den UserAgent weggeblockt bekomme. Darüberhinaus habe ich auch einige Routen blockieren müssen, weil Werbeanbieter wohl App-SDKs zum Crawlen missbrauchen.
Als Startpunkt bin ich dabei von ai.robots.txt ausgegangen. Persönlich blocke ich aber auch User-Agents, die nicht zwingend ein LLM füttern. Das kann aus SEO-Sicht kontraproduktiv sein (wobei der Suchmaschinenmarkt wegen dieser eh gerade in sich zusammenfällt).
Auf dem Radar habe ich auch Nginx Ultimate Bad Bot Blocker, wobei ich diesen nicht wie beschrieben auszurollen gedenke, sondern mir eher die erstellten Listen von UserAgents anschauen mag.
Robots.txt ist ein Nice-to-have, dass auch befüllt werden sollte (ich denke nicht, dass sich alle Marktteilnehmer daran halten werden).
Neben Webalizer taugt vielleicht auch GoAccess zur Auswertung.