Hallo fietur,
ich betreibe eine nicht-kommerzielle Webseite, die monatlich sechsstellige Zugriffszahlen hat. Aber leider nicht annähernd so viele Besucher, die sind eher im niedrigen dreistelligen Bereich.
Nun ja, Zugriffszahlen ≠ Zugriffe. Das ist ja eine alte Fragestellung im Web: Wie viele Zugriffe gehören zu einem Seitenbesucher?
Eine der Ursachen ist die überbordende Abfrage eines Veranstaltungskalenders durch Bots, hauptsächlich durch den GoogleBot.
Denn kann man doch in der Statistik sehr gut herausfiltern, weil der sich als solcher zu erkennen gibt.
Der öffentlich zugängliche Bereich (mit dem Kalender) kommt ohne JS und Cookies aus, so dass ich die Parameter für den Kalender (Zeitraum, regionale und thematische Filter) im URL an das ausliefernde php-Skript liefere. Und leider variieren die Bots mittlerweile die verschiedenen Möglichkeiten, diese Parameter einzustellen - mit der Folge, dass zahlreiche Varianten abgefragt werden.
Bots basteln sich aus den URL-Parametern neue URL-Aufrufe? Das liest sich merkwürdig, zumal im Satz davor noch explizit ein sehr bekannter Suchmaschinen-Roboter genannt wird.
Die Kalender-Seite in der robots.txt für crawler generell zu sperren, möchte ich eigentlich nicht; auch wenn ich eigentlich nicht auf eine Sichtbarkeit im Netz angewiesen bin.
Was ist denn dein eigentliches Problem? Dir kann es doch erst einmal gleichgültig sein, wie deine Seiten von Bots aufgerufen werden, sofern sie keinen Schaden anrichten (können).
Viele Grüße
Robert