Und selbst wenn man eine Seite entfernt wird sie weiterhin requestet. MFG
hä?
Wenn der Bot nicht mehr herankommt, kann er nicht mehr aktuell indizieren.
Also, wie ich die Dinge sehe will @fietor die Request einhegen. PL liegt also insoweit schon mal richtig.
Ich habe ja diese Netztools welche die Whois-Daten vin IPs, Domainen, Netzen und dergleichen auswerten und selbst neue Links erzeugen. Dadurch entstehen "Abermillionen" Links...
Ich habe jetzt die Erfahrung gemacht, dass insbesondere bots, die sich als
- "Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)"
- "Mozilla/5.0 (compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)"
- "Mozilla/5.0 (compatible; AhrefsBot/6.1; +http://ahrefs.com/robot/)"
vorstellten (das ist seitens des Abrufers im Rahmen der Möglichkeiten seiner Software frei bestimmbar), "mächtig Mist bauten", insbesondere Angaben zur Abruffrequenz in der robots.txt und die nofollow-Eigenschaft für Links ignorierten (welche Google beachtet!). Ich rede hier von ca. 100.000 Zugriffen auf meine Netztools im Dezember ...
Bot | Zugriffe |
---|---|
dotbot | 76899 |
SemrushBot | 8258 |
AhrefsBot | 22817 |
... welche verständlicherweise die Konsequenz nach sich zogen, dass RIPE meinen Webserver als böse ansah und keine whois-Daten mehr rausrückte.
Das Problem habe ich dann durch folgende, durchaus harte und völlig überzogene Maßnahme in den Griff bekommen:
.htaccess (Nur auf diese habe ich Zugriff)
### Warnung: Nutzung auf eigene Gefahr!
### Warning: Using this on your OWN RISC!
ErrorDocument 403 "Forbidden."
Require expr %{HTTP_USER_AGENT} !~ /ahrefs/i
Require expr %{HTTP_USER_AGENT} !~ /datanyze/i
Require expr %{HTTP_USER_AGENT} !~ /opensiteexplorer/i
Require expr %{HTTP_USER_AGENT} !~ /SemrushBot/i
Require expr %{HTTP_USER_AGENT} !~ /LinkFinder/i
Require expr %{HTTP_USER_AGENT} !~ /GSLFbot/i
Require expr %{HTTP_USER_AGENT} !~ /sistrix/i
Require expr %{HTTP_USER_AGENT} !~ /zooms/i
Require expr %{HTTP_USER_AGENT} !~ /majesti/i
Require expr %{HTTP_USER_AGENT} !~ /omgili/i
Require expr %{HTTP_USER_AGENT} !~ /ows 98/i
Require expr %{HTTP_USER_AGENT} !~ /extrabot/i
Require expr %{HTTP_USER_AGENT} !~ /ahrefs/i
Require expr %{HTTP_USER_AGENT} !~ /Java/i
Require expr %{HTTP_USER_AGENT} !~ /youtech/i
Require expr %{HTTP_USER_AGENT} !~ /seokicks/i
Require expr %{HTTP_USER_AGENT} !~ /Seznam/i
Require expr %{HTTP_USER_AGENT} !~ /esri/i
Require expr %{HTTP_USER_AGENT} !~ /warebay/i
Require expr %{HTTP_USER_AGENT} !~ /libwww/i
Require expr %{HTTP_USER_AGENT} !~ /Solomo/i
Require expr %{HTTP_USER_AGENT} !~ /WWWC/i
Require expr %{HTTP_USER_AGENT} !~ /ip-web/i
Require expr %{HTTP_USER_AGENT} !~ /panopta/i
Require expr %{HTTP_USER_AGENT} !~ /curl/i
Require expr %{HTTP_USER_AGENT} !~ /Wget/i
Require expr %{HTTP_USER_AGENT} !~ /Spider/i
Require expr %{HTTP_USER_AGENT} !~ /ntegrome/i
Require expr %{HTTP_USER_AGENT} !~ /andwatch/i
Require expr %{HTTP_USER_AGENT} !~ /SearchBot/i
Require expr %{HTTP_USER_AGENT} !~ /spinn3/i
Require expr %{HTTP_USER_AGENT} !~ /BLEX/i
##ewige Sperren:
#opensiteexplorer.org:
deny from 216.244.64.0/19
#ahrefs.com:
deny from 54.36.148.0/24
deny from 54.36.149.0/24
deny from 54.36.150.0/24
deny from 195.154.122.0/24
deny from 195.154.123.0/24
deny from 195.154.126.0/24
deny from 195.154.127.0/24
#Datanyze (bad robot)
deny from 45.55.252.28
deny from 45.55.255.88
deny from 104.236.118.204
deny from 138.197.104.18
deny from 138.197.111.244
deny from 138.197.104.6
deny from 142.93.71.91
deny from 142.93.75.171
deny from 142.93.78.12
deny from 142.93.184.162
deny from 159.203.88.194
Die IPs habe ich im Web herausgesucht, teils selbst in den Logs gesehen und habe recht großzügig gesperrt...).
Mit "datanyze" kam ein robot vorbei, dessen Abfragen mir gar nicht gefallen haben. Er wurde auch von anderen als "bad robot" klassifiziert.
Hinweise:
-
Die Aufrufe finden natürlich weiterhin statt, bis die Betreiber merken, dass da nur Fehlermeldungen kommen. Besser wäre es, man würde die betreffenden IP-Bereiche gleich in der Firewall zu blockieren.
-
Freilich kann ich auch testen, ob ein Mensch den Abruf macht… Das will ich aber erst mal vermeiden.