Raketenwissenschaftler: Botaufrufe verhindern: Eine Antwort und eine mögliche Lösung

Beitrag lesen

Und selbst wenn man eine Seite entfernt wird sie weiterhin requestet. MFG

hä?

Wenn der Bot nicht mehr herankommt, kann er nicht mehr aktuell indizieren.

Also, wie ich die Dinge sehe will @fietor die Request einhegen. PL liegt also insoweit schon mal richtig.

Ich habe ja diese Netztools welche die Whois-Daten vin IPs, Domainen, Netzen und dergleichen auswerten und selbst neue Links erzeugen. Dadurch entstehen "Abermillionen" Links...

Ich habe jetzt die Erfahrung gemacht, dass insbesondere bots, die sich als

  • "Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)"
  • "Mozilla/5.0 (compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)"
  • "Mozilla/5.0 (compatible; AhrefsBot/6.1; +http://ahrefs.com/robot/)"

vorstellten (das ist seitens des Abrufers im Rahmen der Möglichkeiten seiner Software frei bestimmbar), "mächtig Mist bauten", insbesondere Angaben zur Abruffrequenz in der robots.txt und die nofollow-Eigenschaft für Links ignorierten (welche Google beachtet!). Ich rede hier von ca. 100.000 Zugriffen auf meine Netztools im Dezember ...

Bot Zugriffe
dotbot 76899
SemrushBot 8258
AhrefsBot 22817

... welche verständlicherweise die Konsequenz nach sich zogen, dass RIPE meinen Webserver als böse ansah und keine whois-Daten mehr rausrückte.

Das Problem habe ich dann durch folgende, durchaus harte und völlig überzogene Maßnahme in den Griff bekommen:

.htaccess (Nur auf diese habe ich Zugriff)


### Warnung: Nutzung auf eigene Gefahr!
### Warning: Using this on your OWN RISC!

ErrorDocument 403 "Forbidden."

Require expr %{HTTP_USER_AGENT} !~ /ahrefs/i
Require expr %{HTTP_USER_AGENT} !~ /datanyze/i
Require expr %{HTTP_USER_AGENT} !~ /opensiteexplorer/i
Require expr %{HTTP_USER_AGENT} !~ /SemrushBot/i

Require expr %{HTTP_USER_AGENT} !~ /LinkFinder/i
Require expr %{HTTP_USER_AGENT} !~ /GSLFbot/i
Require expr %{HTTP_USER_AGENT} !~ /sistrix/i
Require expr %{HTTP_USER_AGENT} !~ /zooms/i
Require expr %{HTTP_USER_AGENT} !~ /majesti/i
Require expr %{HTTP_USER_AGENT} !~ /omgili/i
Require expr %{HTTP_USER_AGENT} !~ /ows 98/i
Require expr %{HTTP_USER_AGENT} !~ /extrabot/i
Require expr %{HTTP_USER_AGENT} !~ /ahrefs/i
Require expr %{HTTP_USER_AGENT} !~ /Java/i
Require expr %{HTTP_USER_AGENT} !~ /youtech/i
Require expr %{HTTP_USER_AGENT} !~ /seokicks/i
Require expr %{HTTP_USER_AGENT} !~ /Seznam/i
Require expr %{HTTP_USER_AGENT} !~ /esri/i
Require expr %{HTTP_USER_AGENT} !~ /warebay/i
Require expr %{HTTP_USER_AGENT} !~ /libwww/i
Require expr %{HTTP_USER_AGENT} !~ /Solomo/i
Require expr %{HTTP_USER_AGENT} !~ /WWWC/i
Require expr %{HTTP_USER_AGENT} !~ /ip-web/i
Require expr %{HTTP_USER_AGENT} !~ /panopta/i
Require expr %{HTTP_USER_AGENT} !~ /curl/i
Require expr %{HTTP_USER_AGENT} !~ /Wget/i
Require expr %{HTTP_USER_AGENT} !~ /Spider/i
Require expr %{HTTP_USER_AGENT} !~ /ntegrome/i
Require expr %{HTTP_USER_AGENT} !~ /andwatch/i
Require expr %{HTTP_USER_AGENT} !~ /SearchBot/i
Require expr %{HTTP_USER_AGENT} !~ /spinn3/i
Require expr %{HTTP_USER_AGENT} !~ /BLEX/i

##ewige Sperren:
#opensiteexplorer.org:
deny from 216.244.64.0/19

#ahrefs.com:
deny from 54.36.148.0/24
deny from 54.36.149.0/24
deny from 54.36.150.0/24
deny from 195.154.122.0/24
deny from 195.154.123.0/24
deny from 195.154.126.0/24
deny from 195.154.127.0/24

#Datanyze (bad robot)
deny from 45.55.252.28
deny from 45.55.255.88
deny from 104.236.118.204
deny from 138.197.104.18
deny from 138.197.111.244
deny from 138.197.104.6
deny from 142.93.71.91
deny from 142.93.75.171
deny from 142.93.78.12
deny from 142.93.184.162
deny from 159.203.88.194

Die IPs habe ich im Web herausgesucht, teils selbst in den Logs gesehen und habe recht großzügig gesperrt...).

Mit "datanyze" kam ein robot vorbei, dessen Abfragen mir gar nicht gefallen haben. Er wurde auch von anderen als "bad robot" klassifiziert.

Hinweise:

  1. Die Aufrufe finden natürlich weiterhin statt, bis die Betreiber merken, dass da nur Fehlermeldungen kommen. Besser wäre es, man würde die betreffenden IP-Bereiche gleich in der Firewall zu blockieren.

  2. Freilich kann ich auch testen, ob ein Mensch den Abruf macht… Das will ich aber erst mal vermeiden.

0 59

Botaufrufe einhegen

fietur
  • suchmaschinen
  1. 0
    Robert B.
    1. 0
      Der Martin
      1. 0
        Linuchs
        1. 0
          pl
          1. 2
            Linuchss
          2. 0
            TS
            • client
            • suchmaschinen
            • webserver
  2. 0
    pl
  3. 0
    TS
    • projekt
    • suchmaschinen
    • webserver
    1. 0
      pl
      1. 0
        TS
        1. 0
          pl
          1. 1
            TS
          2. 0
            Robert B.
        2. 0

          Botaufrufe verhindern: Eine Antwort und eine mögliche Lösung

          Raketenwissenschaftler
          1. 0
            pl
            1. 0
              Raketenwissenschaftler
              1. 0
                pl
                1. 1
                  Mitleser
                  1. 0
                    pl
                    1. 0
                      Mitleser
                2. 0
                  Tabellenkalk
                  1. 1
                    Mitleser
                    1. 0
                      TS
                      1. 1
                        Mitleser
                        1. 0

                          Portscans und unberechtigte Auth-Versuche verhindern (als "Provider")

                          TS
                          • portscans
                          • sicherheit
                          • webserver
                          1. 0
                            Raketentürsteher
                            1. 0
                              Raketentürsteher
                              1. 0
                                TS
                                1. 0

                                  Statt +1

                                  Raketentürsteher
                  2. 0
                    pl
                    1. 0
                      Raketenwissenschaftler
                      1. 0
                        pl
                        1. 0
                          Mitleser
                          1. 0
                            pl
                            1. 0
                              Mitleser
                            2. 0
                              Patrick C.
                              1. 0
                                Jonathan Harker
                3. 0
                  Raketenwissenschaftler
                  1. 0
                    pl
                    1. 0
                      Raketenrutschbahndiagnostiker
                      1. 0
                        pl
                        1. 3
                          Mitleser
          2. 0
            fietur
            1. 1
              Raketentürenverschlussmechaniker
              1. 0
                fietur
                1. 1
                  Raketengeschichtenerzähler
                  1. 0
                    fietur
                    1. 0

                      simple & stupid...

                      Raketentürmechaniker
                      1. 0
                        Raketentürmechaniker
                        1. 0
                          fietur
    2. 0
      fietur
      1. 0
        fietur
  4. 0
    Soso
    1. 0
      fietur
      1. 0
        Auge
        1. 0
          fietur
          1. 0
            Auge
            1. 0

              Zwischenstand

              fietur