Soso: Botaufrufe einhegen

Beitrag lesen

ich betreibe eine nicht-kommerzielle Webseite, die monatlich sechsstellige Zugriffszahlen hat. Aber leider nicht annähernd so viele Besucher, die sind eher im niedrigen dreistelligen Bereich.

Ganz grundsätzlich vorweg: Du solltest dir überlegen, was dich eigentlich genau stört. Sechsstellige Zugriffszahlen sollten für sich alleine jedenfalls kein Problem sein.

Ein Problem wäre es hingegen beispielsweise, falls der Server in die Knie geht oder dein Vertrag die Datenmengen nicht abdeckt.

Eine der Ursachen ist die überbordende Abfrage eines Veranstaltungskalenders durch Bots, hauptsächlich durch den GoogleBot. Der öffentlich zugängliche Bereich (mit dem Kalender) kommt ohne JS und Cookies aus, so dass ich die Parameter für den Kalender (Zeitraum, regionale und thematische Filter) im URL an das ausliefernde php-Skript liefere. Und leider variieren die Bots mittlerweile die verschiedenen Möglichkeiten, diese Parameter einzustellen - mit der Folge, dass zahlreiche Varianten abgefragt werden.

Ich könnte beispielsweise - nur bei Anfragen mit über die Standardeinstellung hinausgehenden Parametern - in der .htaccess ein Header set X-Robots-Tag "noindex, nofollow" verwenden.

Eine Seite, die sich selbst mit noindex versieht, landet zwar nicht im Index, wird aber nach wie vor abgerufen. Dein Problem bestünde also zumindest in Teilen nach wie vor.

Manche Suchmaschinen (einschließlich Google) unterstützen Platzhalter in der robots.txt, namentlich das Sternchen (beliebige Zeichen) und das Dollarzeichen (Ende des Pfades), siehe https://developers.google.com/search/reference/robots_txt#auf-pfadwerten-basierende-url-%C3%BCbereinstimmung

Angenommen, deine Kalender-URLs folgen dem Beispiel "/kalender/?monat=januar", kannst du mit der Zeile "Disallow: /kalender/$" sämtliche Seiten innerhalb des Kalenders vom Abruf ausschließen, während seine Hauptseite unbeschadet bleibt.

Du könntest dir zusätzlich überlegen, ob du einen Teil der Parameter in den eigentlichen Pfad übernimmst, etwa /kalender/2020/januar/ statt kalender/?monat=januar&jahr=2020. Du nimmst den Bots damit die Möglichkeit zu variieren und die Seiten landen ohne Aufwand im Index.

Dein Skript stünde weiterhin unter /kalender/index.php, die anhängenden Pfadteile 2020 und januar bekommst du über die Variable PATH_INFO geliefert. Die Option muss eventuell im Server eingeschaltet werden (Apache: AcceptPathInfo). Näheres unter https://www.php.net/manual/de/reserved.variables.server.php (nach PATH_INFO suchen) und http://httpd.apache.org/docs/2.4/mod/core.html#acceptpathinfo

0 59

Botaufrufe einhegen

fietur
  • suchmaschinen
  1. 0
    Robert B.
    1. 0
      Der Martin
      1. 0
        Linuchs
        1. 0
          pl
          1. 2
            Linuchss
          2. 0
            TS
            • client
            • suchmaschinen
            • webserver
  2. 0
    pl
  3. 0
    TS
    • projekt
    • suchmaschinen
    • webserver
    1. 0
      pl
      1. 0
        TS
        1. 0
          pl
          1. 1
            TS
          2. 0
            Robert B.
        2. 0

          Botaufrufe verhindern: Eine Antwort und eine mögliche Lösung

          Raketenwissenschaftler
          1. 0
            pl
            1. 0
              Raketenwissenschaftler
              1. 0
                pl
                1. 1
                  Mitleser
                  1. 0
                    pl
                    1. 0
                      Mitleser
                2. 0
                  Tabellenkalk
                  1. 1
                    Mitleser
                    1. 0
                      TS
                      1. 1
                        Mitleser
                        1. 0

                          Portscans und unberechtigte Auth-Versuche verhindern (als "Provider")

                          TS
                          • portscans
                          • sicherheit
                          • webserver
                          1. 0
                            Raketentürsteher
                            1. 0
                              Raketentürsteher
                              1. 0
                                TS
                                1. 0

                                  Statt +1

                                  Raketentürsteher
                  2. 0
                    pl
                    1. 0
                      Raketenwissenschaftler
                      1. 0
                        pl
                        1. 0
                          Mitleser
                          1. 0
                            pl
                            1. 0
                              Mitleser
                            2. 0
                              Patrick C.
                              1. 0
                                Jonathan Harker
                3. 0
                  Raketenwissenschaftler
                  1. 0
                    pl
                    1. 0
                      Raketenrutschbahndiagnostiker
                      1. 0
                        pl
                        1. 3
                          Mitleser
          2. 0
            fietur
            1. 1
              Raketentürenverschlussmechaniker
              1. 0
                fietur
                1. 1
                  Raketengeschichtenerzähler
                  1. 0
                    fietur
                    1. 0

                      simple & stupid...

                      Raketentürmechaniker
                      1. 0
                        Raketentürmechaniker
                        1. 0
                          fietur
    2. 0
      fietur
      1. 0
        fietur
  4. 0
    Soso
    1. 0
      fietur
      1. 0
        Auge
        1. 0
          fietur
          1. 0
            Auge
            1. 0

              Zwischenstand

              fietur