oxo888oxo: Crawlt Google alte Seiten für immer?

Hallo

Ich stelle fest, dass der Google-Bot ein paar alte Seiten von mir immer wieder aufsucht. Es sind Seiten, die es schon seit weit über 10 Jahren nicht mehr gibt. Die Seiten sind auch nirgendwo verlinkt. Sie waren damals auf meinen Seiten intern verlinkt, aber wie gesagt ist das schon über 10 Jahre her.

Nun frage ich mich, ob Google diese Seiten eigentlich noch bis zum Jahr 16.000 aufsucht und crawlt? Oder kann man das irgendwie stoppen?

Gruß Ingo

  1. Hallo,

    gibt der Server einen 404 oder 410 Statuscode aus?

    1. Da die Seiten ja tatsächlich nicht mehr existieren, gibt es einen 404 Statuscode.

      1. Hallo oxo888oxo,

        versuch mal den Statuscode 410 zu senden, damit meldest du dem Client statt bloß „hier ist nichts“ Hier war mal was und es wird nicht wieder kommen!

        Gruß
        Julius

        --

        Zu argumentieren, dass Sie keine Privatsphäre brauchen, weil Sie nichts zu verbergen haben, ist so, als würden Sie sagen, dass Sie keine Freiheit der Meinungsäußerung brauchen, weil Sie nichts zu sagen haben.

        Edward Snowden

        1. Wie kann ich denn für eine Seite, die nicht mehr existiert, einen Statuscode 410 senden lassen?

          1. Hallo oxo888oxo,

            Wie kann ich denn für eine Seite, die nicht mehr existiert, einen Statuscode 410 senden lassen?

            Ohne mehr über deine Umgebung zu kennen ist das schwer zu sagen. Beim Apache könnte man z.B. eine RewriteRule schreiben:

            RewriteRule /my/old/url - [G]
            

            LG,
            CK

            1. Es ist im Grunde ganz einfach. Es gibt eine index.html und 20 verschiedene Unterseiten, nennen wir sie einfach Unterseite-1.html, Unterseite-2.html usw.

              Nun habe ich vor über 10 Jahren die Unterseite-7.html gelöscht. Diese existiert also nicht mehr. Beim Aufruf der Unterseite-7.html wird also ein Fehlercode 404 geliefert. Die Seite ist auch nirgendwo verlinkt.

              Der Google-Bot crawlt die unterseite-7.html aber bis heute.

              Und ich frage mich nun warum das so ist, und ob das quasi unendlich lange so weiter geht.

              1. Hallo oxo888oxo,

                Es ist im Grunde ganz einfach. […]

                Ich habe dein Problem durchaus verstanden. Als ich nach deiner Umgebung fragte, wollte ich wissen, welchen Web-Server du verwendest oder welche serverseitigen Sprachen.

                Der Google-Bot crawlt die unterseite-7.html aber bis heute.

                Und ich frage mich nun warum das so ist, und ob das quasi unendlich lange so weiter geht.

                Ich würde davon ausgehen, dass irgendwo noch ein Link auf diese Seite existiert.

                LG,
                CK

                1. Achso :-) Ich habe meine Webseite ganz einfach bei 1und1 gehostet. Also ich habe keinen eigenen Server oder so, sondern bin quasi 0815-Hosting-Kunde bei 1und1.

                  1. Hallo oxo888oxo,

                    Achso :-) Ich habe meine Webseite ganz einfach bei 1und1 gehostet. Also ich habe keinen eigenen Server oder so, sondern bin quasi 0815-Hosting-Kunde bei 1und1.

                    Dann versuchs mal mit dem, was ich dir gepostet habe, in einer Datei mit dem Namen .htaccess. Wenn ich mich richtig erinnere benutzt 1&1 Apache, da müsste das gehen.

                    LG,
                    CK

                2. Hallo Christian Kruse,

                  Ich würde davon ausgehen, dass irgendwo noch ein Link auf diese Seite existiert.

                  Der ausdrücklich nicht auf einer Seite des TO sein muss, obgleich dies aber dennoch wahrscheinlich ist.

                  Bis demnächst
                  Matthias

                  --
                  Dieses Forum nutzt Markdown. Im Wiki erhalten Sie Hilfe bei der Formatierung Ihrer Beiträge.
                  1. Es befindet sich definitiv seit über 10 Jahren auf meiner kompletten Website kein Link zur Unterseite-7.html. Und auch im Web ist die Seite nicht verlinkt.

                    1. Hallo oxo888oxo,

                      Und auch im Web ist die Seite nicht verlinkt.

                      Darauf würde ich nicht wetten. Nur, weil google oder wer auch immer dir keine Backlinks anzeigt, heißt es nicht, dass es keine gibt.

                      Bis demnächst
                      Matthias

                      --
                      Dieses Forum nutzt Markdown. Im Wiki erhalten Sie Hilfe bei der Formatierung Ihrer Beiträge.
                    2. Hallo oxo888oxo,

                      schau doch mal in den Log-Dateien nach, ob du einen Referrer auftun kannst. Ich weiß nicht, ob ein Crawler einen Referrer sendet, aber falls das ein öffentlicher Link ist, clickt da bestimmt mal jemand drauf, dessen Browser einen Referrer[1] sendet. Das müsste dann so in der Art aussehen:

                      [Tue Feb 07 10:07:52 2017] [error] [client 127.0.0.1] File does not exist: /var/www/html/existiert_nicht.jpg, referer: https://example.org/test.html
                      

                      Darüber könntest du eventuell herausfinden, wer da aktuell verlinkt.

                      Gruß
                      Julius

                      --

                      Zu argumentieren, dass Sie keine Privatsphäre brauchen, weil Sie nichts zu verbergen haben, ist so, als würden Sie sagen, dass Sie keine Freiheit der Meinungsäußerung brauchen, weil Sie nichts zu sagen haben.

                      Edward Snowden


                      1. Im HTTP-Kontext nur mit einem „r“, Rechtschreibfehler in der Spezifikation ↩︎

                      1. Es ist kein Referrer enthalten. Die Unterseite ist nicht verlinkt. Der Google Bot kennt die Seite, weil ich sie damals (vor über 10 Jahren) über die Google Webmaster Tools eingereicht hatte.

                        1. Hallo

                          Es ist kein Referrer enthalten. Die Unterseite ist nicht verlinkt. Der Google Bot kennt die Seite, weil ich sie damals (vor über 10 Jahren) über die Google Webmaster Tools eingereicht hatte.

                          Mal ganz abgesehen von der bereits genannten Möglichkeit, per .htaccess den Status 410 auszuliefern, stellt sich mir nach diesem Posting die Frage, ob du Google nicht über die selben Tools, heutzutage unter dem neuen Namen „Google Search Console“ vermarktet, mitteilen solltest, dass es die Seite nicht mehr gibt.

                          Zudem gibt es noch die Möglichkeit, Suchmaschinenbetreibern, also auch Google, die gegenwärtige Struktur der Webpräsenz über eine Sitemap mitzuteilen. Die wissen dann, was sie durchsuchen können und was nicht. Ob das dabei hilft, dass jene erkennen, dass es die eine oder andere Seite (nicht mehr) gibt, sei dahingestellt.

                          Tschö, Auge

                          --
                          Wenn man ausreichende Vorsichtsmaßnahmen trifft, muss man keine Vorsichtsmaßnahmen mehr treffen.
                          Toller Dampf voraus von Terry Pratchett
                          1. Wie kann ich denn in der „Google Search Console“ Google mitteilen, dass es die Unterseite nicht mehr gibt? Meines Wissens nmach kann ich dort doch nur Seiten aus dem Google Index entfernen lassen, die auch noch gefunden werden und indexiert sind. Oder sehr ich das falsch?

                            Ich habe Google eine Sitemap mitgeteilt (auch schon seit über 10 Jahren). Aber die besagte Unterseite ist auch schon seit über 10 Jahren nicht mehr in der Sitemap aufgeführt.

              2. Hallo,

                Es gibt eine index.html und 20 verschiedene Unterseiten, nennen wir sie einfach Unterseite-1.html, Unterseite-2.html usw.

                Ich kann mir durchaus vorstellen, dass Google zählen kann. Wenn also von 20 durchnummerierten Seiten nur die siebte fehlt, wäre es aus Googels Sicht logisch, immermalwieder zu gucken, ob da nicht doch was kommt.

                Gruß
                Kalk

                1. Das war natürlich nur ein Beispiel um die Angelegenheit zu verdeutlichen.

          2. Wie kann ich denn für eine Seite, die nicht mehr existiert, einen Statuscode 410 senden lassen?

            Die Seite erneut in die Konfiguration eintragen und entsprechend konfigurieren. Aähhm... Du hast doch eine Konfiguration oder!?

            MfG

            1. Was meinst Du denn genau mit Konfiguration? Soll ich diese nicht existierende Seite jetzt extra wieder neu anlegen?

              1. Beispiel für eine Konfiguration:

                [/gone]
                class=NotFound410
                

                Beispiel Link

                Ansonsten: Default ist class=NotFound was Status 404 liefert.

                Das A+O ist eine zweckmäßige Projektverwaltung bzw. Konfiguration. Da ist sowas in paar Minuten erledigt.

                MfG

                PS/Edit: Den Code für die Klasse hab ich offen gelegt. Alle URLs die für Status 410 konfiguriert sind, zeigen nun den Code der Klasse NotFound410.

                Und ja, danke für die tolle Idee! Ob es was bringt ist ja eine andere Frage ;)

                1. Tach!

                  Das A+O ist eine zweckmäßige Projektverwaltung bzw. Konfiguration. Da ist sowas in paar Minuten erledigt.

                  Exakt. Schon ein paar Wochen, Monate oder Jahre Entwicklungsaufwand für das Erstellen eines Frameworks machen es möglich, in paar Minuten etwas zu erstellen, das so arbeitet wie ein Einzeiler in der .htaccess.</sarkasmus>

                  Du hast doch eine Konfiguration oder!?

                  Na klar hat er die. Eine .htaccess gehört heutzutage zum Standardumfang, selbst bei Webhostern.

                  dedlfix.

                  1. Du hast den Sinn eines Frameworks mal wieder nicht verstanden, der darin besteht, die Konfiguration eben nicht über den Webserver abzuwickeln. Der Webserver wird nur soweit konfiguriert, dass diese Umverlegung möglich ist.

                    MfG

                    1. Hallo pl,

                      Du hast den Sinn eines Frameworks mal wieder nicht verstanden, der darin besteht, die Konfiguration eben nicht über den Webserver abzuwickeln. Der Webserver wird nur soweit konfiguriert, dass diese Umverlegung möglich ist.

                      In deiner Welt ist das Gras bestimmt auch grüner als hier bei uns Normalos.

                      LG,
                      CK

                      1. Ach was!? Du selbst hast das doch auch mal unterstützt, erinnerst Du Dich nicht?

                        Guck mal:

                        [/showlog.html]
                        title=ShowLog und Usertracking mit Ajax
                        descr=Backend für die Log-Tabelle
                        no_cache=1
                        class=Admin::xShowLog
                        js=/jquery.min.js /jquery.tablesorter.min.js /request.js /cEAV.js
                        auth=manager.realm
                        

                        Zum Thema: Wie binde ich WWW-Authenticate ein, ohne dass jeder Einzelfall in die Webserver-Konfig eingetragen werden muss? Antwort siehe oben, manager.realm ist die Datei mit Users/Passwords -- ganz normal mit htpasswd erzeugt.

                        Ansonsten dürfte es jedem einigermaßen logisch denkenden Programmierer klar sein, welche Vorteile es bringt, die Konfiguation vom Webserver weg in die eigene Konfiguration zu verlegen.

                        Wenn Dir das nicht klar ist, eröffne doch ein neues Thema. Das wäre auf jeden Fall aufrichtiger als meine Beiträge andauernd mit - zu bewerten.

                        MfG

                        1. Hallo pl,

                          Ansonsten dürfte es jedem einigermaßen logisch denkenden Programmierer klar sein, welche Vorteile es bringt, die Konfiguation vom Webserver weg in die eigene Konfiguration zu verlegen.

                          Jemand, der mal eine Internetseite online stellt, muss nicht zwangsläufig ein „einigermaßen logisch denkender Programmierer“ sein. Auch mögen ihm die Rechte fehlen, dass genau so zu machen, wie du es vorschlägst.

                          Wenn Dir das nicht klar ist, eröffne doch ein neues Thema.

                          LOL

                          Das wäre auf jeden Fall aufrichtiger als meine Beiträge andauernd mit - zu bewerten.

                          Wenn ich einen Auftrag hätte, den ich programmiertechnisch nicht selbst umsetzen kann, ich wüsste, wen aus diesem Forum ich (ggf. erneut!) frage.

                          Bis demnächst
                          Matthias

                          --
                          Dieses Forum nutzt Markdown. Im Wiki erhalten Sie Hilfe bei der Formatierung Ihrer Beiträge.
                        2. Hallo pl,

                          Ach was!? Du selbst hast das doch auch mal unterstützt, erinnerst Du Dich nicht?

                          Nein, ganz sicher nicht 😂

                          Zum Thema: Wie binde ich WWW-Authenticate ein, ohne dass jeder Einzelfall in die Webserver-Konfig eingetragen werden muss? Antwort siehe oben, manager.realm ist die Datei mit Users/Passwords -- ganz normal mit htpasswd erzeugt.

                          Du hast eine Erklärung, die ich dir gegeben habe (wie funktioniert Basic Auth über CGI mit Apache) verwechselt mit „ich bin der Ansicht, du solltest das so tun.” Das bin ich nicht. Ich finde, dass dein Ansatz over-engineered ist und durchaus Nachteile mit sich bringt. KISS!

                          Ansonsten dürfte es jedem einigermaßen logisch denkenden Programmierer klar sein, welche Vorteile es bringt, die Konfiguation vom Webserver weg in die eigene Konfiguration zu verlegen.

                          Ich bin nicht unbedingt dieser Ansicht. Bin ich jetzt kein „einigermaßen logisch denkender Programmierer” mehr?

                          I see what you did there. Durch diesen Einschub („einigermaßen logisch denkender Programmierer”) hast du versucht gleich jede Kritik zu ersticken, denn ein Kritiker ist damit automatisch jemand, der nicht logisch denkt. Funktioniert hier aber nicht, es ist mir egal, ob du glaubst ich denke logisch.

                          Wenn Dir das nicht klar ist, eröffne doch ein neues Thema. Das wäre auf jeden Fall aufrichtiger als meine Beiträge andauernd mit - zu bewerten.

                          Ich habe schon sehr häufig versucht dir zu erklären, warum ich deine Ansätze teilweise für nicht sinnvoll halte. Du scheinst hier keiner Kritik fähig zu sein. Wenn dir tatsächlich jemand Paroli bietet, dann verschwindest du für eine Woche oder zwei und danach gehts weiter wie gehabt. Oder du behauptest, man führe Kampagnen gegen dich.

                          Ich habe das diskutieren mit dir aufgegeben.

                          LG,
                          CK

                    2. Alternative Konfiguration:

                      [/gone]
                      class=NotFound410
                      
                      [/x.html]
                      status=410
                      

                      Und die Default class=NotFound wird wie folgt geändert:

                      $self->header("Status" => $self->eav('status') ? $self->eav('status') : 404);

                      Viele Wege führen nach Rom.

                    3. Tach!

                      Du hast den Sinn eines Frameworks mal wieder nicht verstanden, der darin besteht, die Konfiguration eben nicht über den Webserver abzuwickeln.

                      Anscheinend habe ich auch überlesen, dass genau das eine Anforderung des Probleminhabers ist.

                      Der Webserver wird nur soweit konfiguriert, dass diese Umverlegung möglich ist.

                      Ich hab immer noch nicht den Sinn verstanden, den Webserver erst auf Umwege zu schicken statt ihn direkt für die gewünschte Aufgabe zu konfigurieren.

                      dedlfix.

            2. Beispiel

              War in wenigen Minuten erledigt das Thema.

  2. In der index Datei dieses einsetzen: <meta name="googlebot" content="no-follow">

    oder eine robots.txt Datei erstellen mit dem Inhalt: User-agent: * Disallow: ./

    Dann wird den Bot's befohlen, diese Dateien nicht zu crawlen!

    1. In der index Datei dieses einsetzen: <meta name="googlebot" content="no-follow">

      Wie soll das gehen, bei Seiten, die nicht mehr existieren?=

      1. Ups, Frage falsch interpretiert!

        Ich kann mir vorstellen, dass solche "Deadlinks" von den Crowlern nach mehreren Fehlversuchen aussortiert werden, und die Seite mit dem toten Link im Ranking sinkt.

        1. Ja, das hatte ich ja auch gedacht. Aber es sind jetzt teilweise schon gute 10 Jahre.

  3. Hallo,

    so weit ich weiß, kann man in den Webmaster-Tools von Google Seiten aus dem Index entfernen.

    Gruß
    Jürgen

    1. so weit ich weiß, kann man in den Webmaster-Tools von Google Seiten aus dem Index entfernen.

      Das geht aber nur für Seiten, die noch existieren. Man kann keine Seiten aus dem Index entfernen, die es überhaupt nicht gibt.

  4. Aloha ;)

    Nun frage ich mich, ob Google diese Seiten eigentlich noch bis zum Jahr 16.000 aufsucht und crawlt?

    Naja, möglich ist das schon.

    Oder kann man das irgendwie stoppen?

    Dazu hast du ja schon Antworten bekommen. Die Folgefrage die sich mir dabei aufdrängt: warum sollte man das überhaupt unterbinden wollen? Wegen dem bisschen Traffic den eine 404-Fehlerseite ausmacht? Ich frage mich einfacb nur, inwiefern da Relevanz besteht. Für gewöhnlich stecke ich keinen übertriebenen Aufwand in die Frage, wie ein Bot auf meine Seite reagiert, sofern es dadurch keine deutlichen Nachteile für menschliche Benutzer gibt?

    Grüße,

    RIDER

    --
    Camping_RIDER a.k.a. Riders Flame a.k.a. Janosch Zoller
    # Twitter # Steam # YouTube # Self-Wiki # Selfcode: sh:) fo:) ch:| rl:) br:^ n4:? ie:% mo:| va:) js:) de:> zu:} fl:( ss:) ls:[