astera: Google Bot crawlt Seiten (Archive), die nicht verlinkt sind.

Hallo,

ich habe eine Frage.
Ich habe meinen Blog (Wordpress 2.71) vor einigen Monaten umgestellt, dass Archive nicht mehr angezeigt werden sollen, d.h., dass es die Verlinkung zu www.example.org/2008/xx/xx nicht mehr gibt.
Wenn ich meinen Blog durchforste, zeigt keine Verlinkung auf irgend ein Archiv aus irgend einem Jahr. Ich hoffe, ich habe mich verständlich ausgedrückt.

Jetzt habe ich ein Plugin installiert, dass mir alle 404 Fehlerseiten per Mail schickt, die in meinem Blog produziert werden. Folgende Fehlermeldung erscheint.

************* Schnipp *******************
404 Report - a file not found error was registered on your site.
404 URL:     http://kuchen-web.de/2008/03/16/gelatine
Referred by:

User Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
************* Schnapp *******************

Hier hat der Google Bot meine Seite durchforstet und ist auf die Archive gestossen, obwohl ich die nicht mehr verlinkt habe????

WIE GEHT DAS???

LG
astera

  1. WIE GEHT DAS???

    Irgendwo wird Google den Link schon herhaben - von früher z.B.

    Zudem wage ich zu behaupten, dass Google die Struktur von bekannten CMS' kennt und einfach pauschal mit bekannten Permalinkstrukturen "herumprobiert".

    1. Guten Tag,

      Zudem wage ich zu behaupten, dass Google die Struktur von bekannten CMS' kennt
      und einfach pauschal mit bekannten Permalinkstrukturen "herumprobiert".

      Hast du dafür irgendwelche Beweise?

      Gruß
      Christoph Jeschke

      --
      Zend Certified Engineer
      Certified Urchin Admin
      1. Hast du dafür irgendwelche Beweise?

        Nein, darum behaupte ich das ja - aber es ist naheliegend, weil Google sehr "gierig" ist.

        Zudem wäre es technisch ein leichtes, das auszuwerten: wenn Generator = Wordpress dann probiere die bekannten default-Permalinkstrukturen.

  2. Hier hat der Google Bot meine Seite durchforstet und ist auf die Archive gestossen, obwohl ich die nicht mehr verlinkt habe????

    Google hat den Link in seiner Datenbank, und ist nicht auf deine Verlinkung angewiesen. Google wird diese Links auch so lange aus seiner Datenbank verifizieren, bis du Google ein 410 sendest.

    mfg Beat

    --
    ><o(((°>           ><o(((°>
       <°)))o><                     ><o(((°>o
    Der Valigator leibt diese Fische
    1. »» Hier hat der Google Bot meine Seite durchforstet und ist auf die Archive gestossen, obwohl ich die nicht mehr verlinkt habe????

      Google hat den Link in seiner Datenbank, und ist nicht auf deine Verlinkung angewiesen. Google wird diese Links auch so lange aus seiner Datenbank verifizieren, bis du Google ein 410 sendest.

      mfg Beat

      Hallo Beat,

      du meinst also, dass der Google Bot mit meiner Seite im Bauch, die er von früher noch im Index hat, meine Seite erneut besucht, um nachzuschauen, ob die noch valide ist?
      Warum wirft mir dann einerseites das Plugin einen 404er raus und andererseits, wenn ich auf den Link klicke, wird mir (per permanent redirect), eine gültige Seite angezeigt?

      Nochmal die Meldung:

      ************* Schnipp *******************
      404 Report - a file not found error was registered on your site.
      404 URL:     http://kuchen-web.de/2008/03/16/gelatine
      Referred by:

      User Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
      ************* Schnapp *******************

      Bezeichnend hier natürlich, dass es keinen Referrer gibt. oder ??

      LG
      astera

      1. Hello,

        Warum wirft mir dann einerseites das Plugin einen 404er raus und andererseits, wenn ich auf den Link klicke, wird mir (per permanent redirect), eine gültige Seite angezeigt?

        Du solltest dies mal mit eingeschalteter Life-Headers-Anzeige an Deinem Browser tun, dann siehst Du den Grund. Aber vorher Cache leeren oder zumindest STRG-F5 benutzten.

        Dein Tool wird der Umleitung nicht folgen, sondern nur plump einen Header auswerten.
        Da wird dann aber auch kein 404 kommen, sondern einfach die Reaktion auf "no body".

        Liebe Grüße aus dem schönen Oberharz

        Tom vom Berg

        --
        Nur selber lernen macht schlau
        http://bergpost.annerschbarrich.de
        1. Hello,

          »» Warum wirft mir dann einerseites das Plugin einen 404er raus und andererseits, wenn ich auf den Link klicke, wird mir (per permanent redirect), eine gültige Seite angezeigt?

          Du solltest dies mal mit eingeschalteter Life-Headers-Anzeige an Deinem Browser tun, dann siehst Du den Grund. Aber vorher Cache leeren oder zumindest STRG-F5 benutzten.

          Dein Tool wird der Umleitung nicht folgen, sondern nur plump einen Header auswerten.
          Da wird dann aber auch kein 404 kommen, sondern einfach die Reaktion auf "no body".

          Liebe Grüße aus dem schönen Oberharz

          Tom vom Berg

          Hallo Tom,

          vielen Dank für den Tip mit dem Live Header. Hab das mal im FF alls Addon installiert und für den redirect folgendes gefunden:
          ************************Schnipp***************************
          http://kuchen-web.de/2008/03/26/lockerer

          GET /2008/03/26/lockerer HTTP/1.1
          Host: kuchen-web.de
          User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)
          Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
          Accept-Language: en-us,en;q=0.5
          Accept-Encoding: gzip,deflate
          Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
          Keep-Alive: 300
          Proxy-Connection: keep-alive
          Cookie: __utma=26160807.1488952983.1236017590.1243324588.1243327384.88; __utmz=26160807.1243109703.79.18.utmccn=(organic)|utmcsr=yahoo|utmctr=Rezept+Rhabarbertorte|utmcmd=organic; CHC_COUNT_PROTECTION=do_not_count_me; CHC_LOGIN=astera%7E7ac1171d19ee22af506b25a546dd826d; __utmc=26160807; PHPSESSID=82379edd0aab844f7eaad1f59b7f4848; __utmb=26160807.4.10.1243327384

          HTTP/1.x 301 Moved Permanently
          Transfer-Encoding: chunked
          Date: Tue, 26 May 2009 08:56:15 GMT
          Content-Type: text/html; charset=UTF-8
          Expires: Tue, 26 May 2009 08:56:15 GMT
          Cache-Control: no-cache, must-revalidate, max-age=0
          Server: Apache
          Pragma: no-cache
          X-Pingback: http://www.kuchen-web.de/xmlrpc.php
          X-Powered-By: PHP/5.2.9
          Last-Modified: Tue, 26 May 2009 08:56:15 GMT
          Location: http://www.kuchen-web.de/ratgeber-backen/lockerer-hefeteig/
          ******************Schnapp********************

          Mein Tool (Plugin) für Wordpress gibt aber aus:
          ****************Schnipp*************
          404 Report - a file not found error was registered on your site.

          404 URL:     http://kuchen-web.de/2008/03/26/lockerer

          Referred by:

          User Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)
          ***************Schnapp********************
          Hier gibt es keinen Referrer und es war kein Bot, sondern ein User aber was hat es mit dem Link:
          http://kuchen-web.de/2008/03/26/lockerer
          auf sich?
          Den gibt es bei mir nicht und ich glaube auch nicht, dass sich ein User den als BM gespeichert hat.

          LG
          astera

          1. Hallo astera,

            bitte sei so nett und verzeichte darauf, in deiner Antwort den gesamten Text des Postings, auf das du antwortest, zu zitieren. Einerseits macht das dein Posting unübersichtlich, andererseits füllt es unser Archiv mit vollkommen unnötigen Daten.

            File Griese,

            Stonie

            --
            It's no good you trying to sit on the fence
            And hope that the trouble will pass
            'Cause sitting on fences can make you a pain in the ass.
            Und im Übrigen kennt auch Stonie Wayne.
            1. Hallo Stonie,

              sorry gelobe Besserung.

              greetz

            2. Hello,

              bitte sei so nett und verzeichte darauf, in deiner Antwort den gesamten Text des Postings, auf das du antwortest, zu zitieren. Einerseits macht das dein Posting unübersichtlich, andererseits füllt es unser Archiv mit vollkommen unnötigen Daten.

              Danke, sehr freundlich :-|

              Liebe Grüße aus dem schönen Oberharz

              Tom vom Berg

              --
              Nur selber lernen macht schlau
              http://bergpost.annerschbarrich.de
              1. Hallöle!

                »» bitte sei so nett und verzeichte darauf, in deiner Antwort den gesamten Text des Postings, auf das du antwortest, zu zitieren. Einerseits macht das dein Posting unübersichtlich, andererseits füllt es unser Archiv mit vollkommen unnötigen Daten.

                Danke, sehr freundlich :-|

                *hehehe* Wat willze denn, Junge? Dein Posting steht doch vollständig im Thread, da muss es doch nicht nochmal ins Archiv! Oder war das deiner Ansicht nach einer deiner genialeren Momente und sollte deswegen so oft wie möglich textgleich im Archiv aufzufinden sein? ;o)

                File Griese,

                Stonie

                --
                It's no good you trying to sit on the fence
                And hope that the trouble will pass
                'Cause sitting on fences can make you a pain in the ass.
                Und im Übrigen kennt auch Stonie Wayne.
                1. Hello,

                  Danke, sehr freundlich :-|

                  *hehehe* Wat willze denn, Junge? Dein Posting steht doch vollständig im Thread, da muss es doch nicht nochmal ins Archiv! Oder war das deiner Ansicht nach einer deiner genialeren Momente und sollte deswegen so oft wie möglich textgleich im Archiv aufzufinden sein? ;o)

                  Nee ich wollte Dich nur mal frech angrinsen ;-))

                  BTW: Du bist die Verfasserin von dem Starters-Artikel. Den finde ich bis auf ein paar technische Details wgut gelungen. Die eigentliche Frage: wer hat das Layout dafür gemacht, wie kann ich das bekommen? Gibt es irgendwelche Hilfsmittel für die Artikelerfassung außer dem eigenen Editor?

                  Ich wollte mich nun nämlich doch endlich nochmal zum Upload von Files auslassen

                  (aber natürlich nur, wenn EKKi das erlaubt *gg*)

                  Liebe Grüße aus dem schönen Oberharz

                  Tom vom Berg

                  --
                  Nur selber lernen macht schlau
                  http://bergpost.annerschbarrich.de
                  1. Nabend,

                    BTW: Du bist die Verfasserin von dem Starters-Artikel. Den finde ich bis auf ein paar technische Details wgut gelungen. Die eigentliche Frage: wer hat das Layout dafür gemacht, wie kann ich das bekommen? Gibt es irgendwelche Hilfsmittel für die Artikelerfassung außer dem eigenen Editor?

                    Anfänger-Tutorial, bitte. Und es ist noch lange nicht fertig, leider, eigentlich sollte es das sein, aber egal jetzt, du willst ja etwas anderes wissen. Die neue Version von SELFHTML, die hoffentlich irgendwann doch mal rauskommt, wird in das neue Layout gegossen werden. Wer an der 9.0 mitschreibt, schreibt also mit dem dazugehörigen Editor oder etwas anderem, was dem eigenen Genie mehr entgegenkommt (und kriegt dann entsprechend auf die Mütze, wenn was falsch läuft ;o)).

                    Ich wollte mich nun nämlich doch endlich nochmal zum Upload von Files auslassen

                    Das läuft ja immer noch auf Basis der Artikel, hol dir einfach das Template, fang an und schick es an die Redaktion, wenn du fertig bist.

                    File Griese,

                    Stonie

                    --
                    It's no good you trying to sit on the fence
                    And hope that the trouble will pass
                    'Cause sitting on fences can make you a pain in the ass.
                    Und im Übrigen kennt auch Stonie Wayne.
                2. Hallo Stonie,

                  Oder war das deiner Ansicht nach einer deiner genialeren Momente und sollte deswegen so oft wie möglich textgleich im Archiv aufzufinden sein? ;o)

                  File Griese,

                  Stonie

                  das war nicht meine Absicht. Ich nutze das Forum um meine Probs besser in den Griff zu bekommen. Ich hatte einfach nur nicht nachgedacht, als ich das abgeschickt hatte. Wird ja auch nicht wieder vorkommen.
                  Da gibt es bestimmt bessere Möglichkeiten, als sich dem Zorn eines guten Forums zuzuziehen.

                  Greetz
                  astera

          2. vielen Dank für den Tip mit dem Live Header. Hab das mal im FF alls Addon installiert und für den redirect folgendes gefunden:
            ************************Schnipp***************************

            ...snipp...

            http://kuchen-web.de/2008/03/26/lockerer

            ...

            Cookie: DELETED__________________

            Bitte poste nie Cookiewerte.
            Grund: Hier kann es sich um Daten handeln, deren Kenntnis einen Account kompromittieren können. Du gibst eventuell Login-Rechte bekannt.

            mfg Beat

            --
            ><o(((°>           ><o(((°>
               <°)))o><                     ><o(((°>o
            Der Valigator leibt diese Fische
          3. Hi,

            Mein Tool (Plugin) für Wordpress gibt aber aus:
            ****************Schnipp*************
            404 Report - a file not found error was registered on your site.

            404 URL:     http://kuchen-web.de/2008/03/26/lockerer

            Dann hat sich dieses Plug-In also entschieden, den Request nicht nur auf eine andere Adresse umzuleiten, sondern auch als 404 in seinem Log zu notieren.

            Na und?

            User Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)
            ***************Schnapp********************
            Hier gibt es keinen Referrer und es war kein Bot, sondern ein User aber was hat es mit dem Link:
            http://kuchen-web.de/2008/03/26/lockerer
            auf sich?
            Den gibt es bei mir nicht und ich glaube auch nicht, dass sich ein User den als BM gespeichert hat.

            Von wann ist den der Request? *Nachdem* du diese Adresse hier im ersten Beitrag gepostet hast? Dann ist es ja kaum unwahrscheinlich, dass ein Mitleser sich das ganze mal angeschaut hat - um zu schauen, was bei Aufruf dieser Adresse wirklich passiert.

            MfG ChrisB

            --
            Light travels faster than sound - that's why most people appear bright until you hear them speak.