stefan: googlebot

hallo allerseits,
in meinen logfiles taucht immer mal wieder foldende identifikation auf:

crawler10.googlebot.com
crawler11.googlebot.com
usw.

ich hab dies immer als den besuch eines google-robots/spiders interpretiert. so weit, so gut. mein problem aber ist: das teil kommt nie weiter als bis zur ersten seite. obwohl diese mit einer weiteren seite (und diese dann wiederum mit ganz vielen) verlinkt ist. folglich verlinkt google bei mir nicht auf neue, aber auf z.t. schon ein paar monate lang nicht mehr existierende seiten. auf http://www.google.de/intl/de/addurl.html steht, dass es keines eintrages in den metha-angaben oder in der robot.txt-datei bedarf, um die domain bei google upgadatet zu halten. dies geschehe ca. einmal monatlich von alleine (eben durch die googlebots). meine frage:

kennst sich jemand mit google-bots aus? mach ich irgendwas falsch bzw. kann ich es besser machen? oder entsprechen die aussagen von google einfach nicht der wahrheit?

ich freu mich über antworten

schö stefan

ps: http://www.your-boredom.de ist besagte domain

  1. Hallo,

    mein problem aber ist: das teil kommt nie weiter als bis zur ersten seite. obwohl diese mit
    einer weiteren seite (und diese dann wiederum mit ganz vielen) verlinkt ist.

    Ich glaub, der Googlebot mag dich nicht ;)
    Ne, mal im Ernst: du verlinkst auf eine SHTML-Seite. Ich koennte mir vorstellen, dass das das
    Problem ist: Suchmaschinen moegen dynamische Inhalte nicht.

    Gruesse,
     CK

    1. hi

      Ich glaub, der Googlebot mag dich nicht ;)

      vielleicht sollte ich vor meine domain abends ein schälchen milch stellen? :)

      Ne, mal im Ernst: du verlinkst auf eine SHTML-Seite. Ich koennte mir vorstellen, dass das das
      Problem ist: Suchmaschinen moegen dynamische Inhalte nicht.

      echt? aber alles, woran so ein robot die dynamik erkennen könnte, ist doch die datei-endung. ansonsten "sieht" er ne stinknormale HTML datei.
      meinst du mit HTML als endung gings? dann könnte ich ja in der .htaccess erlauben auch in HTML-dateien SSI zu verwenden. aber ob das der fehler ist?

      how ever, danke + schö stefan

      1. Hi stefan,

        echt? aber alles, woran so ein robot die dynamik
        erkennen könnte, ist doch die datei-endung.
        ansonsten "sieht" er ne stinknormale HTML datei.

        keineswegs. Gerade die Datei-Endung ist völlig nutzlos.

        Aber die mitgesendeten HTTP-Header sagen einiges aus.
        ("Last-Modified" ist so ein Kandidat ...)

        Viele Grüße
              Michael

    2. Tach auch,

      Ne, mal im Ernst: du verlinkst auf eine SHTML-Seite. Ich koennte mir vorstellen, dass das das
      Problem ist: Suchmaschinen moegen dynamische Inhalte nicht.

      Noe.

      http://www.worldtour-of-scotland.com/ sind alles .shtml Seiten. Und problemlos bei Google zu finden.

      Gruss,
      Armin

    3. Ne, mal im Ernst: du verlinkst auf eine SHTML-Seite. Ich koennte mir vorstellen, dass das das
      Problem ist: Suchmaschinen moegen dynamische Inhalte nicht.

      http://www.google.com/search?q=inurl%3Ashtml+filetype%3Ashtml

  2. Hi,

    kennst sich jemand mit google-bots aus? mach ich irgendwas falsch bzw. kann ich es besser machen? oder entsprechen die aussagen von google einfach nicht der wahrheit?

    Ich seh das so:
    der Googlebot findet auf der Seite keinerlei Inhalt und guckt deshalb nicht weiter rum.

    Wozu ist diese erste Seite überhaupt da?
    Warum wird nicht die dort verlinkte Seite direkt angezeigt?

    Das würde
    a) dem Benutzer einen Klick ersparen
    b) dem googlebot eine Seite mit mehr Inhalt anbieten

    Wenn es nur wegen des Dateinamens ist:

    DirectoryIndex 02_10_07.shtml

    in die .htaccess setzen.
    Ist bei Änderungen mindestens genauso einfach anzupassen wie in der jetzigen HTML-Datei.

    Andreas

    1. hi,

      Ich seh das so:
      der Googlebot findet auf der Seite keinerlei Inhalt und guckt deshalb nicht weiter rum.

      ach so. wenn dort also inhalt wäre (soll schon noch kommen), wären die chancen grösser.

      Wozu ist diese erste Seite überhaupt da?
      Warum wird nicht die dort verlinkte Seite direkt angezeigt?

      Das würde
      a) dem Benutzer einen Klick ersparen
      b) dem googlebot eine Seite mit mehr Inhalt anbieten

      meine idee ist es eigentlich, auf der start-seite die verschiedenen bereiche der website vorzustellen, auf neuerungen hinzuweisen, das konzept zu erläutern etc. was man da halt so macht. kam ich bloss bis jetzt noch nicht zu, daher dieser recht aussagelose "eingang".

      Wenn es nur wegen des Dateinamens ist:

      jein. ich war ein bisschen faul :)

      DirectoryIndex 02_10_07.shtml
      in die .htaccess setzen.

      werd ich gleich mal ausprobieren.

      danke + schö stefan

  3. hallo stefan

    kennst sich jemand mit google-bots aus? mach ich irgendwas falsch bzw. kann ich es besser machen? oder entsprechen die aussagen von google einfach nicht der wahrheit?

    google hat dein weblog sehr wohl indiziert:
    http://www.google.ch/search?q=site%3Awww.your-boredom.de+boredom&ie=UTF-8&oe=UTF-8&hl=de&btnG=Google-Suche&meta=

    grüsse
    Siramon,
         ja der penner aus nr. 14

    1. hallo Siramon

      google hat dein weblog sehr wohl indiziert:
      http://www.google.ch/search?q=site%3Awww.your-boredom.de+boredom&ie=UTF-8&oe=UTF-8&hl=de&btnG=Google-Suche&meta=

      ja, aber die seiten sind alle bis auf die startseite uralt (und zum grössten teil nichmehr existent).

      danke für die mühe.

      grüsse
      Siramon,

      schö stefan

      ja der penner aus nr. 14

      ach der...(??) *versteinertlächel*, *schnellweitergeh*

  4. Hallo Stefan,

    anscheinend hast Du Deine Seite heute abend geändert, auf jeden Fall hatte ich mir das vor ein Paar Stunden angesehen, da sah' es auf den ersten Blick so aus, als hättest Du auf der Startseite jeweils den aktuellen Eintrag deines Weblogs verlinkt, d.h. der Linkname ändert sich sehr oft (täglich?).

    Nun kann auch Google nicht alles crawlen, auch wenn Googlebot sehr fleißig ist. Daß Deine Dateien auf .shtml enden, ist, wie einige hier schon angemerkt haben, völlig egal. Google indiziert alles, nur bei dynamischen URLs (index.php?content=suchmich) indiziert er normalerweise nur die dynamischen Seiten, die von einer statischen verlinkt sind, dann hört er auf.

    Das ist aber bei Dir nicht das Problem, sind ja alles "brave" URLs.

    Meine Theorie wäre deswegen folgende:

    • Googlebot entscheidet nach Pagerank, wie weit er indiziert. Wenn eine Seite noch keinen Pagerank hat, indiziert er von der aus auch nicht weiter, wenn der Pagerank der Ausgangsseite nicht hoch genug ist
    • Googlebot kam also jeden Monat bei Dir vorbei, und hat die eine Seite indiziert, die von der Ausgangsseite verlinkt ist. Da die URL noch nicht in der Datenbank war, bekam sie erstmal nur den "geliehenen" Pagerank der Startseite, der erheblich niedriger ist, deswegen wird von da aus nicht weitergecrawlt. (Ich nehme an, daß Du keine externen Links hast, die auf Unterseiten verweisen)
    • die verlinkte Seite vom letzten Monat hat dann wahrscheinlich keine externen Links (in der Google-Datenbank) mehr, da sie ja auch von der Startseite des Weblogs verschwunden ist, und auch auf der zweiten, aktuell verlinkten Seite schon irgendwo unter "Archiv" o.ä. gelandest ist. Die bleibt dann noch ein bißchen in der Datenbank, ist aber für Google zu uninteressant, um von dortaus weiterzucrawlen. (Deswegen stehen immer einige Deiner "alten" Seiten in Google, das sind die, wo Google grade vorbeikam, als der Link auf der Startseite stand)
    • und nachdem das jeden Monat gleich abläuft, wird das so nix ;-)

    Wenn Du also willst, daß Google Dich liebhat, behalte ein paar URLs bei, so wie es im Moment ist, sollte es eigentlich schon funktionieren, nachdem jetzt die Startseite schon die Links zu weiteren gleichbleiben URLs enthält.

    Viele Grüße
    Stephan

    1. hi Stephan,

      anscheinend hast Du Deine Seite heute abend geändert, auf jeden Fall hatte ich mir das vor ein Paar Stunden angesehen, da sah' es auf den ersten Blick so aus, als hättest Du auf der Startseite jeweils den aktuellen Eintrag deines Weblogs verlinkt, d.h. der Linkname ändert sich sehr oft (täglich?).

      nö, eigentlich nicht. die seiten selber veränder ich zwar oft, aber die verlinkung unter einander versuche ich beizubehalten. vor 3 monaten hab ich mal was umgestellt, aber sonst nicht.

      Meine Theorie wäre deswegen folgende:

      • Googlebot entscheidet nach Pagerank, wie weit er indiziert. Wenn eine Seite noch keinen Pagerank hat, indiziert er von der aus auch nicht weiter, wenn der Pagerank der Ausgangsseite nicht hoch genug ist

      nur damit ich das jetzt richtig verstehe: mein Pagerank ist doch dementsprechend höher, je öfter die seite extern verlinkt wurde, oder?

      • Googlebot kam also jeden Monat bei Dir vorbei, und hat die eine Seite indiziert, die von der Ausgangsseite verlinkt ist. Da die URL noch nicht in der Datenbank war, bekam sie erstmal nur den "geliehenen" Pagerank der Startseite, der erheblich niedriger ist, deswegen wird von da aus nicht weitergecrawlt. (Ich nehme an, daß Du keine externen Links hast, die auf Unterseiten verweisen)

      du meinst jetzt externe seiten, die auf unterseiten von mir verlinken, oder? davon hab ich sicher nicht viele (eine ist mir bekannt).

      Die bleibt dann noch ein bißchen in der Datenbank, ist aber für Google zu uninteressant, um von dortaus weiterzucrawlen. (Deswegen stehen immer einige Deiner "alten" Seiten in Google, das sind die, wo Google grade vorbeikam, als der Link auf der Startseite stand)

      ach so. langsam beginne ich zu vestehen.

      • und nachdem das jeden Monat gleich abläuft, wird das so nix ;-)

      stimmt :-\

      Wenn Du also willst, daß Google Dich liebhat, behalte ein paar URLs bei, so wie es im Moment ist, sollte es eigentlich schon funktionieren, nachdem jetzt die Startseite schon die Links zu weiteren gleichbleiben URLs enthält.

      meinst du damit jetzt die links zum archiv und zur vorherigen, bzw. nächsten seite?

      danke erstmal für die ausführliche erklärung. alles hab ich nicht verstanden, aber das wichtige ist glaub ich:
      je weniger ich die verlink-struktur verändere und die dateien umbenenne, desto lieber mag mich google.
      je schneller google durch die links von einer seite zur anderen kommt, desto besser.
      je mehr externe seiten auf mich verlinken, desto besser.
      dies gilt auch für tiefer in der verzeichnisstruktur liegende seiten.
      inhaltslose "brückenseiten" findet google uninteressant.

      im prinzip verhält sich google dann ja genauso wie ein normaler surfer ;)
      macht ja auch sinn. falls ich irgendwas total falsch verstanden habe, wärs nett wenn du mich berichtiogen würdest.

      danke + schö
      stefan

      1. Hallo Stefan

        nö, eigentlich nicht. die seiten selber veränder ich zwar oft, aber die verlinkung unter einander versuche ich beizubehalten. vor 3 monaten hab ich mal was umgestellt, aber sonst nicht.

        Aber Du hattest diese Vorschaltseite, bei der im Google-Cache dann folgender Link ist: "<a href="02_10_07.shtml">". Das meinte ich, der hat sich wohl täglich geändert, und das war das imho Problem.

        nur damit ich das jetzt richtig verstehe: mein Pagerank ist doch dementsprechend höher, je öfter die seite extern verlinkt wurde, oder?

        So pi mal Daumen: ja, abhängig vom Pagerank, den die verlinkende Seite hat. Das genaue Verfahren gibt Google nicht bekannt, um zu verhindern, daß jemand mit dem Wissen tricksen kann.

        meinst du damit jetzt die links zum archiv und zur vorherigen, bzw. nächsten seite?

        Ich meinte eben diesen Link auf der Vorschaltseite. Da der sich dauernd änderte, hast Du es nie geschafft, für die eigentlich gleichbleibenden URLs einen Pagerank zu bekommen, der hoch genug ist, damit sie gespidert werden.

        Viele Grüße
        Stephan

        1. hi Stephan

          alles klar, jetzt hab ichs gerafft. danke.

          schö stefan