Günter: robots.txt - Verfolgung von weiterführenden Links?

Hallo zusammen,
ich habe eine Frage:
Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig oder verfolgt er die Links trotzdem weiter und indiziert die weiteren gefundenen Seiten dann auch?
Vielen Dank für Eure Hilfe

  1. Hi,

    Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
    Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig

    nein. Er erfährt nichts von ihnen, also kann er sie auch nicht ignorieren.

    Cheatah

    --
    X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
    X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
    X-Will-Answer-Email: No
    X-Please-Search-Archive-First: Absolutely Yes
    1. Hi,

      Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
      Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig

      nein. Er erfährt nichts von ihnen, also kann er sie auch nicht ignorieren.

      Google "crawled" auch das, was es nicht *indizieren* soll.

      MfG ChrisB

      --
      Light travels faster than sound - that's why most people appear bright until you hear them speak.
      1. Hallo Cheatah, hallo ChrisB,

        widersprechen sich Eure beiden Antworten nicht?!?
        Ich hatte es eigentlich auch so im Hinterkopf, dass beispielsweise Google die in der robots.txt genannten Dateien zwar nicht indiziert wohl aber die Links in diesen Dateien weiterverfolgt.
        Bin mir jetzt aber nicht sicher :-(

        Viele Grüße

        Günter

        Hi,

        »» > Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
        »» > Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig
        »»
        »» nein. Er erfährt nichts von ihnen, also kann er sie auch nicht ignorieren.

        Google "crawled" auch das, was es nicht *indizieren* soll.

        MfG ChrisB

        1. Hi,

          widersprechen sich Eure beiden Antworten nicht?!?

          nicht so sehr wie Dein und unser Zitierstil. Bitte zitiere nur das, worauf Du Dich beziehst, und antworte in einer in Mitteleuropa üblichen Leserichtung.

          Ich hatte es eigentlich auch so im Hinterkopf, dass beispielsweise Google die in der robots.txt genannten Dateien zwar nicht indiziert wohl aber die Links in diesen Dateien weiterverfolgt.

          Dies widerspräche der Vorgabe. In der robots.txt wird "a partial URL that is not to be visited" genannt. Wenn ein Bot die Seite nicht besucht, kann er auch von den darin enthaltenen Links nichts wissen.

          Cheatah

          --
          X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
          X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
          X-Will-Answer-Email: No
          X-Please-Search-Archive-First: Absolutely Yes
      2. Hi,

        Google "crawled" auch das, was es nicht *indizieren* soll.

        sicher, nur sagt die robots.txt aus, welche Seiten der Bot nicht *besuchen* darf. Gibt es Belege für ein diesbezügliches Fehlverhalten des Google-Bot?

        Cheatah

        --
        X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
        X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
        X-Will-Answer-Email: No
        X-Please-Search-Archive-First: Absolutely Yes
        1. Hi,

          Google "crawled" auch das, was es nicht *indizieren* soll.

          sicher, nur sagt die robots.txt aus, welche Seiten der Bot nicht *besuchen* darf. Gibt es Belege für ein diesbezügliches Fehlverhalten des Google-Bot?

          Google hat bspw. mein Impressum in seinem Index [1] - obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?

          Dass es dieses Disallow zur Kenntnis genommen hat (und es auch so notiert ist, dass es für die in Frage kommende Ressource "greift"), bestätigen mir die Google Webmaster Tools unter "URLs restricted by robots.txt".

          [1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an [2]. Wohlgemerkt ohne weitere Informationen wie bei "normalen" Suchtreffern, also weder den title der Seite, noch einen excerpt - nur darunter noch den Link "ähnliche Seiten".

          [2] Als weitere Ergebnisse kommen dann eine weitere Seite von meiner Domain (nach rechts eingerückt), und dann folgen Seiten von anderen Domains, die auf mein Impressum verlinken.

          MfG ChrisB

          --
          Light travels faster than sound - that's why most people appear bright until you hear them speak.
          1. Hi,

            Google hat bspw. mein Impressum in seinem Index [1]

            kann dies aus einer früheren Zeit stammen, zu der die robots.txt noch keine entsprechende Angabe enthielt?

            obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?

            Zunächst einmal zu besuchen. Ich möchte hieraus auch ein Verbot der Indizierung ableiten, da meiner Ansicht nach die Suchmaschine hierzu Kenntnisse über den Inhalt haben müsste, die sie wegen des Besuchverbots nicht haben kann. Möglicherweise reicht der Suchmaschine aber auch das, was es aus den Links erfährt, die auf die Seite gehen?

            Cheatah

            --
            X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
            X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
            X-Will-Answer-Email: No
            X-Please-Search-Archive-First: Absolutely Yes
            1. Hi,

              Hi,

              Google hat bspw. mein Impressum in seinem Index [1]

              kann dies aus einer früheren Zeit stammen, zu der die robots.txt noch keine entsprechende Angabe enthielt?

              Nein, ich denke nicht.
              Vor der letzten Überarbeitung hiess die Ressource noch anders (und die alte gibt nur einen 404, leitet nicht auf die neue weiter). Und zu dem Zeitpunkt war robots.txt schon ein Thema, das ich gleich mit berücksichtigt habe.

              obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?

              Zunächst einmal zu besuchen. Ich möchte hieraus auch ein Verbot der Indizierung ableiten, da meiner Ansicht nach die Suchmaschine hierzu Kenntnisse über den Inhalt haben müsste, die sie wegen des Besuchverbots nicht haben kann.

              Tja, ich vermute eher, dass Google es sich nicht nehmen lässt, trotzdem "mal nachzuschauen". Eine Indizierung findet ja letztendlich in dem Sinne dann nicht statt, dass keinerlei Inhalte der Seite beim "Suchergebnis" gelistet werden.

              Möglicherweise reicht der Suchmaschine aber auch das, was es aus den Links erfährt, die auf die Seite gehen?

              Aber deshalb eine Ressource als Suchergebnis aufnehmen, die nicht durchsucht werden soll?

              MfG ChrisB

              --
              Light travels faster than sound - that's why most people appear bright until you hear them speak.
              1. Hi,

                »» kann dies aus einer früheren Zeit stammen, zu der die robots.txt noch keine entsprechende Angabe enthielt?
                Nein, ich denke nicht.

                hm, das ist merkwürdig. Google scheint bezüglich der robots.txt nicht so brav zu sein, wie ich bisher dachte.

                »» Möglicherweise reicht der Suchmaschine aber auch das, was es aus den Links erfährt, die auf die Seite gehen?
                Aber deshalb eine Ressource als Suchergebnis aufnehmen, die nicht durchsucht werden soll?

                Hey, ich versuche nur die Beobachtung zu erklären. Ich habe nicht behauptet, dass es sinnvoll ist ;-)

                Cheatah

                --
                X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
                X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
                X-Will-Answer-Email: No
                X-Please-Search-Archive-First: Absolutely Yes
          2. Google hat bspw. mein Impressum in seinem Index [1] - obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?

            Die robots.txt stellt eine Empfehlung dar, welche Seiten nicht besucht werden sollen. Darüber hinaus hat sie keinen ("bindenden") Einfluß.

            ...
            [1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an [2]. Wohlgemerkt ohne weitere Informationen wie bei "normalen" Suchtreffern, also weder den title der Seite, noch einen excerpt - nur darunter noch den Link "ähnliche Seiten".

            Diese "unnormalen Suchtreffer" sind/waren* typisches Verhalten bei Seiten (die google "kennt") mit noindex in den matas.

            * Irgendwann in den letzten Monaten sind meine Seiten dieser Art aus dem "Index"** verschwunden.

            ** Ich würde das nicht zum Index zählen, denn diese Seiten sind über normale Suchbegriffe nicht zu finden, nur über die URL bzw. die site-Abfrage.

          3. Tach,

            [1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an [2]. Wohlgemerkt ohne weitere Informationen wie bei "normalen" Suchtreffern, also weder den title der Seite, noch einen excerpt - nur darunter noch den Link "ähnliche Seiten".

            im wesentlichen hat Google damit nur im Index, dass die Seite existiert; wenn man es großzügig auslegt, könnte es diese Information bereits daraus ziehen, dass Links auf die Ressource existieren. Google scheint das Impressum immmerhin auch für besonders wichtig zu halten, sucht man nach deinem Domain-Namen, ist es der erste Treffer.

            mfg
            Woodfighter

          4. Hi Chris,

            [1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an

            Google scheint sich da uneinheitlich zu verhalten. Meine robots.txt sieht wie folgt aus:

            User-agent: *
            Disallow: /impressum.html -> bei der Suche nach der URL wird sie gefunden
            Disallow: /impressum.php  -> bei der Suche nach der URL wird nichts gefunden

            impressum.html war bis vor ca. 3 Monaten noch die verlinkte Ressource und liefert jetzt einen 301

            Allerdings bringt eine Suche nach deinem Namen ebenfalls dein Impressum als Treffer, eine Suche nach meinem Name hingegen bleibt erfolglos.
            Wenn Logfilelesen etwas spannender wäre, würde ich ja mal nachgucken ob der Googlebot die impressum.php in den letzten 3 Monaten angefordert hat.

            Grüße,

            Jochen

            --
            Kritzeln statt texten: Scribbleboard