robots.txt - Verfolgung von weiterführenden Links? von ChrisB, 15.04.2009 00:56

robots.txt - Verfolgung von weiterführenden Links?

Günter 14.04.2009 23:51

sonstiges

Hallo zusammen,
ich habe eine Frage:
Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig oder verfolgt er die Links trotzdem weiter und indiziert die weiteren gefundenen Seiten dann auch?
Vielen Dank für Eure Hilfe

Beitrag melden

– Informationen zu den Bewertungsregeln

robots.txt - Verfolgung von weiterführenden Links?
Cheatah 14.04.2009 23:58

sonstiges
– Informationen zu den Bewertungsregeln
Hi,

Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig

nein. Er erfährt nichts von ihnen, also kann er sie auch nicht ignorieren.

Cheatah

--
X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
X-Will-Answer-Email: No
X-Please-Search-Archive-First: Absolutely Yes
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. robots.txt - Verfolgung von weiterführenden Links?
  
  ChrisB 14.04.2009 23:59
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Hi,
  
  Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
  Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig
  
  nein. Er erfährt nichts von ihnen, also kann er sie auch nicht ignorieren.
  
  Google "crawled" auch das, was es nicht *indizieren* soll.
  
  MfG ChrisB
  
  --
  Light travels faster than sound - that's why most people appear bright until you hear them speak.
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. robots.txt - Verfolgung von weiterführenden Links?
    
    Günter 15.04.2009 00:22
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    Hallo Cheatah, hallo ChrisB,
    
    widersprechen sich Eure beiden Antworten nicht?!?
    Ich hatte es eigentlich auch so im Hinterkopf, dass beispielsweise Google die in der robots.txt genannten Dateien zwar nicht indiziert wohl aber die Links in diesen Dateien weiterverfolgt.
    Bin mir jetzt aber nicht sicher :-(
    
    Viele Grüße
    
    Günter
    
    Hi,
    
    »» > Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
    »» > Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig
    »»
    »» nein. Er erfährt nichts von ihnen, also kann er sie auch nicht ignorieren.
    
    Google "crawled" auch das, was es nicht *indizieren* soll.
    
    MfG ChrisB
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. robots.txt - Verfolgung von weiterführenden Links?
      
      Cheatah 15.04.2009 00:30
      
      sonstiges
      
      – Informationen zu den Bewertungsregeln
      
      Hi,
      
      widersprechen sich Eure beiden Antworten nicht?!?
      
      nicht so sehr wie Dein und unser Zitierstil. Bitte zitiere nur das, worauf Du Dich beziehst, und antworte in einer in Mitteleuropa üblichen Leserichtung.
      
      Ich hatte es eigentlich auch so im Hinterkopf, dass beispielsweise Google die in der robots.txt genannten Dateien zwar nicht indiziert wohl aber die Links in diesen Dateien weiterverfolgt.
      
      Dies widerspräche der Vorgabe. In der robots.txt wird "a partial URL that is not to be visited" genannt. Wenn ein Bot die Seite nicht besucht, kann er auch von den darin enthaltenen Links nichts wissen.
      
      Cheatah
      
      --
      X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
      X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
      X-Will-Answer-Email: No
      X-Please-Search-Archive-First: Absolutely Yes
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
  2. robots.txt - Verfolgung von weiterführenden Links?
    
    Cheatah 15.04.2009 00:27
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    Hi,
    
    Google "crawled" auch das, was es nicht *indizieren* soll.
    
    sicher, nur sagt die robots.txt aus, welche Seiten der Bot nicht *besuchen* darf. Gibt es Belege für ein diesbezügliches Fehlverhalten des Google-Bot?
    
    Cheatah
    
    --
    X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
    X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
    X-Will-Answer-Email: No
    X-Please-Search-Archive-First: Absolutely Yes
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. robots.txt - Verfolgung von weiterführenden Links?
      
      ChrisB 15.04.2009 00:56
      
      sonstiges
      
      – Informationen zu den Bewertungsregeln
      
      Hi,
      
      Google "crawled" auch das, was es nicht *indizieren* soll.
      
      sicher, nur sagt die robots.txt aus, welche Seiten der Bot nicht *besuchen* darf. Gibt es Belege für ein diesbezügliches Fehlverhalten des Google-Bot?
      
      Google hat bspw. mein Impressum in seinem Index [1] - obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?
      
      Dass es dieses Disallow zur Kenntnis genommen hat (und es auch so notiert ist, dass es für die in Frage kommende Ressource "greift"), bestätigen mir die Google Webmaster Tools unter "URLs restricted by robots.txt".
      
      [1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an [2]. Wohlgemerkt ohne weitere Informationen wie bei "normalen" Suchtreffern, also weder den title der Seite, noch einen excerpt - nur darunter noch den Link "ähnliche Seiten".
      
      [2] Als weitere Ergebnisse kommen dann eine weitere Seite von meiner Domain (nach rechts eingerückt), und dann folgen Seiten von anderen Domains, die auf mein Impressum verlinken.
      
      MfG ChrisB
      
      --
      Light travels faster than sound - that's why most people appear bright until you hear them speak.
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. robots.txt - Verfolgung von weiterführenden Links?
        
        Cheatah 15.04.2009 01:25
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        Google hat bspw. mein Impressum in seinem Index [1]
        
        kann dies aus einer früheren Zeit stammen, zu der die robots.txt noch keine entsprechende Angabe enthielt?
        
        obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?
        
        Zunächst einmal zu besuchen. Ich möchte hieraus auch ein Verbot der Indizierung ableiten, da meiner Ansicht nach die Suchmaschine hierzu Kenntnisse über den Inhalt haben müsste, die sie wegen des Besuchverbots nicht haben kann. Möglicherweise reicht der Suchmaschine aber auch das, was es aus den Links erfährt, die auf die Seite gehen?
        
        Cheatah
        
        --
        X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
        X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
        X-Will-Answer-Email: No
        X-Please-Search-Archive-First: Absolutely Yes
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt - Verfolgung von weiterführenden Links?
        
        ChrisB 15.04.2009 01:49
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        Hi,
        
        Google hat bspw. mein Impressum in seinem Index [1]
        
        kann dies aus einer früheren Zeit stammen, zu der die robots.txt noch keine entsprechende Angabe enthielt?
        
        Nein, ich denke nicht.
        Vor der letzten Überarbeitung hiess die Ressource noch anders (und die alte gibt nur einen 404, leitet nicht auf die neue weiter). Und zu dem Zeitpunkt war robots.txt schon ein Thema, das ich gleich mit berücksichtigt habe.
        
        obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?
        
        Zunächst einmal zu besuchen. Ich möchte hieraus auch ein Verbot der Indizierung ableiten, da meiner Ansicht nach die Suchmaschine hierzu Kenntnisse über den Inhalt haben müsste, die sie wegen des Besuchverbots nicht haben kann.
        
        Tja, ich vermute eher, dass Google es sich nicht nehmen lässt, trotzdem "mal nachzuschauen". Eine Indizierung findet ja letztendlich in dem Sinne dann nicht statt, dass keinerlei Inhalte der Seite beim "Suchergebnis" gelistet werden.
        
        Möglicherweise reicht der Suchmaschine aber auch das, was es aus den Links erfährt, die auf die Seite gehen?
        
        Aber deshalb eine Ressource als Suchergebnis aufnehmen, die nicht durchsucht werden soll?
        
        MfG ChrisB
        
        --
        Light travels faster than sound - that's why most people appear bright until you hear them speak.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt - Verfolgung von weiterführenden Links?
        
        Cheatah 15.04.2009 02:45
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        »» kann dies aus einer früheren Zeit stammen, zu der die robots.txt noch keine entsprechende Angabe enthielt?
        Nein, ich denke nicht.
        
        hm, das ist merkwürdig. Google scheint bezüglich der robots.txt nicht so brav zu sein, wie ich bisher dachte.
        
        »» Möglicherweise reicht der Suchmaschine aber auch das, was es aus den Links erfährt, die auf die Seite gehen?
        Aber deshalb eine Ressource als Suchergebnis aufnehmen, die nicht durchsucht werden soll?
        
        Hey, ich versuche nur die Beobachtung zu erklären. Ich habe nicht behauptet, dass es sinnvoll ist ;-)
        
        Cheatah
        
        --
        X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
        X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
        X-Will-Answer-Email: No
        X-Please-Search-Archive-First: Absolutely Yes
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
      2. robots.txt - Verfolgung von weiterführenden Links?
        
        Texter mit x 15.04.2009 09:49
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Google hat bspw. mein Impressum in seinem Index [1] - obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?
        
        Die robots.txt stellt eine Empfehlung dar, welche Seiten nicht besucht werden sollen. Darüber hinaus hat sie keinen ("bindenden") Einfluß.
        
        ...
        [1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an [2]. Wohlgemerkt ohne weitere Informationen wie bei "normalen" Suchtreffern, also weder den title der Seite, noch einen excerpt - nur darunter noch den Link "ähnliche Seiten".
        
        Diese "unnormalen Suchtreffer" sind/waren* typisches Verhalten bei Seiten (die google "kennt") mit noindex in den matas.
        
        * Irgendwann in den letzten Monaten sind meine Seiten dieser Art aus dem "Index"** verschwunden.
        
        ** Ich würde das nicht zum Index zählen, denn diese Seiten sind über normale Suchbegriffe nicht zu finden, nur über die URL bzw. die site-Abfrage.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
      3. robots.txt - Verfolgung von weiterführenden Links?
        
        Jens Holzkämper 15.04.2009 09:54
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Tach,
        
        [1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an [2]. Wohlgemerkt ohne weitere Informationen wie bei "normalen" Suchtreffern, also weder den title der Seite, noch einen excerpt - nur darunter noch den Link "ähnliche Seiten".
        
        im wesentlichen hat Google damit nur im Index, dass die Seite existiert; wenn man es großzügig auslegt, könnte es diese Information bereits daraus ziehen, dass Links auf die Ressource existieren. Google scheint das Impressum immmerhin auch für besonders wichtig zu halten, sucht man nach deinem Domain-Namen, ist es der erste Treffer.
        
        mfg
        Woodfighter
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
      4. robots.txt - Verfolgung von weiterführenden Links?
        
        Maxx Homepage des Autors 15.04.2009 14:44
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hi Chris,
        
        [1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an
        
        Google scheint sich da uneinheitlich zu verhalten. Meine robots.txt sieht wie folgt aus:
        
        User-agent: *
        Disallow: /impressum.html -> bei der Suche nach der URL wird sie gefunden
        Disallow: /impressum.php -> bei der Suche nach der URL wird nichts gefunden
        
        impressum.html war bis vor ca. 3 Monaten noch die verlinkte Ressource und liefert jetzt einen 301
        
        Allerdings bringt eine Suche nach deinem Namen ebenfalls dein Impressum als Treffer, eine Suche nach meinem Name hingegen bleibt erfolglos.
        Wenn Logfilelesen etwas spannender wäre, würde ich ja mal nachgucken ob der Googlebot die impressum.php in den letzten 3 Monaten angefordert hat.
        
        Grüße,
        
        Jochen
        
        --
        Kritzeln statt texten: Scribbleboard
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Günter: robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?

robots.txt - Verfolgung von weiterführenden Links?