robots.txt - Verfolgung von weiterführenden Links?
Günter
- sonstiges
Hallo zusammen,
ich habe eine Frage:
Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig oder verfolgt er die Links trotzdem weiter und indiziert die weiteren gefundenen Seiten dann auch?
Vielen Dank für Eure Hilfe
Hi,
Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig
nein. Er erfährt nichts von ihnen, also kann er sie auch nicht ignorieren.
Cheatah
Hi,
Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständignein. Er erfährt nichts von ihnen, also kann er sie auch nicht ignorieren.
Google "crawled" auch das, was es nicht *indizieren* soll.
MfG ChrisB
Hallo Cheatah, hallo ChrisB,
widersprechen sich Eure beiden Antworten nicht?!?
Ich hatte es eigentlich auch so im Hinterkopf, dass beispielsweise Google die in der robots.txt genannten Dateien zwar nicht indiziert wohl aber die Links in diesen Dateien weiterverfolgt.
Bin mir jetzt aber nicht sicher :-(
Viele Grüße
Günter
Hi,
»» > Mit Hilfe der robots.txt ist es ja möglich, bestimmte Seiten von der Indexierung auszuschließen. So weit, so gut.
»» > Was passiert aber mit weiterführenden Links auf diesen Seiten??? Ignoriert der Robot (insbesondere der Googlebot) diese dann auch vollständig
»»
»» nein. Er erfährt nichts von ihnen, also kann er sie auch nicht ignorieren.Google "crawled" auch das, was es nicht *indizieren* soll.
MfG ChrisB
Hi,
widersprechen sich Eure beiden Antworten nicht?!?
nicht so sehr wie Dein und unser Zitierstil. Bitte zitiere nur das, worauf Du Dich beziehst, und antworte in einer in Mitteleuropa üblichen Leserichtung.
Ich hatte es eigentlich auch so im Hinterkopf, dass beispielsweise Google die in der robots.txt genannten Dateien zwar nicht indiziert wohl aber die Links in diesen Dateien weiterverfolgt.
Dies widerspräche der Vorgabe. In der robots.txt wird "a partial URL that is not to be visited" genannt. Wenn ein Bot die Seite nicht besucht, kann er auch von den darin enthaltenen Links nichts wissen.
Cheatah
Hi,
Google "crawled" auch das, was es nicht *indizieren* soll.
sicher, nur sagt die robots.txt aus, welche Seiten der Bot nicht *besuchen* darf. Gibt es Belege für ein diesbezügliches Fehlverhalten des Google-Bot?
Cheatah
Hi,
Google "crawled" auch das, was es nicht *indizieren* soll.
sicher, nur sagt die robots.txt aus, welche Seiten der Bot nicht *besuchen* darf. Gibt es Belege für ein diesbezügliches Fehlverhalten des Google-Bot?
Google hat bspw. mein Impressum in seinem Index [1] - obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?
Dass es dieses Disallow zur Kenntnis genommen hat (und es auch so notiert ist, dass es für die in Frage kommende Ressource "greift"), bestätigen mir die Google Webmaster Tools unter "URLs restricted by robots.txt".
[1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an [2]. Wohlgemerkt ohne weitere Informationen wie bei "normalen" Suchtreffern, also weder den title der Seite, noch einen excerpt - nur darunter noch den Link "ähnliche Seiten".
[2] Als weitere Ergebnisse kommen dann eine weitere Seite von meiner Domain (nach rechts eingerückt), und dann folgen Seiten von anderen Domains, die auf mein Impressum verlinken.
MfG ChrisB
Hi,
Google hat bspw. mein Impressum in seinem Index [1]
kann dies aus einer früheren Zeit stammen, zu der die robots.txt noch keine entsprechende Angabe enthielt?
obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?
Zunächst einmal zu besuchen. Ich möchte hieraus auch ein Verbot der Indizierung ableiten, da meiner Ansicht nach die Suchmaschine hierzu Kenntnisse über den Inhalt haben müsste, die sie wegen des Besuchverbots nicht haben kann. Möglicherweise reicht der Suchmaschine aber auch das, was es aus den Links erfährt, die auf die Seite gehen?
Cheatah
Hi,
Hi,
Google hat bspw. mein Impressum in seinem Index [1]
kann dies aus einer früheren Zeit stammen, zu der die robots.txt noch keine entsprechende Angabe enthielt?
Nein, ich denke nicht.
Vor der letzten Überarbeitung hiess die Ressource noch anders (und die alte gibt nur einen 404, leitet nicht auf die neue weiter). Und zu dem Zeitpunkt war robots.txt schon ein Thema, das ich gleich mit berücksichtigt habe.
obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?
Zunächst einmal zu besuchen. Ich möchte hieraus auch ein Verbot der Indizierung ableiten, da meiner Ansicht nach die Suchmaschine hierzu Kenntnisse über den Inhalt haben müsste, die sie wegen des Besuchverbots nicht haben kann.
Tja, ich vermute eher, dass Google es sich nicht nehmen lässt, trotzdem "mal nachzuschauen". Eine Indizierung findet ja letztendlich in dem Sinne dann nicht statt, dass keinerlei Inhalte der Seite beim "Suchergebnis" gelistet werden.
Möglicherweise reicht der Suchmaschine aber auch das, was es aus den Links erfährt, die auf die Seite gehen?
Aber deshalb eine Ressource als Suchergebnis aufnehmen, die nicht durchsucht werden soll?
MfG ChrisB
Hi,
»» kann dies aus einer früheren Zeit stammen, zu der die robots.txt noch keine entsprechende Angabe enthielt?
Nein, ich denke nicht.
hm, das ist merkwürdig. Google scheint bezüglich der robots.txt nicht so brav zu sein, wie ich bisher dachte.
»» Möglicherweise reicht der Suchmaschine aber auch das, was es aus den Links erfährt, die auf die Seite gehen?
Aber deshalb eine Ressource als Suchergebnis aufnehmen, die nicht durchsucht werden soll?
Hey, ich versuche nur die Beobachtung zu erklären. Ich habe nicht behauptet, dass es sinnvoll ist ;-)
Cheatah
Google hat bspw. mein Impressum in seinem Index [1] - obwohl ihm per robots.txt per Disallow "untersagt" wurde, diese Ressource - ja, was jetzt, zu besuchen, oder zu indizieren?
Die robots.txt stellt eine Empfehlung dar, welche Seiten nicht besucht werden sollen. Darüber hinaus hat sie keinen ("bindenden") Einfluß.
...
[1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an [2]. Wohlgemerkt ohne weitere Informationen wie bei "normalen" Suchtreffern, also weder den title der Seite, noch einen excerpt - nur darunter noch den Link "ähnliche Seiten".
Diese "unnormalen Suchtreffer" sind/waren* typisches Verhalten bei Seiten (die google "kennt") mit noindex in den matas.
* Irgendwann in den letzten Monaten sind meine Seiten dieser Art aus dem "Index"** verschwunden.
** Ich würde das nicht zum Index zählen, denn diese Seiten sind über normale Suchbegriffe nicht zu finden, nur über die URL bzw. die site-Abfrage.
Tach,
[1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an [2]. Wohlgemerkt ohne weitere Informationen wie bei "normalen" Suchtreffern, also weder den title der Seite, noch einen excerpt - nur darunter noch den Link "ähnliche Seiten".
im wesentlichen hat Google damit nur im Index, dass die Seite existiert; wenn man es großzügig auslegt, könnte es diese Information bereits daraus ziehen, dass Links auf die Ressource existieren. Google scheint das Impressum immmerhin auch für besonders wichtig zu halten, sucht man nach deinem Domain-Namen, ist es der erste Treffer.
mfg
Woodfighter
Hi Chris,
[1] Wenn ich bspw. explizit nach dem URL der Seite "suche", dann zeigt mir Google diese als ersten Treffer an
Google scheint sich da uneinheitlich zu verhalten. Meine robots.txt sieht wie folgt aus:
User-agent: *
Disallow: /impressum.html -> bei der Suche nach der URL wird sie gefunden
Disallow: /impressum.php -> bei der Suche nach der URL wird nichts gefunden
impressum.html war bis vor ca. 3 Monaten noch die verlinkte Ressource und liefert jetzt einen 301
Allerdings bringt eine Suche nach deinem Namen ebenfalls dein Impressum als Treffer, eine Suche nach meinem Name hingegen bleibt erfolglos.
Wenn Logfilelesen etwas spannender wäre, würde ich ja mal nachgucken ob der Googlebot die impressum.php in den letzten 3 Monaten angefordert hat.
Grüße,
Jochen