Suchmaschinen sollen diese HTML-Seite nicht finden
H²O
- html
0 Dennis0 Thomas Luethi
Hallo.
Wie schaffe ich es, dass Suchmaschienen eine HTML-Seite nicht finden.
Also, dass man diese nur erreichen kann, wenn man auch die Adresse kennt, bzw. wenn sie verlinkt ist?
Danke H²O
Hi @all!
Wie schaffe ich es, dass Suchmaschienen eine HTML-Seite nicht finden.
Also, dass man diese nur erreichen kann, wenn man auch die Adresse kennt, bzw. wenn sie verlinkt ist?
durch die Meta Angabe:
<meta name="robots" content="noindex">
bzw. wenn alle folgenden Seite auch verboten sind:
<meta name="robots" content="nofollow">
Das ganze lässt sich sicherlich auch hübscher über ne rotobs.txt regeln,
aber so tuts es auch.
MfG, Dennis.
Hallo Dennis,
durch die Meta Angabe:
<meta name="robots" content="noindex">
Es liegt aber immer noch beim entsprechenden Robot, ob er das auch interpretiert.
bzw. wenn alle folgenden Seite auch verboten sind:
<meta name="robots" content="nofollow">
Nein. Das sagt lediglich, dass er enthaltenen Verweisen nicht folgen soll. Die verlinkte Seite kann aber immer noch indiziert werden.
Das ganze lässt sich sicherlich auch hübscher über ne rotobs.txt regeln,
aber so tuts es auch.
Beispiel Google: enthaelt die robots.txt "Disallow:", die Seite jedoch "index" im Meta-Tag, wird sie, wenn der Googlebot sie findet, indiziert.
Einen hundertprozentig funktionierenden Ausschluss von Suchmaschinen-Robots gibt es nicht (ausser HTTP-Auth, Seite loeschen etc.).
Beste Gruesse
Jan
Hi @all!
durch die Meta Angabe:
<meta name="robots" content="noindex">
Es liegt aber immer noch beim entsprechenden Robot, ob er das auch interpretiert.
War ja auch nur als mögliches Beispiel gedacht.
bzw. wenn alle folgenden Seite auch verboten sind:
<meta name="robots" content="nofollow">
Nein. Das sagt lediglich, dass er enthaltenen Verweisen nicht folgen soll. Die verlinkte Seite kann aber immer noch indiziert werden.
Achso, ja stimmt, Flüchtigkeitsfehler -> nofollow verbietet die Aufnahme der aktuellen Seite, und untersagt das verfolgen der Links, diese Seiten könnn jedoch trotzdem aufgenommen werden.
So stimmts.
Beispiel Google: enthaelt die robots.txt "Disallow:", die Seite jedoch "index" im Meta-Tag, wird sie, wenn der Googlebot sie findet, indiziert.
Warum auch nicht? In deinem Beispiel oben, wird es ja auch _doppelt_ erlaubt!
So lange hinter Disallow nix steht, wird alles erlaubt und index in der Seite erlaubt es ja auch.
MfG, Dennis.
Hallo Dennis,
Achso, ja stimmt, Flüchtigkeitsfehler -> nofollow verbietet die Aufnahme der aktuellen Seite, und untersagt das verfolgen der Links, diese Seiten könnn jedoch trotzdem aufgenommen werden.
So stimmts.
Nein ;-)
"nofollow" verbietet nicht die Aufnahme der Seite in den Index, es sagt lediglich, dass Verweise nicht verfolgt werden sollen.
Beispiel Google: enthaelt die robots.txt "Disallow:", die Seite jedoch "index" im Meta-Tag, wird sie, wenn der Googlebot sie findet, indiziert.
Warum auch nicht? In deinem Beispiel oben, wird es ja auch _doppelt_ erlaubt!
So lange hinter Disallow nix steht, wird alles erlaubt und index in der Seite erlaubt es ja auch.
Ja, da fehlt ein Slash. Sollte natuerlich "Disallow: /" heissen, sorry.
Beste Gruesse
Jan
Hi Jan,
"nofollow" verbietet nicht die Aufnahme der Seite in den Index, es sagt lediglich, dass Verweise nicht verfolgt werden sollen.
Sicher? Ich hab da so nen recht neues Nachschlagewerk, da steht, Zitat:
" <meta name="robots" content="nofollow"> Verbieten Sie die Aufnahme der aktuellen Seite; erlauben Sie jedoch die Aufnahme von Seiten, auf die diese Seite per Link verweist."
Hm, da wird ma halt net schlau draus *g*
So lange hinter Disallow nix steht, wird alles erlaubt und index in der Seite erlaubt es ja auch.
Ja, da fehlt ein Slash. Sollte natuerlich "Disallow: /" heissen, sorry.
achso, dann ist klar.
MfG, Dennis.
hi,
Sicher? Ich hab da so nen recht neues Nachschlagewerk, da steht, Zitat:
" <meta name="robots" content="nofollow"> Verbieten Sie die Aufnahme der aktuellen Seite; erlauben Sie jedoch die Aufnahme von Seiten, auf die diese Seite per Link verweist."
ist aber trotzdem falsch.
nofollow besagt - logischerweise - dass die links auf der aktuellen seite nicht verfolgt werden sollen.
das schlüsselwort für das untersagen der indizierung der aktuellen seite hingegen lautet noindex.
gruss,
wahsaga
Hallo,
Sicher? Ich hab da so nen recht neues Nachschlagewerk, da steht, Zitat:
" <meta name="robots" content="nofollow"> Verbieten Sie die Aufnahme der aktuellen Seite; erlauben Sie jedoch die Aufnahme von Seiten, auf die diese Seite per Link verweist."
Das Nachschlagewerk ist Schrott.
Obige Beschreibung wuerde passen auf:
<meta name="robots" content="noindex,follow">
nofollow heisst etwa: "Folge den Links nicht!"
Siehe:
http://selfhtml.teamone.de/html/kopfdaten/meta.htm#robots
http://www.robotstxt.org/wc/meta-user.html
http://www.seoconsultants.com/meta-tags/robots.htm
http://www.google.com/bot.html#noindextags
Gruesse,
Thomas
Hallo,
Wie schaffe ich es, dass Suchmaschienen eine HTML-Seite nicht finden.
Lass sie zuhause auf Deinem eigenen Rechner.
Lade sie nicht auf einen Webserver hoch.
Also, dass man diese nur erreichen kann, wenn man auch die Adresse kennt, bzw. wenn sie verlinkt ist?
"Geheime URL" ist ein sehr schwacher "Schutz".
Sobald eine Seite Links nach aussen hat, taucht
ihre URL z.B. auch in den Logfiles von anderen
Websites auf, und evtl. machen deren Autoren
dann einen Link auf Deine Seite. Oder sonst jemand
macht einen Link auf Deine Seite, ohne dass Du
es sofort erfaehrst. Auf das Konzept
"geheime URL => wird nicht gefunden"
kannst Du also nicht zaehlen.
Die schon erwaehnten Meta-Tags sowie die robots.txt
sind die gaengigen Versuche, die Robots fernzuhalten
bzw. den Suchmaschinen zu verbieten, Seiten zu
indizieren.
Gemaess meiner Erfahrung missachtet Google die robots.txt,
und besucht auch die dort "verbotenen" Verzeichnisse, z.B.
wenn Links von aussen direkt auf eine solche Seite zeigen.
Wenn dann in den Seiten ein Meta-Tag im Stil
<META NAME="robots" CONTENT="index,follow">
steht, indiziert er die Seiten, obwohl er sie gemaess der robots.txt
gar nicht haette besuchen duerfen.
Eine Kombination von Verboten in der robots.txt sowie
in den Meta-Tags duerfte wohl fuer Google und einige
andere Suchmaschinen funktionieren.
Etwas sicherer ist es, das Verzeichnis mit einem Passwortschutz
zu versehen und die Kombination Benutzername/Kennwort
auf der Seite anzugeben, von der aus man verlinkt.
Oder auch im "Realm"-Text, der im Passwort-Eingabe-Fensterchen
erscheint. Dann koennen "menschliche" Besucher diese Angaben
abtippen, aber "normal intelligente" Spider bleiben draussen.
Der einzig wirksame Schutz vor Suchmaschinen-Spidern
und anderen Robots ist aber wie gesagt, dass man die
Seiten gar nicht erst online stellt.
Zu robots.txt und zum Robots-Meta-Tag:
http://www.robotstxt.org/wc/exclusion.html
Zu Google:
http://www.google.com/bot.html
http://www.google.de/webmasters/faq.html
Gruesse,
Thomas
Hallo Thomas Luethi
Gemaess meiner Erfahrung missachtet Google die robots.txt,
und besucht auch die dort "verbotenen" Verzeichnisse, z.B.
wenn Links von aussen direkt auf eine solche Seite zeigen.
Na logisch, würde ich genauso machen.
Auf der Seite, die den Link enthält, ist dies ja nicht verboten.
Wenn dann in den Seiten ein Meta-Tag im Stil
<META NAME="robots" CONTENT="index,follow">
steht, indiziert er die Seiten, obwohl er sie gemaess der robots.txt
gar nicht haette besuchen duerfen.
Logisch, der Robot hat die Aufgabe alles zu indizieren, dessen Indizierung nicht ausdrücklich unerwünscht ist.
Warum soll Google sich für die Einträge in der robots.txt überhaupt noch interessieren, wenn die Indexierung laut Meta-Tag ausdrücklich gewünscht wird?
Oder anders ausgedrückt:
Wie sollte Google sich verhalten, wenn die Angaben widersprüchlich sind?
MFG
Detlef
Hallo,
Warum soll Google sich für die Einträge in der robots.txt überhaupt noch interessieren, wenn die Indexierung laut Meta-Tag ausdrücklich gewünscht wird?
Ein anstaendiger Spider sollte IMHO bei jeder Domain als erstes
die robots.txt anschauen. Was dort als "verboten" gekennzeichnet
ist, sollte er gar nicht erst anschauen, also weder indizieren oder
archivieren noch den Links folgen.
http://www.robotstxt.org/wc/norobots.html
The following example "/robots.txt" file specifies
that no robots should visit any URL starting with
"/cyberworld/map/" [...]
User-agent: *
Disallow: /cyberworld/map/
Wie sollte Google sich verhalten, wenn die Angaben widersprüchlich sind?
Die robots.txt sollte er IMHO staerker gewichten.
Wenn ich ein Verzeichnis mit der robots.txt "sperre",
moechte ich dort beliebige Dateien hineinstellen koennen,
auch solche, in denen zufaellig ein Meta-Tag mit
"index, follow" steht, und ich moechte davon ausgehen
koennen, dass kein Robot sie besucht.
Aber Google haelt sich eben _nicht_ an die robots.txt;
er schaut die Dateien an und indiziert sie, wenn er
aufgrund der Meta-Tags der Meinung ist, er solle das tun.
Mir ist klar, dass man darueber streiten koennte,
weil es auch keinen offiziellen Standard gibt.
Fuer mich ist die robots.txt jedenfalls wertlos,
und ich wende lieber gleich einen Passwortschutz
fuer die Verzeichnisse an, von denen ich nicht will,
dass Google sie besucht.
Gruesse,
Thomas
Hallo Thomas
Die robots.txt sollte er IMHO staerker gewichten.
...
Mir ist klar, dass man darueber streiten koennte,
weil es auch keinen offiziellen Standard gibt.
Streiten brauchen wir uns wirklich nicht.
Ich meine nur, dass ich mich nicht über das Verhalten von Google beschweren brauche, wenn widersprüchliche Angaben existieren und dazu kein offizieller Standard festlegt, welche Angabe stärker gewichtet werden soll.
Fuer mich ist die robots.txt jedenfalls wertlos,
und ich wende lieber gleich einen Passwortschutz
fuer die Verzeichnisse an, von denen ich nicht will,
dass Google sie besucht.
Ich betrachte dies differenziert.
Verzeichnisse, die nur für mich oder einen eng begrenzten Benutzerkreis zur Verfügung stehen sollen, bei denen es wichtig ist, dass Google sie nicht besucht, bekommen einen Passwortschutz.
Verzeichnisse, die z.B. nur zeitweise Ressourcen enthalten, hier verlinkte Beispiele oder Bilder, Testseiten usw., bei denen ein Besuch durch Google nicht wünschenswert aber auch kein Beinbruch ist,
bekommen nur den Eintrag in der robots.txt.
MFG
Detlef
Hallo,
Streiten brauchen wir uns wirklich nicht.
Einverstanden - Peace! ;-)
Ich meine nur, dass ich mich nicht über das Verhalten von Google beschweren brauche, wenn widersprüchliche Angaben existieren und dazu kein offizieller Standard festlegt, welche Angabe stärker gewichtet werden soll.
Auf den "offiziellen" Seiten habe ich noch folgendes gefunden:
http://www.robotstxt.org/wc/meta-notes.html
"This tag is meant to provide users who cannot control the robots.txt file at their sites.
It provides a last chance to keep their content out of search services."
Der Gedanke bei der Einfuehrung der robots.txt und der Robots-Meta-Tags
lag also IMHO ganz klar auf dem "Ausschliessen".
Die Robots-Meta-Tags sollten es den Seitenautoren, die keinen Zugriff
auf die robots.txt haben, ermoeglichen, in den einzelnen Dateien das
Spider- und Indizierungs-_Verbot_ auszusprechen - meine Hervorhebung:
"keep their content OUT of search services".
Natuerlich ist dadurch immer noch nicht abschliessend definiert, wie sich ein
Robot verhalten soll, wenn die robots.txt den Besuch eines ganzen Verzeichnisses
verbietet, in den einzelnen Dateien aber steht, dass er sie indizieren und den
Links folgen soll.
Nach meinem Verstaendnis sollte ein anstaendiger Robot, bevor er eine Seite
abruft und anschaut, zuerst in der robots.txt schauen, ob er sie ueberhaupt
abrufen und anschauen darf:
http://www.robotstxt.org/wc/exclusion.html#robotstxt
"[...] when a Robot vists a Web site, say http://www.foobar.com/, it firsts checks for
http://www.foobar.com/robots.txt. If it can find this document, it will analyse its contents
for records like:
User-agent: *
Disallow: /
to see if it is allowed to retrieve the document."
Wenn also in der robots.txt steht, dass der Robot das Dokument gar nicht abholen soll,
und wenn der Robot sich daran haelt, dann gibt es auch keinen Widerspruch, weil der
Robot das Meta-Tag, das ihm das Indizieren erlauben wuerde, gar nie zu Gesicht bekommt...
So gesehen verstoesst Google IMHO gegen die Vereinbarungen und
die Idee hinter der robots.txt.
Historisch gesehen war vermutlich zuerst (Juni 1994) die robots.txt da, und
die Robots-Meta-Tags kamen erst etwas spaeter (Juni 1996) hinzu.
So verstehe ich jedenfalls folgenden Abschnitt:
http://www.kollar.com/robots.html
"Lastly, we would like to propose some modest extensions to the exclusion standard
which we feel would help the web based catalogue building community, as well as
give the creator of a page the ability to control its spidering. These extensions will
be based on the HTML meta tag."
Verzeichnisse, die nur für mich oder einen eng begrenzten Benutzerkreis zur Verfügung stehen sollen, bei denen es wichtig ist, dass Google sie nicht besucht, bekommen einen Passwortschutz.
Sicher sinnvoll.
Verzeichnisse [...] bei denen ein Besuch durch Google nicht wünschenswert aber auch kein Beinbruch ist, bekommen nur den Eintrag in der robots.txt.
Auch das kann ich nachvollziehen.
Ich war eben etwas veraergert, als ich zum ersten Mal feststellte, dass Google
sich nicht an die robots.txt haelt, und werde seither nicht muede, hier davor
zu warnen, sich auf die robots.txt zu verlassen.
Freundliche Gruesse,
Thomas