robots.txt von Stefan Karzauninkat, 27.05.1999 12:03

robots.txt

Stefan Karzauninkat 27.05.1999 12:03

kann mir jemand sagen, ob man im robots.txt-Dokument ohne Reue "Allow" benutzen kann, um den Crawlern der Suchmaschinen ausdrücklich die Seiten zu benennen, die sie gefälligst besuchen sollen? Oder gilt nach wie vor nur "Disallow", um die Seiten auszuschliessen, die nicht indexiert werden sollen?

Moin,

Aus der Suchfibel:

Wenn man einen bestimmten Robot komplett von der Site fernhalten möchte, kann man das tun, indem der Name und dann kein Verzeichnis genannt wird. Wichtig ist der Slash /.

User-agent: EmailCollector
Disallow: /

Läßt man den Slash weg, so kann man die gesamte Site freigeben, in diesem Beispiel für den Robot Spider.

User-agent: Spider
Disallow:

Funktioniert auch für Subdirectories. Die Spider nehmen oft nicht alle Seiten mit, aus Kapazitätsgründen. Dann kommt es auch noch drauf an, wie weit die Seiten weg von der Einstiegsseite verlinks sind. Mehr als 2 Linktiefen und viele Robos geben auf.
Mehr Infos zu robots.txt und Deinem geschilderten Problem gibt es auf http://www.suchfibel.de/6gefundn/6frame6.htm Frisch überarbeitet.

Gruss, kaz

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Stefan Karzauninkat: robots.txt

Beitrag lesen

robots.txt

robots.txt