Stefan Karzauninkat: robots.txt

Beitrag lesen

kann mir jemand sagen, ob man im robots.txt-Dokument ohne Reue "Allow" benutzen kann, um den Crawlern der Suchmaschinen ausdrücklich die Seiten zu benennen, die sie gefälligst besuchen sollen? Oder gilt nach wie vor nur "Disallow", um die Seiten auszuschliessen, die nicht indexiert werden sollen?

Moin,

Aus der Suchfibel:

Wenn man einen bestimmten Robot komplett von der Site fernhalten möchte, kann man das tun, indem der Name und dann kein Verzeichnis genannt wird. Wichtig ist der Slash /.

User-agent: EmailCollector
Disallow: /

Läßt man den Slash weg, so kann man die gesamte Site freigeben, in diesem Beispiel für den Robot Spider.

User-agent: Spider
Disallow:

Funktioniert auch für Subdirectories. Die Spider nehmen oft nicht alle Seiten mit, aus Kapazitätsgründen. Dann kommt es auch noch drauf an, wie weit die Seiten weg von der Einstiegsseite verlinks sind. Mehr als 2 Linktiefen und viele Robos geben auf.
Mehr Infos zu robots.txt und Deinem geschilderten Problem gibt es auf http://www.suchfibel.de/6gefundn/6frame6.htm Frisch überarbeitet.

Gruss, kaz