robots.txt von Beat, 14.05.2008 20:35

robots.txt

Beat Homepage des Autors 14.05.2008 20:35

sonstiges

Dadurch kam z.B. sowas zustande:
http://www.sudoku-space.de/sudoku-drucken.php/pdf/3-4-2008/pdf/13-4-2008/sudoku-hilfe.php

Mein Webserver (Lighttpd, k.a. ob das beim Apache auch so ist) hält alles hinter http://www.sudoku-space.de/sudoku-drucken.php/ für Parameter und gibt sudoku-drucken.php aus. Dadurch wurde die Datei X-Mal in den Suchmaschinenindex aufgenommen.

Kann man per Robots.txt es irgendwie hinbekommen, dass die Datei sudoku-drucken.php zwar erlaubt ist, aber sobald da noch irgendwas danach kommt verboten?

Nicht nach robots-txt Syntax, sondern nur nach sehr wichtigen aber proprietären Sonderregeln.

"*" gilt als Platzhalter für beliebige (viele) Zeichen
"$" bezeichnet das Ende der URL.
Allow überschreibt ein vorheriges Verbot.

Beispiel
Dissallow: sudoku-drucken.php*
Allow: sudoku-drucken.php$

Google und Yahoo interpretieren es nebst einigen anderen.

Tipp:

Ändere wenn möglich die bestehende url zu deiner Doku und gib via .htaccess ein 410 zur alten Adresse aus. Das ist effizienter als im robots.txt das zu flicken.

mfg Beat

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Beat: robots.txt

Beitrag lesen

robots.txt

robots.txt