Beat: robots.txt

Beitrag lesen

Dadurch kam z.B. sowas zustande:
http://www.sudoku-space.de/sudoku-drucken.php/pdf/3-4-2008/pdf/13-4-2008/sudoku-hilfe.php

Mein Webserver (Lighttpd, k.a. ob das beim Apache auch so ist) hält alles hinter http://www.sudoku-space.de/sudoku-drucken.php/ für Parameter und gibt sudoku-drucken.php aus. Dadurch wurde die Datei X-Mal in den Suchmaschinenindex aufgenommen.

Kann man per Robots.txt es irgendwie hinbekommen, dass die Datei sudoku-drucken.php zwar erlaubt ist, aber sobald da noch irgendwas danach kommt verboten?

Nicht nach robots-txt Syntax, sondern nur nach sehr wichtigen aber proprietären Sonderregeln.

"*" gilt als Platzhalter für beliebige (viele) Zeichen
"$" bezeichnet das Ende der URL.
Allow überschreibt ein vorheriges Verbot.

Beispiel
Dissallow: sudoku-drucken.php*
Allow: sudoku-drucken.php$

Google und Yahoo interpretieren es nebst einigen anderen.

Tipp:

Ändere wenn möglich die bestehende url zu deiner Doku und gib via .htaccess ein 410 zur alten Adresse aus. Das ist effizienter als im robots.txt das zu flicken.

mfg Beat