Peter: mod_rewrite / robots.txt

Beitrag lesen

http://domain.de/[urlcodierter-produktname]_[produkt-id].htm

Das ist die URL, die in robots.txt auftauchen könnte.

wird per mod_rewrite / .htaccess intern umgeleitet auf

http://domain.de/product.php?id=[produkt-id]

Das hingegen ist komplett irrelevant. Wenn keine Links auf diese URL zeigen, und auch kein HTTP-Redirect ausgeliefert wird, wird kein Spider sie jemals abrufen.

Soweit, so gut. Wunderbar, keine Irreführung, in meinen Augen nichts unredliches auszumachen, SEO-technisch nette URLs. Nun ist es so, dass es im Projekt bislang keine robots.txt gab, ich den Bots aber auf diesem Wege gerne das unnötige / unvorteilhafte parsen gewisser Cache-/Include-/etc.-Verzeichnisse ersparen möchte.

Dann schließe die entsprechenden URLs, die die Spider abrufen, per robots.txt aus.

Bei vielen Dateien fällt die Wahl leicht - beispielsweise dann, wenn die Dateien sowieso nur bei aktiver Session und Registrierung etc. relevant wären - 'Disallow' lässt grüssen.

Bedenke: Alles, was du in die robots.txt schreibst, wird dadurch plötzlich bekannt. Auch Verzeichnisse und Seiten, die bislang absolut im Dunkeln lagen, werden plötzlich greifbar.

Bei anderen wird es etwas heikler: Siehe oben genannte 'product.php'. Würde sie von einem Bot ohne Parameter aufgerufen, würde nur eine Fehlermeldung / Exception geliefert. Intuitiv würde ich also bei dieser und auch manch anderer Datei im Hauptverzeichnis sagen: 'Disallow'.

Wird product.php irgendwo als URL referenziert? Wenn nein, warum dann in die robots.txt packen? Sie wird ja sowieso nicht abgerufen.

Checke die Logfiles mal diesbezüglich. Alle URLs, die da drin auftauchen, sind relevant für die robots.txt. Alle URLs, die du dort findest, und die nicht indiziert werden sollen, schreibst du passend in die robots.txt.

Alle anderen URLs, die ja gar keine wirklichen URLs sind, hälst du so geheim, wie's geht.