3vi1: robots.txt

echo ($light == true) ? 'Guten Tag,' : 'Guten Abend,';

ich hatte mal das Problem das durch Force Download bei PDF Dokumenten in Verbindung mit mit relativen Links auf der Seite sehr seltsame Linkkonstrukte von den Suchmaschinen indiziert wurden.

Dadurch kam z.B. sowas zustande:
http://www.sudoku-space.de/sudoku-drucken.php/pdf/3-4-2008/pdf/13-4-2008/sudoku-hilfe.php

Mein Webserver (Lighttpd, k.a. ob das beim Apache auch so ist) hält alles hinter http://www.sudoku-space.de/sudoku-drucken.php/ für Parameter und gibt sudoku-drucken.php aus. Dadurch wurde die Datei X-Mal in den Suchmaschinenindex aufgenommen.

Kann man per Robots.txt es irgendwie hinbekommen, dass die Datei sudoku-drucken.php zwar erlaubt ist, aber sobald da noch irgendwas danach kommt verboten?

Ich habe das Problem schon durch das umstellen auf absolute Links gelöst aber wüsste es trotzdem gerne für die Zukunft ;)

Grüße

Markus

--
Langeweile? Sudoku online spielen ;)
  1. Dadurch kam z.B. sowas zustande:
    http://www.sudoku-space.de/sudoku-drucken.php/pdf/3-4-2008/pdf/13-4-2008/sudoku-hilfe.php

    Mein Webserver (Lighttpd, k.a. ob das beim Apache auch so ist) hält alles hinter http://www.sudoku-space.de/sudoku-drucken.php/ für Parameter und gibt sudoku-drucken.php aus. Dadurch wurde die Datei X-Mal in den Suchmaschinenindex aufgenommen.

    Kann man per Robots.txt es irgendwie hinbekommen, dass die Datei sudoku-drucken.php zwar erlaubt ist, aber sobald da noch irgendwas danach kommt verboten?

    Nicht nach robots-txt Syntax, sondern nur nach sehr wichtigen aber proprietären Sonderregeln.

    "*" gilt als Platzhalter für beliebige (viele) Zeichen
    "$" bezeichnet das Ende der URL.
    Allow überschreibt ein vorheriges Verbot.

    Beispiel
    Dissallow: sudoku-drucken.php*
    Allow: sudoku-drucken.php$

    Google und Yahoo interpretieren es nebst einigen anderen.

    Tipp:

    Ändere wenn möglich die bestehende url zu deiner Doku und gib via .htaccess ein 410 zur alten Adresse aus. Das ist effizienter als im robots.txt das zu flicken.

    mfg Beat

    1. echo ($light == true) ? 'Guten Tag,' : 'Guten Abend,';

      Tipp:

      Ändere wenn möglich die bestehende url zu deiner Doku und gib via .htaccess ein 410 zur alten Adresse aus. Das ist effizienter als im robots.txt das zu flicken.

      Stimmt das wäre auch einfachsten gewesen. Schade hätte gleich hier fragen sollen, danke.

      Grüße

      Markus

      --
      Langeweile? Sudoku online spielen ;)
  2. http://www.sudoku-space.de/sudoku-drucken.php/pdf/3-4-2008/pdf/13-4-2008/sudoku-hilfe.php

    Mein Webserver (Lighttpd, k.a. ob das beim Apache auch so ist) hält alles hinter http://www.sudoku-space.de/sudoku-drucken.php/ für Parameter und gibt sudoku-drucken.php aus.

    Kann man per Robots.txt es irgendwie hinbekommen

    Nicht an den Symptomen rumdoktern, sondern die Ursache beseitigen. Dein Problem segelt im Webserver unter dem Namen PATH_INFO. Im Apache ist dafür die Option AcceptPathInfo verantwortlich, bei lighttpd erscheint zumindest der Begriff in der Doku, vermutlich gibt es dort auch eine AcceptPathInfo-ähnliche Option.

    1. echo ($light == true) ? 'Guten Tag,' : 'Guten Abend,';

      leider ist PathInfo in Lighttpd bis jetzt noch nicht deaktivierbar, das wurde mir dort schon im Forum gesagt. Trotzdem danke.

      Grüße

      Markus

      --
      Langeweile? Sudoku online spielen ;)