Blackiii: Auch absolute Pfade in der robots.txt erlaubt?

Hallo liebe Forumsgemeinde,

ich habe folgende Frage: Wie teile ich einem Robot mit, dass er eine URL nicht in seinem Index aufnehmen soll.
z.B.

Sowohl
http://www.beispiel-xyz.com
als auch
http://www.beispiel2-abc.com

verweisen auf meine Homepage. Ich möchte aber dass der Crawler "http://www.beispiel2-abc.com" nicht in seinem Index aufnimmt sondern nur die url ".... xyz.com". Wie stelle ich das an? Die angaben in der robots.txt sind alle relativ.

User-agent: *
Disallow: /xxx/
Disallow: /yyy.html

Kann ich in der robots.txt einfach auch einen absoluten Pfad angeben? Also so:

User-agent: *
Disallow: http://www.beispiel2-abc.com/

Vielen Dank für eure Bemühungen!´!

  1. Hi,

    Ich möchte aber dass der Crawler "http://www.beispiel2-abc.com" nicht in seinem Index aufnimmt sondern nur die url ".... xyz.com". Wie stelle ich das an?

    indem Du je nach Domain bzw. Host eine andere robots.txt auslieferst.

    Cheatah

    --
    X-Self-Code: sh:( fo:} ch:~ rl:° br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
    X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
    X-Will-Answer-Email: No
    X-Please-Search-Archive-First: Absolutely Yes
    1. indem Du je nach Domain bzw. Host eine andere robots.txt auslieferst.

      Wie stelle ich das am besten an? Mit mod-rewrite?

      Danke!

      1. Hi,

        Wie stelle ich das am besten an? Mit mod-rewrite?

        mod_rewrite wäre in der Tat ein Weg, ja. Alternativ kannst Du auch (quasi) jede andere serverseitige Technik einsetzen, von diversen Methoden der Serverkonfiguration bis zu Programmiersprachen.

        Cheatah

        --
        X-Self-Code: sh:( fo:} ch:~ rl:° br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
        X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
        X-Will-Answer-Email: No
        X-Please-Search-Archive-First: Absolutely Yes
        1. Hallo Cheatah,

          mod_rewrite wäre in der Tat ein Weg, ja.

          ich danke dir für deine Hilfe!!! Hast mir genau den richtigen Denkanstoß gegeben. Mit rewrite funktioniert es tadelos!

          Für alle anderen, falls ihr mal vor dem selben Problem stehts:
          Hier der Code welcher in die htaccess Datei reinmuss

          RewriteEngine On
          RewriteCond %{HTTP_HOST} ^(www.)?domain-welche-eine-andere-robotstxt-erhalten-soll.com
          RewriteRule ^robots.txt$ /robots_crawlen_verbieten.txt [L]

          Nochmals Danke für deine Hilfe!

          1. Hi,

            Nochmals Danke für deine Hilfe!

            danke dafür, dass Du sie so verstanden hast, wie sie gemeint war; und auch dafür, dass Du die von Dir gefundene Lösung präsentiert hast. Beides ist leider nicht mehr selbstverständlich.

            Cheatah

            --
            X-Self-Code: sh:( fo:} ch:~ rl:° br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
            X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
            X-Will-Answer-Email: No
            X-Please-Search-Archive-First: Absolutely Yes