Thilo: robots.txt

Hallo!

Im selfHTML steht, dass die Datei robots.txt im Hauptverzeichnis der Domain stehen muss und sie nicht verwendet werden kann, wenn man nur ein Verzeichnis mit webspace von einem Provider zugewiesen bekommen hat (z.B. t-online/home/meinName/ oder so ähnlich). Nun ist es bei mir so, dass ich einen Domainname (bei Strato ;-)) habe, dieser aber allerdings sofort auf so ein Verzeichnis (z.B. t-online/home/meinName/) umgeleitet wird. Kann ich die robots.txt doch verwenden?

gruss
Thilo

  1. Wenn die Datei über domain.tld/robots.txt erreichbar ist, sollte das eigentlich kein Problem darstellen.

  2. Hallo Thilo,

    nachdem die robots.txt nicht zwangsläufig von allen Robots genutzt wird und wenn, die Einhaltung der Inhalte immernoch nicht sichergestellt ist, sollte man deren Sinn eh etwas in Frage stellen.
    Andererseits ist sie wohl kaum größer als 2kb und läßt sicher daher auch mal sicherheitshalber ins Verzeichnis legen. Ob sie dann tatsächlich genutzt wird oder nicht ist ja egal. Einfach mal probieren.

    Grüße aus Würzburg
    Julian

  3. Hi Thilo.

    Nun ist es bei mir so, dass ich einen Domainname (bei Strato
    ;-)) habe, dieser aber allerdings sofort auf so ein Verzeichnis
    (z.B. t-online/home/meinName/) umgeleitet wird.

    das heißt, daß Deine Seiten wahlweise unter beiden DNS-Namen ansprechbar sind, ja?

    Kann ich die robots.txt doch verwenden?

    Das ist nicht die interessante Frage.
    Diese lautet vielmehr: In welchen Fällen wird die Seite von einer Suchmaschinen gelesen werden?

    Wenn eine Suchmaschine über Deine Domain kommt und dort (!) eine /robots.txt über den entsprechenden URL ansprechen kann (einen Weiterleitung interessiert die Suchmaschine erst mal nicht, sie ist ja kein Browser), dann wird sie den Inhalt der Robots-Beschreibung lesen.

    Kommt die Suchmaschinen allerdings direkt über Deinen T-Online-Account, dann hast Du keine Chance, weil Du dort den Inhalt des site-relativen URL /robots.txt nicht verändern darfst.

    Eine rotots-Datei innerhalb des T-Online-Accounts dürfte also wertlos sein - eine robots-Datei auf dem Server, der die Weiterleitung macht, wäre dagegen nutzbar, allerdings nur für einen Teil der Zugriffe.

    Beantwortet das Deine Frage?

    Viele Grüße
          Michael

    1. Hallo,

      Wenn eine Suchmaschine über Deine Domain kommt und dort (!) eine /robots.txt über den entsprechenden URL ansprechen kann (einen Weiterleitung interessiert die Suchmaschine erst mal nicht, sie ist ja kein Browser), dann wird sie den Inhalt der Robots-Beschreibung lesen.

      Es kommt auf die Art der Umleitung an: Bei einer Umleitung mittels Meta-Refresh oder Frame wird ja der Web-Space bei Strato genutzt. Dort ist eine robots.txt dann einsetzbar und abzulegen.

      Wird eine Umleitung mittels "Profiumleitung" wie Strato dies nennt gemacht, läuft die komplette Umleitung über einen Proxy, so dass der Domainname, auch innerhalb von Unterverzeichnissen im Browser sichtbar ist. Ich kann auch Dateien in Unterverzeichnissen auf dem T-Online-Webspace direkt über diesen Domiannamen aufrufen. Einen Besucher bzw. Suchmaschinen-Robot ist es nicht möglich, zu unterscheiden, wo die Daten liegen. Hier müsste die robots.txt eigentlich im T-Online-Webspace abgelegt werden, da der Starto-Webspace nicht genutzt wird.

      Wird eine Umleitung mittels .htaccess (RedirectPermanent / http://home.t-online.de/...) gemacht wird, ist eine robots.txt meines Erachtens nicht einsetzbar. Denn hier könnte man zwar Daten auf den Strato-Webspace ablegen, auf ihn zugreifen kann man aber nicht, da alle Abfragen auf die T-Online-Adresse verweisen. (Obwohl ich mir hier nicht ganz sicher bin, ob dies mit dem oben angegebenen Eintrag in der .htaccess erreicht wird, oder ob nur Zugriffe das Root-Verzeichnis selbst umgeleitet werden - sorry ;) Hier müßte Michael noch mal ran, der kennt soch damit besser aus...)

      Nun ja, wenn dies jedenfalls so ist, tritt dieser "Fall" ein...

      Kommt die Suchmaschinen allerdings direkt über Deinen T-Online-Account, dann hast Du keine Chance, weil Du dort den Inhalt des site-relativen URL /robots.txt nicht verändern darfst.

      ...weil es so ist, als ob man die T-Online-URL direkt aufgerufen hätte.

      Eine rotots-Datei innerhalb des T-Online-Accounts dürfte also wertlos sein - eine robots-Datei auf dem Server, der die Weiterleitung macht, wäre dagegen nutzbar, allerdings nur für einen Teil der Zugriffe.

      Sehe ich genauso bis auf der oben genannten Einschränkung der Profi-Umleitung...

      Viele Grüße...

      Alex :)

      1. HI Alex,

        Es kommt auf die Art der Umleitung an:

        Wenn der Robot über die virtuelle URL (Strato) zugreifen will,
        dann wird er eine robots.txt mit dem DNS-Namen dieser
        virtuellen Domain ansprechen.
        Falls die Umleitung so funktioniert, daß auch dieser Zugriff auf robots.txt mit umgeleitet wird, sollte es funktionieren. Wenn nicht, dann nicht.

        Bei einer Umleitung mittels Meta-Refresh oder Frame wird ja
        der Web-Space bei Strato genutzt. Dort ist eine robots.txt
        dann einsetzbar und abzulegen.

        Eben nicht - weil der an /robots.txt des gesamten Servers ja nicht ran kommt, solange er nur ein Verzeichnis dort hat.

        Deshalb wird es bei <meta refresh> nicht funktionieren:

        • Die vordere robots.txt wirkt nicht,
        • die hintere ist nicht zugänglich.

        Wird eine Umleitung mittels "Profiumleitung" wie Strato
        dies nennt gemacht, läuft die komplette Umleitung über
        einen Proxy, so dass der Domainname, auch innerhalb von
        Unterverzeichnissen im Browser sichtbar ist.

        Und damit würde auch der Zugriff auf die robots.txt umgeleitet.

        Einen Besucher bzw. Suchmaschinen-Robot ist es nicht
        möglich, zu unterscheiden, wo die Daten liegen.

        Probiere einfach aus, ob Du die robots.txt direkt via Browser ansprechen kannst! (Separat mit jedem der beiden DNS-Namen.)
        Wenn das geht, dann schafft es die Suchmaschine ebenfalls.

        Hier müsste die robots.txt eigentlich im T-Online-Webspace
        abgelegt werden, da der Starto-Webspace nicht genutzt wird.

        Wird eine Umleitung mittels .htaccess (RedirectPermanent /
        http://home.t-online.de/...) gemacht wird, ist eine
        robots.txt meines Erachtens nicht einsetzbar.

        Wieso soll der Zugriff auf diesen URL nicht ebenfalls umgeschrieben werden können?

        Viele Grüße
              Michael

    2. Hi Michael

      Nun ist es bei mir so, dass ich einen Domainname (bei Strato
      ;-)) habe, dieser aber allerdings sofort auf so ein Verzeichnis
      (z.B. t-online/home/meinName/) umgeleitet wird.

      das heißt, daß Deine Seiten wahlweise unter beiden DNS-Namen ansprechbar sind, ja?

      Genau!

      Kann ich die robots.txt doch verwenden?

      Das ist nicht die interessante Frage.
      Diese lautet vielmehr: In welchen Fällen wird die Seite von einer Suchmaschinen gelesen werden?

      Wenn eine Suchmaschine über Deine Domain kommt und dort (!) eine /robots.txt über den entsprechenden URL ansprechen kann (einen Weiterleitung interessiert die Suchmaschine erst mal nicht, sie ist ja kein Browser), dann wird sie den Inhalt der Robots-Beschreibung lesen.

      o.k., wenn nun da keine robots.txt vorhanden ist, wird dann die such maschine in der weiterleitung die robots.txt auswerten?
      ich kann z. B. im Browser www.domainNameVonStrato.de/index.htm
      angeben, wobei index.htm auf dem t-online/home account liegt.

      Kommt die Suchmaschinen allerdings direkt über Deinen T-Online-Account, dann hast Du keine Chance, weil Du dort den Inhalt des site-relativen URL /robots.txt nicht verändern darfst.

      ist klar!

      gruss

      Thilo