Weiterleitung / Cloaking von Camping_RIDER, 05.05.2015 22:40

Weiterleitung / Cloaking

Camping_RIDER Homepage des Autors 05.05.2015 22:40

Aloha ;)

Hallo Camping_RIDER, bist du noch da? (oder wer sonst helfen kann/möchte)

Ja, ich lebe noch :) Ich bin allerdings aktuell zu beschäftigt um regelmäßiger vorbeizuschauen, daher meine Passivität ;)

Alles scheint zu funktionieren, ich weiß nur nicht, ob WIRKLICH alles funktioniert...

Ist die robots.txt Datei so OK?

Soweit ich das beurteilen kann, ja. Bin da aber kein Experte. Ich interpretiere das, was im Wiki steht, so, dass das passt.

Ist es in Ordnung alle 4 Dateien im gleichen, einen Folder zu verwenden? (Dazu gabe es keine Hinweise in dem Artikel.)

Prinzipiell sehe ich da kein Problem. Aber...

Wirken sich .htaccess und robots.txt dann nur in diesem Folder aus?

...genau. Und da liegt sicher ein Problem. Das Wiki sagt mir:

Die robots.txt muss unter diesem Namen (alle Buchstaben klein geschrieben) im Wurzelverzeichnis der Web-Dateien der Domain abgelegt werden. Wenn Sie also einen Domain-Namen example.org haben, dann muss die robots.txt in dem Verzeichnis abgelegt werden, in dem auch die oberste Einstiegsdatei von www.example.org liegt. Der URI wäre also http://www.example.org/robots.txt. Nur so kann sie von Suchmaschinen-Robots, die das Projekt aufsuchen, gefunden werden. Quelle: Wiki

d.h. du darfst gerade die robots.txt eben NICHT in ein Unterverzeichnis legen. Was die htaccess angeht ist das in Ordnung (sofern sich die Regeln darin eben nur auf den Ordner "out" beziehen, denn...)

Wirkt sich die höher liegende .htaccess (anderer Inhalt; im [domain2.net] Folder) auch auf den [out] Folder (darunter liegend) aus?

...ja, ganz genau. .htaccess gilt immer für das aktuelle und alle darunter liegenden Verzeichnisse.

Sollte man robots.txt besser in [public_html] haben und von dort aus disallowed Folders für alle Domains definieren?

Nein. robots.txt ist eine "proprietäre" (wenn man das so nennen kann) Technik, die nicht standardisiert ist und insbesondere nicht von deinem Webserver verwaltet wird. Die Suchmaschinen fordern, wenn sie auf eine Domain zugreifen, die robots.txt an - sofern es diese gibt. Das bedingt, wie oben geschrieben, dass die robots.txt exakt im Wurzelverzeichnis der Domain liegt, die betroffen ist. Im drüberliegenden Verzeichnis hätte die Suchmaschine im Zweifelsfall ja auch keinen Zugriff auf die robots.txt

Eigentlich will ich immer nur, dass die index.html Dateien von den Robots registriert werden. Wie geht das am einfachsten?

Imho ist das auch im Interesse der Robots. Auf .htaccess kann der robot sowieso nicht zugreifen. Andere Dateien, z.B. eine index.php, kannst du natürlich per robots.txt ausschließen...

Disallow: /newsticker.shtml


...auch wenn ich mich immer frag, wem dieses extreme Rumgefummle am Suchmaschinen-Crawl-Verhalten wirklich was bringen soll ;) Sicherheitsrelevante Fragen dürfen sich sowieso nicht auf robots.txt verlassen (denn dessen Einhaltung ist rein freiwillig) und die Suchmaschinen wissen meist schon selber, was gut für sie ist...


> 7. Oder handelt es sich bei den Addon Domains um völlig unabhängige Bereiche und man muss einen robots.txt in jedem domainx.... Folder haben?

Ja. Siehe oben.


> 8. Letzte Frage (am Rande): Ich verstehe so einigermaßen, was in index.php passiert, aber was macht eigentlich diese RewriteRule in .htaccess?

RewriteRules in .htaccess biegen Anfragen auf ein Skript um. Z.B. könntest du wollen, dass dein Webserver alle Anfragen, die kommen, an ein Skript weiterleitet. Z.B. um die Ausgabe manipulieren zu können. So funktionieren AFAIK viele der sprechenden URL's, die man real oft sieht.

Beispiel: Anfrage an http://meineDomain.net/xyz/abc

1.: Ohne RewriteRule - der Webserver schaut ins Verzeichnis /xyz/abc, sucht dort nach einer index.html, einer index.php, (o.ä.) und liefert das dann aus

2.: Mit RewriteRule vom Verzeichnis /xyz auf das Skript /php/output.php - der Webserver bemerkt die RewriteRule und schaut überhaupt nicht ins Verzeichnis /xyz/abc, sondern führt das Skript /php/output.php aus. Das kennt den ursprünglichen URI und kann seine Ausgabe daran entsprechend anpassen. Das Verzeichnis /xyz/abc muss - obwohl der User sich scheinbar darin befindet - nicht mal existieren. Auch bei einem Aufruf von /xyz/def landet die Anfrage wieder bei besagtem Skript.

Die RewriteRules können beliebig komplex oder allgemein sein, das kommt auf die konkrete Anwendung an. Sie können nur Anfragen mit bestimmten Dateiendungen abfangen, oder Anfragen auf bestimmte Verzeichnisse, oder eben - alles ;)


> Vielen Dank!

Gern geschehen.

Grüße,

RIDER



-- 
Camping_RIDER a.k.a. Riders Flame a.k.a. Janosch Zoller
  
Erreichbar meist Mittwochs ab 21 Uhr im Self-TS (ts.selfhtml.org) oder sonst - wenn online - auf dem [eigenen TeamSpeak-Server](http://www.tsviewer.com/index.php?page=ts_viewer&ID=1060332) (fritz.campingrider.de). 
  
  
# [Facebook](http://www.tsviewer.com/index.php?page=ts_viewer&ID=1060332) # [Twitter](https://twitter.com/Camping_RIDER) # [Steam](http://steamcommunity.com/id/Camping_RIDER) # [YouTube](https://www.youtube.com/user/RidersFlame) # [Self-Wiki](http://wiki.selfhtml.org/wiki/Benutzer:Camping_RIDER) #
  
  
 ch:? rl:| br:> n4:? ie:% mo:| va:) js:) de:> zu:) fl:( ss:| ls:[

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Camping_RIDER: Weiterleitung / Cloaking

Beitrag lesen

Weiterleitung / Cloaking

Weiterleitung / Cloaking