ad: robots.txt wird von Google ignoriert

Hallo Leute,
worst case - sucht man mit Google nach "Suchbegriff" wird nicht die Seite meines Kunden sondern meine eigene auf Platz 1 angezeigt. Also statt kundeA.org steht kundeA.example.org ganz oben.

Ich stelle Webseiten an denen ich arbeite folgendermaßen online:
www.example.org/kunden/kundeA
Dann erstelle ich die subdomain
kundeA.example.org, die auf obiges Verz. verweist.

Es existiert eine robots.txt im root mit folgendem Inhalt:

User-Agent: *  
Allow: /  
Disallow: /kunden/  
  
User-agent: Googlebot  
Disallow: /*.xml$ 

Also dürfte doch eigentlich kein robot in das Kunden-Verz. reingehen. Mit den Wemastertools von Google kann man das testen. Dort teste ich folgende URL

http://www.example.org/kunden/kundeA/index.php

Ergebnis:
Googlebot: Zugelassen
Googlebot-Mobile: Zugelassen

WARUM? Ich habe jetzt notdürftig meine subdomain kundeA.example.org auf kundeA.org verweisen lassen, so landen die Besucher wenigstens auf der richtigen Seite. Meine Seite lasse ich dagegen gad von Google aus dem Index löschen.
Nur wie kann ich das zukünftig sicher vermeiden?

****

Und warum taucht meine Seite auf Platz eins auf, die Seite vom Kunden (inhaltlich exakt gleich) aber erste auf Seite 3?

Danke und Gruß ad

  1. Macht die Reihenfolge einen Unterschied?
    Also ist

    User-Agent: *
    Allow: /
    Disallow: /kunden/

    etwas anderes wie

    User-Agent: *
    Disallow: /kunden/
    Allow: /

    Überschreib ich damit meine eigene Regel?

    1. Macht die Reihenfolge einen Unterschied?
      Also ist

      User-Agent: *
      Allow: /
      Disallow: /kunden/

      etwas anderes wie

      User-Agent: *
      Disallow: /kunden/
      Allow: /

      Überschreib ich damit meine eigene Regel?

      Es gibt im Robots Exclusion Standard kein "Allow" - das Verhalten ist also, wenn implementiert vom Robot abhängig.

      Ein "Allow: /" erscheint mir aber allgemein etwas unsinnig, da ohnehin alles Erlaubt ist, was nicht explizit verboten ist.

  2. Mal doof gefragt, warum weiß Google überhaupt von "deiner" Seite? Irgendwie muss Google die ja mal gefunden haben, durch einen Link oder jemand hat die Seite dort bekanntgegeben. Machst du vielleicht durch "Disallow: /kunden/" überhaupt erst neugierig, dass es diesen Unterordner gibt?
    Warum gibts zwei Instanzen von der Seite?

    1. Hi

      Mal doof gefragt, warum weiß Google überhaupt von "deiner" Seite?

      genau das frag ich mcih ja auch :)

      Irgendwie muss Google die ja mal gefunden haben, durch einen Link oder jemand hat die Seite dort bekanntgegeben.

      Den link kenne nur ich und mein Kunde.

      Machst du vielleicht durch "Disallow: /kunden/" überhaupt erst neugierig, dass es diesen Unterordner gibt?

      Wen? die bots?

      Warum gibts zwei Instanzen von der Seite?

      Naja, auf meiner Seite wurde entwickelt. Der Kunde sieht den akt. Stand. Erst wenn alles fertig ist, geht sie auf Seiner Domain online. Habe versäumt, seine Seite bei mir zu löschen. Aber genau deswegen habe ich ja das Disallow in der robots.txt

      1. Naja, auf meiner Seite wurde entwickelt. Der Kunde sieht den akt. Stand. Erst wenn alles fertig ist, geht sie auf Seiner Domain online. Habe versäumt, seine Seite bei mir zu löschen. Aber genau deswegen habe ich ja das Disallow in der robots.txt

        Dann sperr' das Ding - aber nicht nur für Suchmaschinen sondern per HTTP-Authentifizierung. Dort hat niemand etwas verloren und jeder der die Baustelle sehen darf, bekommt die Zugangsdaten.

        Alles andere ist nicht seriös.

      2. Hallo ad,

        Hi

        Mal doof gefragt, warum weiß Google überhaupt von "deiner" Seite?

        genau das frag ich mcih ja auch :)

        es ging mal das Gerücht um, dass Googles Chrome alles, was in das Adressfeld (das ja auch Suchfeld ist) eingetippt wurde, nach Hause gefunkt hat, und Google dann die Info für den Suchindex verwertet hat. Wegen Protesten soll das aber nach kurzer Zeit wieder abgeschaltet worden sein.

        Gruß, Jürgen

        1. Hi,

          es ging mal das Gerücht um, dass Googles Chrome alles, was in das Adressfeld (das ja auch Suchfeld ist) eingetippt wurde, nach Hause gefunkt hat, und Google dann die Info für den Suchindex verwertet hat. Wegen Protesten soll das aber nach kurzer Zeit wieder abgeschaltet worden sein.

          Ich bin mir relativ sicher dass er das noch immer macht. Immerhin kommt auch in der Adressleiste eine Vorschlagliste.

          AFAIK ist dass was entfernt wurde die Browser-ID, die früher immer mit gesendet wurde.

          ~dave

          1. Hallo dave,

            Ich bin mir relativ sicher dass er das noch immer macht. Immerhin kommt auch in der Adressleiste eine Vorschlagliste.

            ich glaube, dass Google die URLs, die eingetippt werden, nicht mehr in den Suchindex übernimmt. Es gab da wohl Proteste von Web-Autoren, da deren Testseiten in den Suchergebnissen auftauchten, obwohl sie nirgens verlinkt waren.

            Gruß, Jürgen

            PS Ich habe das seinerzeit nicht weiter verfolgt, daher kann ich hier auch keine Quellen angeben.

            1. ich glaube, dass Google die URLs, die eingetippt werden, nicht mehr in den Suchindex übernimmt. Es gab da wohl Proteste von Web-Autoren, da deren Testseiten in den Suchergebnissen auftauchten, obwohl sie nirgens verlinkt waren.

              Dazu noch was. Es gibt ja Leute die zum Öffnen einer Seite erst mal Google laden, da dann die URL ins Suchfeld eingeben und dann auf den ersten Link im Ergebnis klicken, weil das dann der Link zur Seite ist.
              Gibts wirklich! Ich hab zwar keine Ahnung wie man auf so einen Mist kommt, aber ich hab das selber schon öfter erlebt.
              Was macht Google mit solchen URLs? Suchen die danach auch?
              Ich hab Testprojekte auf offiziellen Webseiten rumliegen, z.B. eine mit aktuellen Änderungen damit der Inhaber der Seite sich die anschauen kann.
              Falls da auch mal so ein Hirn auf die Idee kommt, wird sowas auch automatisch durchforstet?

              1. Hallo Encoder,

                Googles Wege der Informationsbeschaffung sind unergründlich :). Mach doch mal einen Versuch.

                Gruß, Jürgen

                1. Hallo,

                  Googles Wege der Informationsbeschaffung sind unergründlich

                  ... und gründlich. ;-)

                  Ich kenne übrigens auch jemanden, der wie beschrieben vorgeht. Der hat deshalb sogar Google als Startseite im Browser eingestellt. Warum er die gewünschte Adresse erst ins Google-Suchfeld eingibt, anstatt direkt in die Browser-Adressleiste, konnte er mir aber auch nicht erklären.

                  So long,
                   Martin

                  --
                  Der Bäcker schlägt die Fliegen tot
                  Und macht daraus Rosinenbrot.
                  Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(
      3. Mal doof gefragt, warum weiß Google überhaupt von "deiner" Seite?

        genau das frag ich mcih ja auch :)

        Ich vermute, dass Google entsprechende Infos von der Denic bekommt.
        Wenn ich eine Domain registriere, kommt Google innerhalb von 24 Stunden vorbei.

        Ich habs noch nicht mit anderen Domains getestet, aberich hab das bei ca. 20 .de-Domains beobachtet.

        1. Hi!

          Ich vermute, dass Google entsprechende Infos von der Denic bekommt.
          Wenn ich eine Domain registriere, kommt Google innerhalb von 24 Stunden vorbei.

          Ich habs noch nicht mit anderen Domains getestet, aberich hab das bei ca. 20 .de-Domains beobachtet.

          Bei Domains kann ich mir das vorstellen, ja. Aber der OP hat als Testseite nur eine Subdomain angelegt. Das dürfte die Denic meines Wissens gar nicht mitkriegen, oder?

          Viele Grüße,
          Alexander

          1. Bei Domains kann ich mir das vorstellen, ja. Aber der OP hat als Testseite nur eine Subdomain angelegt. Das dürfte die Denic meines Wissens gar nicht mitkriegen, oder?

            Stimmt, das bekommt maximal der DNS-Betreiber mit. Allerdings trifft meine Aussage auf Subdomains nicht zu, da kam Google noch nie vorbei, ohne dass die Sub irgendwo verlinkt war.

            Ich wusste auch mal nicht, woher Google eine meiner Subdomains wusste,aber eine einfache Suche nach genau dieser Subdomain hat mir als Ergebnis die Seite gezeit in dessen Forum ich die Sub mal gepostet hab.

  3. Und warum taucht meine Seite auf Platz eins auf, die Seite vom Kunden (inhaltlich exakt gleich) aber erste auf Seite 3?

    Weil deine Domain schon ein Ranking hat und die Subdomain zumindest einen Teil davon erbt. Somit ist deine Subdomain immer höher im Ranking als die eigentliche Seite.

    Auch könnte die eigentliche Domain wegen Doublecontent abgestraft werden, da deine ja eher da war und somit evtl. die Domain als Kopie gesehen wird. Das ist aber nur eine Vermutung.

    1. Weil deine Domain schon ein Ranking hat und die Subdomain zumindest einen Teil davon erbt. Somit ist deine Subdomain immer höher im Ranking als die eigentliche Seite.

      Auch könnte die eigentliche Domain wegen Doublecontent abgestraft werden, da deine ja eher da war und somit evtl. die Domain als Kopie gesehen wird. Das ist aber nur eine Vermutung.

      Ich hab selten so einen Blödsinn gelesen :)

      1. Ich hab selten so einen Blödsinn gelesen :)

        Und ich halte solche Aussagen ohne Begründung und ohne Quelle für Klugscheisserei.

        1. Ich hab selten so einen Blödsinn gelesen :)

          Und ich halte solche Aussagen ohne Begründung und ohne Quelle für Klugscheisserei.

          Normalerweise stimme ich dir zu, dass eine Information ohne Quelle nicht viel wert ist, aber ich bin es Leid, jedes mal wenn irgendwer irgendwas haarsträbendes von "Duplicate Content" daherfaselt ein paar Matt-Cutts-Links herrauszusuchen, die das Gegenteil belegen und zu posten. Das Archiv ist schon voll damit.

          1. Hi,

            Ich hab selten so einen Blödsinn gelesen :)

            Und ich halte solche Aussagen ohne Begründung und ohne Quelle für Klugscheisserei.

            Normalerweise stimme ich dir zu, dass eine Information ohne Quelle nicht viel wert ist, aber ich bin es Leid, jedes mal wenn irgendwer irgendwas haarsträbendes von "Duplicate Content" daherfaselt ein paar Matt-Cutts-Links herrauszusuchen, die das Gegenteil belegen und zu posten. Das Archiv ist schon voll damit.

            Wenn es dir den Aufwand nicht Wert ist einen Link raus zu suchen, warum postest du dann?
            Zumindest den Hinweis dass es da einen Artikel von Matt Cutts gibt hättest du auch ohne Leid hinzufügen können.

            Ich finde im Forumsarchiv übrigens wenn ich nach Matt Cutts suche keinen Eintrag der auf einen Artikel von ihm über duplicate content verlinkt. Nur über trailing slashes.

            Auch über google konnte ich jetzt nach kurzer Suche keinen Artikel finden, der widerlegt dass die Seite durch duplicate content abgestraft werden könnte.

            Also ich wäre dankbar für einen Link.

            ~dave

            1. Auch über google konnte ich jetzt nach kurzer Suche keinen Artikel finden, der widerlegt dass die Seite durch duplicate content abgestraft werden könnte.

              Mach dich nicht lächerlichm, du bist lange genug dabei um zu wissen, wie man eine Suchmaschine bedient: "Duplicate Content Matt Cutts"

              Also ich wäre dankbar für einen Link.

              Es gibt sogar ein offizielle Statements von Google daz:
              http://googlewebmastercentral-de.blogspot.com/2008/06/duplicate-content-aufgrund-von-scraper.html

              http://googlewebmastercentral-de.blogspot.com/2007/03/duplicate-content-best-practice-bei_08.html

              1. Hi,

                Mach dich nicht lächerlich

                Ich mach mich lächerlich wenn _ich_ will! :-P

                Also ich wäre dankbar für einen Link.

                Es gibt sogar ein offizielle Statements von Google daz:
                http://googlewebmastercentral-de.blogspot.com/2008/06/duplicate-content-aufgrund-von-scraper.html

                http://googlewebmastercentral-de.blogspot.com/2007/03/duplicate-content-best-practice-bei_08.html

                Bei welchem der Links wird jetzt gesagt dass duplicate content nicht abgestraft wird?
                Das steht nur dass sich google recht sicher ist die Seite zu finden, die den original-Inhalt hat.

                Vielleicht bin ich nicht zu doof zum Suchen, sondern zum Lesen?

                ~dave

          2. Normalerweise stimme ich dir zu, dass eine Information ohne Quelle nicht viel wert ist, aber ich bin es Leid, jedes mal wenn irgendwer irgendwas haarsträbendes von "Duplicate Content" daherfaselt ein paar Matt-Cutts-Links herrauszusuchen, die das Gegenteil belegen und zu posten. Das Archiv ist schon voll damit.

            Und deshalb sind meine _beiden_ Aussagen falsch? Irgendwie nicht logisch, dass wegen deiner Aussage auch die Vererbung des PR Blödsinn ist.

            Desweiteren habe ich wegen dem DC ausdrücklich ein "könnte" eingefügt, was deutlich macht, dass ich mir nicht sicher bin und die Aussage weitere Recherchen benötigt, falls der OP Interesse hat.

            Somit bleibt deine Aussage unter "Klugschiss" einzuordnen, da der Wert für den Leser nicht vorhanden ist.

  4. Hi!

    Dann erstelle ich die subdomain
    kundeA.example.org, die auf obiges Verz. verweist.

    Es existiert eine robots.txt im root mit folgendem Inhalt:

    User-Agent: *

    Allow: /
    Disallow: /kunden/

    User-agent: Googlebot
    Disallow: /*.xml$

      
    In welchem Root? In dem von example.org?  
    Wenn ein Bot auf kundeA.example.org geht, wird er vermutlich nicht example.org/robots.txt anfragen, sondern kundeA.example.org/robots.txt, und die existiert nicht (ob die Vermutung stimmt, lässt sich anhand der Serverlogs rausfinden, da müssen ja dann entsprechende 404er drinstehen).  
    Außerdem sieht er, wenn er auf kundeA.example.org ist, ja gar kein /kunden/, sondern wähnt sich im Root (der Subdomain), also trifft das Allow zu und nicht das Disallow.  
      
    Ich würde an Deiner Stelle eine zweite robots.txt in den Kundenordner mit reinlegen und da  
    Disallow: /  
    reinschreiben, das sollte eigentlich helfen.  
      
    Viele Grüße,  
    Alexander
    
  5. Hi,

    WARUM?

    Ja, warum - warum hast du keinen Zugriffschutz, bspw. auf HTTP-Ebene, eingesetzt, solange das Projekt erst in vorläufiger Version auf deiner Seite online steht?

    MfG ChrisB

    --
    RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
    1. Ja, warum - warum hast du keinen Zugriffschutz, bspw. auf HTTP-Ebene, eingesetzt, solange das Projekt erst in vorläufiger Version auf deiner Seite online steht?

      Ja, das interessiert mich auch :)

  6. Hallo Leute,
    worst case - sucht man mit Google nach "Suchbegriff" wird nicht die Seite meines Kunden sondern meine eigene auf Platz 1 angezeigt. Also statt kundeA.org steht kundeA.example.org ganz oben.

    Ich stelle Webseiten an denen ich arbeite folgendermaßen online:
    www.example.org/kunden/kundeA
    Dann erstelle ich die subdomain
    kundeA.example.org, die auf obiges Verz. verweist.

    Was heißt, sie verweist darauf? Offenbar ist der Inhalt unter kundeA.example.org abrufbar.

    Es existiert eine robots.txt im root mit folgendem Inhalt:

    In welchem root? Existiert eine robots.txt unter www.example.org welche darum bittet /kunden/ nicht zu lesen und/oder existiert eine robots.txt unter kundeA.example.org welche darum bittet /kunden/ nicht zu lesen, ein Verzeichnis welches es dort gar nicht gibt?

    Nur wie kann ich das zukünftig sicher vermeiden?

    Sicher? Laß niemanden darauf zugreifen den Du nicht zugreifen lassen möchtest.

    Aber davon wie sicher das ist abgesehen, wenn man die Indexierung regeln will, dann sollte man die Indexierung regeln, und das macht man nicht mit der robots.txt sondern mit den metatags zur Indexierung.

    1. [...] und das macht man nicht mit der robots.txt sondern mit den metatags zur Indexierung.

      Sagt wer? Mir ist kein namhafter Crawler bekannt, der die robots.txt-Files ignoriert.

      1. [...] und das macht man nicht mit der robots.txt sondern mit den metatags zur Indexierung.

        Sagt wer?

        Die Logik.

        Mir ist kein namhafter Crawler bekannt, der die robots.txt-Files ignoriert.

        Mir ist auch niemand bekannt, der in Buchläden geht und ganze Bücher liest, an und?