robots.txt wird von Google ignoriert von Der Martin, 07.01.2012 11:27

robots.txt wird von Google ignoriert

ad 16.12.2011 11:49

sonstiges

Hallo Leute,
worst case - sucht man mit Google nach "Suchbegriff" wird nicht die Seite meines Kunden sondern meine eigene auf Platz 1 angezeigt. Also statt kundeA.org steht kundeA.example.org ganz oben.

Ich stelle Webseiten an denen ich arbeite folgendermaßen online:
www.example.org/kunden/kundeA
Dann erstelle ich die subdomain
kundeA.example.org, die auf obiges Verz. verweist.

Es existiert eine robots.txt im root mit folgendem Inhalt:

User-Agent: *  
Allow: /  
Disallow: /kunden/  
  
User-agent: Googlebot  
Disallow: /*.xml$

Also dürfte doch eigentlich kein robot in das Kunden-Verz. reingehen. Mit den Wemastertools von Google kann man das testen. Dort teste ich folgende URL

http://www.example.org/kunden/kundeA/index.php

Ergebnis:
Googlebot: Zugelassen
Googlebot-Mobile: Zugelassen

WARUM? Ich habe jetzt notdürftig meine subdomain kundeA.example.org auf kundeA.org verweisen lassen, so landen die Besucher wenigstens auf der richtigen Seite. Meine Seite lasse ich dagegen gad von Google aus dem Index löschen.
Nur wie kann ich das zukünftig sicher vermeiden?

****

Und warum taucht meine Seite auf Platz eins auf, die Seite vom Kunden (inhaltlich exakt gleich) aber erste auf Seite 3?

Danke und Gruß ad

Beitrag melden

– Informationen zu den Bewertungsregeln

robots.txt wird von Google ignoriert
ad 16.12.2011 11:52

sonstiges
– Informationen zu den Bewertungsregeln
Macht die Reihenfolge einen Unterschied?
Also ist

User-Agent: *
Allow: /
Disallow: /kunden/

etwas anderes wie

User-Agent: *
Disallow: /kunden/
Allow: /

Überschreib ich damit meine eigene Regel?
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. robots.txt wird von Google ignoriert
  
  suit Homepage des Autors 16.12.2011 11:56
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Macht die Reihenfolge einen Unterschied?
  Also ist
  
  User-Agent: *
  Allow: /
  Disallow: /kunden/
  
  etwas anderes wie
  
  User-Agent: *
  Disallow: /kunden/
  Allow: /
  
  Überschreib ich damit meine eigene Regel?
  
  Es gibt im Robots Exclusion Standard kein "Allow" - das Verhalten ist also, wenn implementiert vom Robot abhängig.
  
  Ein "Allow: /" erscheint mir aber allgemein etwas unsinnig, da ohnehin alles Erlaubt ist, was nicht explizit verboten ist.
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
robots.txt wird von Google ignoriert
Encoder 16.12.2011 11:57

sonstiges
– Informationen zu den Bewertungsregeln
Mal doof gefragt, warum weiß Google überhaupt von "deiner" Seite? Irgendwie muss Google die ja mal gefunden haben, durch einen Link oder jemand hat die Seite dort bekanntgegeben. Machst du vielleicht durch "Disallow: /kunden/" überhaupt erst neugierig, dass es diesen Unterordner gibt?
Warum gibts zwei Instanzen von der Seite?
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. robots.txt wird von Google ignoriert
  
  ad 16.12.2011 12:08
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Hi
  
  Mal doof gefragt, warum weiß Google überhaupt von "deiner" Seite?
  
  genau das frag ich mcih ja auch :)
  
  Irgendwie muss Google die ja mal gefunden haben, durch einen Link oder jemand hat die Seite dort bekanntgegeben.
  
  Den link kenne nur ich und mein Kunde.
  
  Machst du vielleicht durch "Disallow: /kunden/" überhaupt erst neugierig, dass es diesen Unterordner gibt?
  
  Wen? die bots?
  
  Warum gibts zwei Instanzen von der Seite?
  
  Naja, auf meiner Seite wurde entwickelt. Der Kunde sieht den akt. Stand. Erst wenn alles fertig ist, geht sie auf Seiner Domain online. Habe versäumt, seine Seite bei mir zu löschen. Aber genau deswegen habe ich ja das Disallow in der robots.txt
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. robots.txt wird von Google ignoriert
    
    suit Homepage des Autors 16.12.2011 12:19
    
    sonstiges
    
    +4 Informationen zu den Bewertungsregeln
    Naja, auf meiner Seite wurde entwickelt. Der Kunde sieht den akt. Stand. Erst wenn alles fertig ist, geht sie auf Seiner Domain online. Habe versäumt, seine Seite bei mir zu löschen. Aber genau deswegen habe ich ja das Disallow in der robots.txt
    
    Dann sperr' das Ding - aber nicht nur für Suchmaschinen sondern per HTTP-Authentifizierung. Dort hat niemand etwas verloren und jeder der die Baustelle sehen darf, bekommt die Zugangsdaten.
    
    Alles andere ist nicht seriös.
    Beitrag melden
    
    +4
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
  2. robots.txt wird von Google ignoriert
    
    JürgenB Homepage des Autors 16.12.2011 12:55
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    Hallo ad,
    
    Hi
    
    Mal doof gefragt, warum weiß Google überhaupt von "deiner" Seite?
    
    genau das frag ich mcih ja auch :)
    
    es ging mal das Gerücht um, dass Googles Chrome alles, was in das Adressfeld (das ja auch Suchfeld ist) eingetippt wurde, nach Hause gefunkt hat, und Google dann die Info für den Suchindex verwertet hat. Wegen Protesten soll das aber nach kurzer Zeit wieder abgeschaltet worden sein.
    
    Gruß, Jürgen
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. robots.txt wird von Google ignoriert
      
      dave 16.12.2011 13:05
      
      sonstiges
      
      – Informationen zu den Bewertungsregeln
      
      Hi,
      
      es ging mal das Gerücht um, dass Googles Chrome alles, was in das Adressfeld (das ja auch Suchfeld ist) eingetippt wurde, nach Hause gefunkt hat, und Google dann die Info für den Suchindex verwertet hat. Wegen Protesten soll das aber nach kurzer Zeit wieder abgeschaltet worden sein.
      
      Ich bin mir relativ sicher dass er das noch immer macht. Immerhin kommt auch in der Adressleiste eine Vorschlagliste.
      
      AFAIK ist dass was entfernt wurde die Browser-ID, die früher immer mit gesendet wurde.
      
      ~dave
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. robots.txt wird von Google ignoriert
        
        JürgenB Homepage des Autors 17.12.2011 09:47
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo dave,
        
        Ich bin mir relativ sicher dass er das noch immer macht. Immerhin kommt auch in der Adressleiste eine Vorschlagliste.
        
        ich glaube, dass Google die URLs, die eingetippt werden, nicht mehr in den Suchindex übernimmt. Es gab da wohl Proteste von Web-Autoren, da deren Testseiten in den Suchergebnissen auftauchten, obwohl sie nirgens verlinkt waren.
        
        Gruß, Jürgen
        
        PS Ich habe das seinerzeit nicht weiter verfolgt, daher kann ich hier auch keine Quellen angeben.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt wird von Google ignoriert
        
        Encoder 07.01.2012 11:07
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        ich glaube, dass Google die URLs, die eingetippt werden, nicht mehr in den Suchindex übernimmt. Es gab da wohl Proteste von Web-Autoren, da deren Testseiten in den Suchergebnissen auftauchten, obwohl sie nirgens verlinkt waren.
        
        Dazu noch was. Es gibt ja Leute die zum Öffnen einer Seite erst mal Google laden, da dann die URL ins Suchfeld eingeben und dann auf den ersten Link im Ergebnis klicken, weil das dann der Link zur Seite ist.
        Gibts wirklich! Ich hab zwar keine Ahnung wie man auf so einen Mist kommt, aber ich hab das selber schon öfter erlebt.
        Was macht Google mit solchen URLs? Suchen die danach auch?
        Ich hab Testprojekte auf offiziellen Webseiten rumliegen, z.B. eine mit aktuellen Änderungen damit der Inhaber der Seite sich die anschauen kann.
        Falls da auch mal so ein Hirn auf die Idee kommt, wird sowas auch automatisch durchforstet?
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt wird von Google ignoriert
        
        JürgenB Homepage des Autors 07.01.2012 11:12
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo Encoder,
        
        Googles Wege der Informationsbeschaffung sind unergründlich :). Mach doch mal einen Versuch.
        
        Gruß, Jürgen
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt wird von Google ignoriert
        
        Der Martin 07.01.2012 11:27
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hallo,
        
        Googles Wege der Informationsbeschaffung sind unergründlich
        
        ... und gründlich. ;-)
        
        Ich kenne übrigens auch jemanden, der wie beschrieben vorgeht. Der hat deshalb sogar Google als Startseite im Browser eingestellt. Warum er die gewünschte Adresse erst ins Google-Suchfeld eingibt, anstatt direkt in die Browser-Adressleiste, konnte er mir aber auch nicht erklären.
        
        So long,
        Martin
        
        --
        Der Bäcker schlägt die Fliegen tot
        Und macht daraus Rosinenbrot.
        Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
  3. robots.txt wird von Google ignoriert
    
    Multi 16.12.2011 13:12
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    Mal doof gefragt, warum weiß Google überhaupt von "deiner" Seite?
    
    genau das frag ich mcih ja auch :)
    
    Ich vermute, dass Google entsprechende Infos von der Denic bekommt.
    Wenn ich eine Domain registriere, kommt Google innerhalb von 24 Stunden vorbei.
    
    Ich habs noch nicht mit anderen Domains getestet, aberich hab das bei ca. 20 .de-Domains beobachtet.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. robots.txt wird von Google ignoriert
      
      Alex 16.12.2011 16:41
      
      sonstiges
      
      – Informationen zu den Bewertungsregeln
      
      Hi!
      
      Ich vermute, dass Google entsprechende Infos von der Denic bekommt.
      Wenn ich eine Domain registriere, kommt Google innerhalb von 24 Stunden vorbei.
      
      Ich habs noch nicht mit anderen Domains getestet, aberich hab das bei ca. 20 .de-Domains beobachtet.
      
      Bei Domains kann ich mir das vorstellen, ja. Aber der OP hat als Testseite nur eine Subdomain angelegt. Das dürfte die Denic meines Wissens gar nicht mitkriegen, oder?
      
      Viele Grüße,
      Alexander
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. robots.txt wird von Google ignoriert
        
        Multi 18.12.2011 12:39
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Bei Domains kann ich mir das vorstellen, ja. Aber der OP hat als Testseite nur eine Subdomain angelegt. Das dürfte die Denic meines Wissens gar nicht mitkriegen, oder?
        
        Stimmt, das bekommt maximal der DNS-Betreiber mit. Allerdings trifft meine Aussage auf Subdomains nicht zu, da kam Google noch nie vorbei, ohne dass die Sub irgendwo verlinkt war.
        
        Ich wusste auch mal nicht, woher Google eine meiner Subdomains wusste,aber eine einfache Suche nach genau dieser Subdomain hat mir als Ergebnis die Seite gezeit in dessen Forum ich die Sub mal gepostet hab.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
robots.txt wird von Google ignoriert
Multi 16.12.2011 13:16

sonstiges
– Informationen zu den Bewertungsregeln
Und warum taucht meine Seite auf Platz eins auf, die Seite vom Kunden (inhaltlich exakt gleich) aber erste auf Seite 3?

Weil deine Domain schon ein Ranking hat und die Subdomain zumindest einen Teil davon erbt. Somit ist deine Subdomain immer höher im Ranking als die eigentliche Seite.

Auch könnte die eigentliche Domain wegen Doublecontent abgestraft werden, da deine ja eher da war und somit evtl. die Domain als Kopie gesehen wird. Das ist aber nur eine Vermutung.
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. robots.txt wird von Google ignoriert
  
  suit Homepage des Autors 16.12.2011 14:09
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Weil deine Domain schon ein Ranking hat und die Subdomain zumindest einen Teil davon erbt. Somit ist deine Subdomain immer höher im Ranking als die eigentliche Seite.
  
  Auch könnte die eigentliche Domain wegen Doublecontent abgestraft werden, da deine ja eher da war und somit evtl. die Domain als Kopie gesehen wird. Das ist aber nur eine Vermutung.
  
  Ich hab selten so einen Blödsinn gelesen :)
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. robots.txt wird von Google ignoriert
    
    Multi 16.12.2011 22:52
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    Ich hab selten so einen Blödsinn gelesen :)
    
    Und ich halte solche Aussagen ohne Begründung und ohne Quelle für Klugscheisserei.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. robots.txt wird von Google ignoriert
      
      suit Homepage des Autors 17.12.2011 12:09
      
      sonstiges
      
      – Informationen zu den Bewertungsregeln
      
      Ich hab selten so einen Blödsinn gelesen :)
      
      Und ich halte solche Aussagen ohne Begründung und ohne Quelle für Klugscheisserei.
      
      Normalerweise stimme ich dir zu, dass eine Information ohne Quelle nicht viel wert ist, aber ich bin es Leid, jedes mal wenn irgendwer irgendwas haarsträbendes von "Duplicate Content" daherfaselt ein paar Matt-Cutts-Links herrauszusuchen, die das Gegenteil belegen und zu posten. Das Archiv ist schon voll damit.
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. robots.txt wird von Google ignoriert
        
        dave 17.12.2011 13:13
        
        sonstiges
        
        +1 Informationen zu den Bewertungsregeln
        
        Hi,
        
        Ich hab selten so einen Blödsinn gelesen :)
        
        Und ich halte solche Aussagen ohne Begründung und ohne Quelle für Klugscheisserei.
        
        Normalerweise stimme ich dir zu, dass eine Information ohne Quelle nicht viel wert ist, aber ich bin es Leid, jedes mal wenn irgendwer irgendwas haarsträbendes von "Duplicate Content" daherfaselt ein paar Matt-Cutts-Links herrauszusuchen, die das Gegenteil belegen und zu posten. Das Archiv ist schon voll damit.
        
        Wenn es dir den Aufwand nicht Wert ist einen Link raus zu suchen, warum postest du dann?
        Zumindest den Hinweis dass es da einen Artikel von Matt Cutts gibt hättest du auch ohne Leid hinzufügen können.
        
        Ich finde im Forumsarchiv übrigens wenn ich nach Matt Cutts suche keinen Eintrag der auf einen Artikel von ihm über duplicate content verlinkt. Nur über trailing slashes.
        
        Auch über google konnte ich jetzt nach kurzer Suche keinen Artikel finden, der widerlegt dass die Seite durch duplicate content abgestraft werden könnte.
        
        Also ich wäre dankbar für einen Link.
        
        ~dave
        
        Beitrag melden
        
        +1
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt wird von Google ignoriert
        
        suit Homepage des Autors 18.12.2011 12:12
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Auch über google konnte ich jetzt nach kurzer Suche keinen Artikel finden, der widerlegt dass die Seite durch duplicate content abgestraft werden könnte.
        
        Mach dich nicht lächerlichm, du bist lange genug dabei um zu wissen, wie man eine Suchmaschine bedient: "Duplicate Content Matt Cutts"
        
        Also ich wäre dankbar für einen Link.
        
        Es gibt sogar ein offizielle Statements von Google daz:
        http://googlewebmastercentral-de.blogspot.com/2008/06/duplicate-content-aufgrund-von-scraper.html
        
        http://googlewebmastercentral-de.blogspot.com/2007/03/duplicate-content-best-practice-bei_08.html
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        robots.txt wird von Google ignoriert
        
        dave 19.12.2011 20:39
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        Mach dich nicht lächerlich
        
        Ich mach mich lächerlich wenn _ich_ will! :-P
        
        Also ich wäre dankbar für einen Link.
        
        Es gibt sogar ein offizielle Statements von Google daz:
        http://googlewebmastercentral-de.blogspot.com/2008/06/duplicate-content-aufgrund-von-scraper.html
        
        http://googlewebmastercentral-de.blogspot.com/2007/03/duplicate-content-best-practice-bei_08.html
        
        Bei welchem der Links wird jetzt gesagt dass duplicate content nicht abgestraft wird?
        Das steht nur dass sich google recht sicher ist die Seite zu finden, die den original-Inhalt hat.
        
        Vielleicht bin ich nicht zu doof zum Suchen, sondern zum Lesen?
        
        ~dave
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
      2. robots.txt wird von Google ignoriert
        
        Multi 18.12.2011 12:36
        
        sonstiges
        
        – Informationen zu den Bewertungsregeln
        
        Normalerweise stimme ich dir zu, dass eine Information ohne Quelle nicht viel wert ist, aber ich bin es Leid, jedes mal wenn irgendwer irgendwas haarsträbendes von "Duplicate Content" daherfaselt ein paar Matt-Cutts-Links herrauszusuchen, die das Gegenteil belegen und zu posten. Das Archiv ist schon voll damit.
        
        Und deshalb sind meine _beiden_ Aussagen falsch? Irgendwie nicht logisch, dass wegen deiner Aussage auch die Vererbung des PR Blödsinn ist.
        
        Desweiteren habe ich wegen dem DC ausdrücklich ein "könnte" eingefügt, was deutlich macht, dass ich mir nicht sicher bin und die Aussage weitere Recherchen benötigt, falls der OP Interesse hat.
        
        Somit bleibt deine Aussage unter "Klugschiss" einzuordnen, da der Wert für den Leser nicht vorhanden ist.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum