Seiten per .htaccess für den Googlebot sperren von Anita, 10.01.2011 14:18

Seiten per .htaccess für den Googlebot sperren

Anita 10.01.2011 11:11

webserver

Hallo!

Ich habe ein paar Seiten meiner Internetpräsenz per robots.txt gesperrt. Leider listet Google die Seiten immer noch.

Ich würde deshalb gerne bestimmte Seiten für den Google-Bot per .htaccess sperren.

Meine erste Recherche hat keine entsprechenden Lösungen gebracht. Wahrscheinlich nutze ich die falschen Suchwörter, denn ich kann mir eigentlich nicht vorstellen, dass das nicht möglich ist.

Also, ich würde gerne http://domain.de/bestimmte-seite/ für den Googlebot per .htaccess sperren. Wie geht das?

Liebe Grüße
Anita

Beitrag melden

– Informationen zu den Bewertungsregeln

Seiten per .htaccess für den Googlebot sperren
suit Homepage des Autors 10.01.2011 11:30

webserver
– Informationen zu den Bewertungsregeln
Meine erste Recherche hat keine entsprechenden Lösungen gebracht.

Dann war diese äußerst schlecht.

Wahrscheinlich nutze ich die falschen Suchwörter, denn ich kann mir eigentlich nicht vorstellen, dass das nicht möglich ist.

Selbst "Seiten per .htaccess für den Googlebot sperren" liefert in Google auf der ersten Seite ordentliche Treffer.

Bessere Ergebnisse liefert "per htaccess googlebot aussperren".

Trauig.

Also, ich würde gerne http://domain.de/bestimmte-seite/ für den Googlebot per .htaccess sperren. Wie geht das?

indem du REMOTE_ADDR oder HTTP_USER_AGENT entsprechend auswertest.
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Seiten per .htaccess für den Googlebot sperren
  
  Tom Homepage des Autors 10.01.2011 11:43
  
  webserver
  – Informationen zu den Bewertungsregeln
  Hello,
  
  indem du REMOTE_ADDR oder HTTP_USER_AGENT entsprechend auswertest.
  
  oder ein 'deny from xxx.xxx.xxx.xxx yyy.yyy.yyy.yyy zzz.zzz.zzz.zzz
  
  benutzt, sofern sie die IPs des Google-Bots und seiner Helfer kennt.
  
  Mir stellt sich aber die Frage, was eine Seite, die bei Google nicht erscheinen darf, dann im Internet, per HTTP erreichbar, soll?
  
  Liebe Grüße aus dem schönen Oberharz
  
  Tom vom Berg
  
  --
  ☻_
  /▌
  / \ Nur selber lernen macht schlau
  http://bergpost.annerschbarrich.de
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Seiten per .htaccess für den Googlebot sperren
    
    suit Homepage des Autors 10.01.2011 11:50
    
    webserver
    
    – Informationen zu den Bewertungsregeln
    Mir stellt sich aber die Frage, was eine Seite, die bei Google nicht erscheinen darf, dann im Internet, per HTTP erreichbar, soll?
    
    Diese Frage hab' ich mir verkniffen, ich hab heute keine Motivation, irgendwelche unqualifizierten Anfeindungen zu ernten :)
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
  2. Seiten per .htaccess für den Googlebot sperren
    
    Bobby 10.01.2011 11:58
    
    webserver
    
    – Informationen zu den Bewertungsregeln
    Moin
    
    Mir stellt sich aber die Frage, was eine Seite, die bei Google nicht erscheinen darf, dann im Internet, per HTTP erreichbar, soll?
    
    Zum Beispiel privater Content der nicht in einer Suchmaschine auffindbar sein soll. Da kenn ich sogar in meinem Umkreis ein Beispiel dafür.
    
    Gruß Bobby
    
    --
    -> Für jedes Problem gibt es eine Lösung, die einfach, sauber und falsch ist! <-
    ### Henry L. Mencken ###
    -> Nicht das Problem macht die Schwierigkeiten, sondern unsere Sichtweise! <-
    ## Viktor Frankl ###
    ie:{ br:> fl:{ va:} ls:< fo:) rl:( n4:( de:> ss:) ch:? js:( mo:} sh:) zu:)
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Seiten per .htaccess für den Googlebot sperren
      
      suit Homepage des Autors 10.01.2011 12:02
      
      webserver
      
      – Informationen zu den Bewertungsregeln
      
      Zum Beispiel privater Content der nicht in einer Suchmaschine auffindbar sein soll. Da kenn ich sogar in meinem Umkreis ein Beispiel dafür.
      
      Deine Defintion von privat ist äußerst mangelhaft.
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. Seiten per .htaccess für den Googlebot sperren
        
        Bobby 10.01.2011 12:05
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Moin
        
        Deine Defintion von privat ist äußerst mangelhaft.
        
        Z.B. eine Bildergalerie bei der die Bilder nicht über google indexiert und gecached werden sollen.
        
        Besser?
        
        Gruß Bobby
        
        --
        -> Für jedes Problem gibt es eine Lösung, die einfach, sauber und falsch ist! <-
        ### Henry L. Mencken ###
        -> Nicht das Problem macht die Schwierigkeiten, sondern unsere Sichtweise! <-
        ## Viktor Frankl ###
        ie:{ br:> fl:{ va:} ls:< fo:) rl:( n4:( de:> ss:) ch:? js:( mo:} sh:) zu:)
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        Tom Homepage des Autors 10.01.2011 12:10
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Hello,
        
        Deine Defintion von privat ist äußerst mangelhaft.
        
        Z.B. eine Bildergalerie bei der die Bilder nicht über google indexiert und gecached werden sollen.
        
        Aber alle Anderen, außer Google, dürfen die Bilder sehen? Es sollte ja, lt. OP, nur Google ausgesperrt werden.
        
        Basic-Auth-Seiten habe ich auch ein paar, aber da handelt es sich dann um Inhalte, die nur für ein paar Leute von Interesse sind. Sie sind allerdings auch nicht unbedingt geheim, denn dann würde ich sie nicht ins Internet stellen und schon gar nicht per HTTP anbieten.
        
        Liebe Grüße aus dem schönen Oberharz
        
        Tom vom Berg
        
        --
        ☻_
        /▌
        / \ Nur selber lernen macht schlau
        http://bergpost.annerschbarrich.de
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        Bobby 10.01.2011 12:13
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Moin
        
        Aber alle Anderen, außer Google, dürfen die Bilder sehen? Es sollte ja, lt. OP, nur Google ausgesperrt werden.
        
        Genau so ist es. Wer die Adresse kennt, kennt diese. Aber über Suchmaschinen wird sie nicht gefunden.
        
        Gruß Bobby
        
        --
        -> Für jedes Problem gibt es eine Lösung, die einfach, sauber und falsch ist! <-
        ### Henry L. Mencken ###
        -> Nicht das Problem macht die Schwierigkeiten, sondern unsere Sichtweise! <-
        ## Viktor Frankl ###
        ie:{ br:> fl:{ va:} ls:< fo:) rl:( n4:( de:> ss:) ch:? js:( mo:} sh:) zu:)
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        Tom Homepage des Autors 10.01.2011 12:20
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Hello,
        
        Aber alle Anderen, außer Google, dürfen die Bilder sehen? Es sollte ja, lt. OP, nur Google ausgesperrt werden.
        
        Genau so ist es. Wer die Adresse kennt, kennt diese. Aber über Suchmaschinen wird sie nicht gefunden.
        
        Du verwendest hier fälschlich den Plural.
        
        Die Information wird bestenfalls über Google nicht gefunden, wenn man dessen _sämtliche_ Crawler aussperrt.
        
        Liebe Grüße aus dem schönen Oberharz
        
        Tom vom Berg
        
        --
        ☻_
        /▌
        / \ Nur selber lernen macht schlau
        http://bergpost.annerschbarrich.de
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        suit Homepage des Autors 10.01.2011 12:43
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Genau so ist es. Wer die Adresse kennt, kennt diese. Aber über Suchmaschinen wird sie nicht gefunden.
        
        Google != alle Suchmaschinen
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        Anita 10.01.2011 14:25
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Aber alle Anderen, außer Google, dürfen die Bilder sehen? Es sollte ja, lt. OP, nur Google ausgesperrt werden.
        
        Mit Google und Bing decke ich den größten Teil aller Suchmaschinenanfragen ab. Bing hat nur zwei Bots, das ließ sich recht schnell herausfinden:
        
        msnbot/2.0b (+http://search.msn.com/msnbot.htm)
        msnbot/1.1 (+http://search.msn.com/msnbot.htm)
        
        Die würde ich also selbstständig in meine .htaccess einbauen, deshalb hatte ich nicht extra nach Bing, sondern explizit nach Google gefragt. :)
        
        Generell ist mir klar, dass meine bei Bing/Google gesperrten Inhalte möglicherweise in der ein oder anderen Nischen-Suchmaschine auftauchen. Das ist aber in Ordnung und wenn ich es nicht wollte, dürfte ich den Inhalt nicht veröffentlichen.
        
        Liebe Grüße
        Anita
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        suit Homepage des Autors 10.01.2011 14:37
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Mit Google und Bing decke ich den größten Teil aller Suchmaschinenanfragen ab.
        
        Und das soll dich schützen? Diese sichtweise ist etwa so schmal wie die eines Apple-Benutzers: "Mac OS X hat so wenig Verbreitung, darum ist es sicher". Selbst 5 % Marktanteil im Internet sind aber enorm und keineswegs vernachlässigbar.
        
        Bing hat nur zwei Bots, das ließ sich recht schnell herausfinden:
        
        Ich werf mal wieder ein "Traurig" ein :)
        
        msnbot/2.0b (+http://search.msn.com/msnbot.htm)
        msnbot/1.1 (+http://search.msn.com/msnbot.htm)
        
        Der hier scheint regelmäßig in meinen Logfiles auf und der "aktuellste", den Microsoft verwendet:
        Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
        
        Generell ist mir klar, dass meine bei Bing/Google gesperrten Inhalte möglicherweise in der ein oder anderen Nischen-Suchmaschine auftauchen.
        
        Yahoo z.B. - kleine Niesche, ja. Oder T-Online. Oder Ask - alle sehr klein.
        
        Das ist aber in Ordnung und wenn ich es nicht wollte, dürfte ich den Inhalt nicht veröffentlichen.
        
        Wenn du dein ursächliches Problem behebst, wirst du vermutlich mehr Erfolg haben.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        Anita 10.01.2011 14:55
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Der hier scheint regelmäßig in meinen Logfiles auf und der "aktuellste", den Microsoft verwendet:
        Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
        
        Danke, der fehlte mir noch. Das ist konkret und hilft mir weiter. :)
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        suit Homepage des Autors 10.01.2011 15:33
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Der hier scheint regelmäßig in meinen Logfiles auf und der "aktuellste", den Microsoft verwendet:
        Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
        
        Danke, der fehlte mir noch. Das ist konkret und hilft mir weiter. :)
        
        Ich hab dir bewusst die etwa 10 anderen die regelmäßig in meiner statisitk auftauchen vorenthalten - es gibt kein Patentrezept für dein Vorhaben und wenn auch nur einer der Bots der Suchmaschine die du aussperren willst durchkommt, war dein Vorhaben umsonst.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        Tom Homepage des Autors 10.01.2011 18:48
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Hello,
        
        Der hier scheint regelmäßig in meinen Logfiles auf und der "aktuellste", den Microsoft verwendet:
        Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
        
        Danke, der fehlte mir noch. Das ist konkret und hilft mir weiter. :)
        
        Im Moment scheint das Thema zwar erstmal ein politisches Problem zu haben, aber was ist/war denn mit den ganzen chinesischen Firmen, die für Google weltweit recherchiert und klassifiziert haben? Die haben alle unterschiedliche IPs gehabt und trotzdem erschienen die Links auf die Contents dann einige Wochen später immer in Google, obwohl die Google-Bots nie direkt zugegriffen haben.
        
        Und das galt selbst für Domains, die nie bewusst irgendwo veröffentlicht wurden, außer im DNS.
        
        In der letzten Zeit ist da etwas Ruhe eingekehrt. Das wird aber kaum so bleiben.
        
        Liebe Grüße aus dem schönen Oberharz
        
        Tom vom Berg
        
        --
        ☻_
        /▌
        / \ Nur selber lernen macht schlau
        http://bergpost.annerschbarrich.de
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        JürgenB Homepage des Autors 10.01.2011 21:25
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Hallo Anita,
        
        Danke, der fehlte mir noch. Das ist konkret und hilft mir weiter. :)
        
        glaube ich nicht. Der Versuch, alle(!) Bots aller(!) Suchmaschinen per .htaccess auszusperren kann nicht funktionieren, du wirst immer eine übersehen.
        
        Der Weg, Seiten aus dem Index von Suchmaschinen zu heraus zu halten, geht über die robots.txt. Du musst nur Geduld haben, bis sie aus dem Index gelöscht werden, oder den Weg über die Webmastertools gehen. Ob da andere Suchmaschinen ähnliches bieten wie Google, weiß ich allerdings nicht.
        
        Gruß, Jürgen
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
  3. Seiten per .htaccess für den Googlebot sperren
    
    Anita 10.01.2011 14:01
    
    webserver
    
    – Informationen zu den Bewertungsregeln
    Mir stellt sich aber die Frage, was eine Seite, die bei Google nicht erscheinen darf, dann im Internet, per HTTP erreichbar, soll?
    
    Ich will zum Beispiel eine Datenschutzerklärung oder ein Impressum nicht im Index von Suchmaschinen haben, da sie sonst von Abmahnanwälten leicher gefunden werden. Auch Kontaktformulare sehe ich nur ungern in den SERPs, da Spamer oder andere Saboteure mit Suchmaschinen gezielt nach Kontaktformularen suchen können.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Seiten per .htaccess für den Googlebot sperren
      
      suit Homepage des Autors 10.01.2011 14:14
      
      webserver
      
      – Informationen zu den Bewertungsregeln
      
      Ich will zum Beispiel eine Datenschutzerklärung oder ein Impressum nicht im Index von Suchmaschinen haben, da sie sonst von Abmahnanwälten leicher gefunden werden. Auch Kontaktformulare sehe ich nur ungern in den SERPs, da Spamer oder andere Saboteure mit Suchmaschinen gezielt nach Kontaktformularen suchen können.
      
      Security through obscurity hat noch nie funktioniert und wird auch in Zukunft nicht funktionieren.
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. Seiten per .htaccess für den Googlebot sperren
        
        Anita 10.01.2011 14:29
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Security through obscurity hat noch nie funktioniert und wird auch in Zukunft nicht funktionieren.
        
        Es mag nicht 100%ig funktionieren, das muss es in diesem Fall aber auch nicht. Aber wer mit einem fehlerhaften Impressum nicht an Stelle 1 in den Suchmaschinen steht, wird unter Garantie deutlich weniger Ärger mit Abmahnanwälten haben.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        suit Homepage des Autors 10.01.2011 14:39
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Security through obscurity hat noch nie funktioniert und wird auch in Zukunft nicht funktionieren.
        
        Es mag nicht 100%ig funktionieren,
        
        Es funktioniert garnicht, das ist der Knackpunkt.
        
        Aber wer mit einem fehlerhaften Impressum nicht an Stelle 1 in den Suchmaschinen steht, wird unter Garantie deutlich weniger Ärger mit Abmahnanwälten haben.
        
        Was ist das Problem, wenn du einfach dein verdammtes Impressum in Ordnung bringst? Du doktorst Stunden um Stunden herum anstatt einfach ein paar Zeilen text ordentlich zu schreiben.
        
        Die Komplexität eines ordentlichen Impressums ist etwas dort angesiedelt, wo auch das Beschriften und Frankieren eines Briefkuverts zu finden ist.
        
        Grundlage für Zitat #1845.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        Anita 10.01.2011 14:53
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Was ist das Problem, wenn du einfach dein verdammtes Impressum in Ordnung bringst? Du doktorst Stunden um Stunden herum anstatt einfach ein paar Zeilen text ordentlich zu schreiben.
        
        Zum einen ist das Impressum generell umstritten, ein rechtlich eindeutiges Impressum - das es auch morgen noch ist - gibt es nicht. Selbst das BMJ traut sich nicht, ein Muster-Impressum zu veröffentlichen.
        
        Zum anderen will ich mit der Lösung auch meine Kontaktformulare unsichtbar machen, und so mit einfachsten Mitteln den Spam verringern, ohne durch den Einbau eines Chaptas einen Usability-Gau zu erzeugen. Und das funktioniert. Nicht 100%, aber das tut kein Spamschutz.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        suit Homepage des Autors 10.01.2011 15:35
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Zum anderen will ich mit der Lösung auch meine Kontaktformulare unsichtbar machen, und so mit einfachsten Mitteln den Spam verringern, ohne durch den Einbau eines Chaptas einen Usability-Gau zu erzeugen. Und das funktioniert. Nicht 100%, aber das tut kein Spamschutz.
        
        Fürs Protokoll:
        Es gibt für viele Dinge einen wirksamen Spamschutz ohne Captcha :)
        
        Besonders für herkommliche Kontaktformulare kann man sich durch ein paar einfache Maßnahmen sehr gut absichern.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
    2. Seiten per .htaccess für den Googlebot sperren
      
      Robert B. 10.01.2011 23:56
      
      webserver
      
      – Informationen zu den Bewertungsregeln
      
      Moin,
      
      Ich will zum Beispiel eine Datenschutzerklärung oder ein Impressum nicht im Index von Suchmaschinen haben, da sie sonst von Abmahnanwälten leicher gefunden werden. Auch Kontaktformulare sehe ich nur ungern in den SERPs, da Spamer oder andere Saboteure mit Suchmaschinen gezielt nach Kontaktformularen suchen können.
      
      Suchmaschinen beachten aber robots.txt, immer wieder neu. Mit ein bisschen Geduld hat sich dieses Problem in Luft aufgelöst, ohne eine .htaccess mit RewriteCond voll zu laden.
      
      Bei abmahnsicheren Impressums und Datenschutzerklärungen wird dir im Zweifelsfall mit Sicherheit ein Anwalt helfen können. Nicht jeder Anwalt ist ein Abmahnanwalt, manche veröffentlichen sogar Muster-Datenschutzerklärungen.
      
      Benutzen Spammer eigentlich immer noch Suchmaschinen? Mir scheint, die setzen mittlerweile eigene Crawler ein. Oder meinst du manuelle Spammer á la „tolle Seite bla fasel“? Letztere Gruppe lässt sich auch gut vom Leib halten, wenn die merken, dass ihre Anmerkungen nicht durchkommen.
      
      Viele Grüße,
      Robert
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
2. Seiten per .htaccess für den Googlebot sperren
  
  Anita 10.01.2011 14:18
  
  webserver
  – Informationen zu den Bewertungsregeln
  Meine erste Recherche hat keine entsprechenden Lösungen gebracht.
  
  Dann war diese äußerst schlecht.
  
  Zwar findet Google ein paar Einträge, von denen ich übrigens auch die meisten bereits durchgelesen hatte, eine konkrete Lösung gibt es aber nicht.
  
  Also, ich würde gerne http://domain.de/bestimmte-seite/ für den Googlebot per .htaccess sperren. Wie geht das?
  
  indem du REMOTE_ADDR oder HTTP_USER_AGENT entsprechend auswertest.
  
  Was laut einem Forenbeitrag so geht:
  
  RewriteCond %{HTTP_USER_AGENT} ^google.* [OR]
  RewriteCond %{HTTP_USER_AGENT} ^googlebot.* [OR]
  RewriteCond %{HTTP_USER_AGENT} ^Googlebot.* [OR]
  RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1.* [OR]
  RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1 (+http://www.google.com/bot.html).*
  RewriteRule ^/.* - [forbidden]
  
  Nur, ist das korrekt, aktuell und nicht doppelt gemoppelt? Fehlen da nicht noch einige Googlebots? (z. B. Mediapartners-Google/2.1) Die Suchergebnisse meiner Recherche haben mich qualitativ nicht überzeugt.
  
  Außerdem, und darauf habe ich noch keine Antwort bekommen: Obige .htaccess gilt für meine gesamte Website. Ich will aber nur eine bestimmte Seite "unsichtbar" (http://domain.de/bestimmte-seite/) machen. Die .htaccess einfach in das Verzeichnis /bestimmte-seite/ legen geht nicht, da nur die index.html gesperrt werden soll, nicht aber http://domain.de/bestimmte-seite/unterseite1.html.
  
  Trauig.
  
  Also doch nicht so traurig, oder?!
  
  Vielleicht habe ich die Frage falsch gestellt, daher nochmal:
  
  Wenn ich alle aktuell bekannten Googlebots von der Webseite http://domain.de/bestimmte-seite/ fernhalten will, wie muss ich dann folgenden Eintrag in der .htaccess, die im Wurzel-Verzeichnis liegt, anpassen?
  
  RewriteEngine on
  RewriteCond %{HTTP_USER_AGENT} ^google.* [OR]
  RewriteCond %{HTTP_USER_AGENT} ^googlebot.* [OR]
  RewriteCond %{HTTP_USER_AGENT} ^Googlebot.* [OR]
  RewriteCond %{HTTP_USER_AGENT} ^Mediapartners-Google/2.1 [OR]
  RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1.* [OR]
  RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1 (+http://www.google.com/bot.html).*
  RewriteRule ^/.* - [forbidden]
  
  Liebe Grüße
  Anita
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Seiten per .htaccess für den Googlebot sperren
    
    suit Homepage des Autors 10.01.2011 14:25
    
    webserver
    
    – Informationen zu den Bewertungsregeln
    indem du REMOTE_ADDR oder HTTP_USER_AGENT entsprechend auswertest.
    
    Was laut einem Forenbeitrag so geht:
    
    RewriteCond %{HTTP_USER_AGENT} ^google.* [OR]
    RewriteCond %{HTTP_USER_AGENT} ^googlebot.* [OR]
    RewriteCond %{HTTP_USER_AGENT} ^Googlebot.* [OR]
    RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1.* [OR]
    RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1 (+http://www.google.com/bot.html).*
    RewriteRule ^/.* - [forbidden]
    
    Nur, ist das korrekt, aktuell und nicht doppelt gemoppelt?
    
    Nachdem man in der RewriteCond einen Regulären Ausdruck verwenden kann ist das mehr als Redundant, ja.
    
    Fehlen da nicht noch einige Googlebots? (z. B. Mediapartners-Google/2.1) Die Suchergebnisse meiner Recherche haben mich qualitativ nicht überzeugt.
    
    Ja - und was ist mit den "Googlebots" die sich nicht als solcher zeigen sondern getarnt daherkommen um zu prüfen ob du dem Googlebot nicht etwas anderes servierst? Und vor allem, was ist mit anderen Suchmaschinen?
    
    Außerdem, und darauf habe ich noch keine Antwort bekommen: Obige .htaccess gilt für meine gesamte Website. Ich will aber nur eine bestimmte Seite "unsichtbar" (http://domain.de/bestimmte-seite/) machen. Die .htaccess einfach in das Verzeichnis /bestimmte-seite/ legen geht nicht, da nur die index.html gesperrt werden soll, nicht aber http://domain.de/bestimmte-seite/unterseite1.html.
    
    RewriteCond erlaubt neben HTTP_USER_AGENT und REMOTE_ADDR ansich jedes HTTP-Header-Feld - z.B. auch REQUEST_URI.
    
    Trauig.
    
    Also doch nicht so traurig, oder?!
    
    Nein, nicht mehr.
    
    Vielleicht habe ich die Frage falsch gestellt, daher nochmal:
    
    Nein, deine Frage war schon in Ordnung.
    
    Wenn ich alle aktuell bekannten Googlebots von der Webseite http://domain.de/bestimmte-seite/ fernhalten will, wie muss ich dann folgenden Eintrag in der .htaccess, die im Wurzel-Verzeichnis liegt, anpassen?
    
    Diese Frage hingegen ist hingegen Frech, sie impliziert, dass dir jemand anderer die Arbeit abnimmt.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Seiten per .htaccess für den Googlebot sperren
      
      Anita 10.01.2011 14:45
      
      webserver
      
      – Informationen zu den Bewertungsregeln
      
      Ja - und was ist mit den "Googlebots" die sich nicht als solcher zeigen sondern getarnt daherkommen um zu prüfen ob du dem Googlebot nicht etwas anderes servierst? Und vor allem, was ist mit anderen Suchmaschinen?
      
      Daran habe ich auch gedacht. Nur dürfte es den Googlebot kaum interessieren, wenn ich ihm bestimmte Seite komplett vorenthalte und nur dem Besucher bereitstelle.
      
      Etwas anderes wäre es natürlich, wenn ich dem Googlebot etwas anderes ausgebe als dem Besucher. Das aber mache ich nicht. Also dürfte das auch kein Fall von Cloaking sein.
      
      Diese Frage hingegen ist hingegen Frech, sie impliziert, dass dir jemand anderer die Arbeit abnimmt.
      
      Das sehe ich anders. Wenn ich jemandem in einem Forum helfen kann, dann verpacke ich die Antwort nicht in eine Schnitzeljagd, sondern gebe gerne eine konkrete Lösung. :) Und ja, dabei nehme ich dem Fragenden ein wenig Arbeit ab.
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. Seiten per .htaccess für den Googlebot sperren
        
        suit Homepage des Autors 10.01.2011 14:47
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Das sehe ich anders. Wenn ich jemandem in einem Forum helfen kann, dann verpacke ich die Antwort nicht in eine Schnitzeljagd, sondern gebe gerne eine konkrete Lösung. :)
        
        Du hast den Unterscheid zwischen SELF und GET nicht verstanden.
        
        Und ja, dabei nehme ich dem Fragenden ein wenig Arbeit ab.
        
        Indem du aus einem anderen - nicht näher genannten Forum - eine Lösung kopierst und aus dem Kontext gerissen forderst, man möge sie dir anpassen?
        
        Wirklich nicht - da ist from scratch schneller und sicherer.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        Seiten per .htaccess für den Googlebot sperren
        
        Robert B. 11.01.2011 00:07
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Moin,
        
        Du hast den Unterscheid zwischen SELF und GET nicht verstanden.
        
        <scrn>Ich kenne GET nur von HTTP, aber nicht von SLLP (SeLfhtml Lern-Protokoll). Ist das eine eine Methode?</scnr>
        
        Viele Grüße,
        Robert
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
      2. Seiten per .htaccess für den Googlebot sperren
        
        Der Martin 10.01.2011 14:53
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Hallo,
        
        Wenn ich jemandem in einem Forum helfen kann, dann verpacke ich die Antwort nicht in eine Schnitzeljagd, sondern gebe gerne eine konkrete Lösung. :)
        
        das mag in manchen Foren so sein, dagegen ist auch nichts einzuwenden. Das SELFHTML-Forum verfolgt aber primär die Ideologie, den Leuten dabei zu helfen, selbst die Antwort zu finden.
        
        Und ja, dabei nehme ich dem Fragenden ein wenig Arbeit ab.
        
        Das ist zweifellos nett gemeint, aber langfristig nicht immer hilfreich.
        
        So long,
        Martin
        
        --
        Früher habe ich mich vor der Arbeit gedrückt, heute könnte ich stundenlang zusehen.
        Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
      3. Seiten per .htaccess für den Googlebot sperren
        
        Robert B. 11.01.2011 00:05
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Moin,
        
        Nur dürfte es den Googlebot kaum interessieren, wenn ich ihm bestimmte Seite komplett vorenthalte und nur dem Besucher bereitstelle.
        
        Aber wenn der Googlebot sich gar nicht so nennt und nur Besucher ist, dann enthältst du ihm auch nichts vor. Schwachstelle gefunden?
        
        Viele Grüße,
        Robert
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
      4. Seiten per .htaccess für den Googlebot sperren
        
        EKKi 11.01.2011 09:57
        
        webserver
        
        – Informationen zu den Bewertungsregeln
        
        Mahlzeit Anita,
        
        Daran habe ich auch gedacht. Nur dürfte es den Googlebot kaum interessieren, wenn ich ihm bestimmte Seite komplett vorenthalte und nur dem Besucher bereitstelle.
        
        [ ] Du weißt, dass der Googlebot (und vermutlich auch diverse andere Bots) gerne mal "als sie selbst" und mal "als irgendein menschlicher Benutzer" vorbeischauen ... unter anderem, um herauszufinden, ob der Seitenautor/-betreiber bescheißen will (denn nichts anderes ist der Versuch, einem Bot anderen Inhalt als menschlichen Benutzern vorzuspielen).
        
        MfG,
        EKKi
        
        --
        sh:( fo:| ch:? rl:( br:> n4:~ ie:% mo:} va:) de:] zu:) fl:{ ss:) ls:& js:|
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
Seiten per .htaccess für den Googlebot sperren
JürgenB Homepage des Autors 10.01.2011 12:07

webserver
– Informationen zu den Bewertungsregeln
Hallo Anita,

meiner Erfahrung nach hält sich Google an die robots.txt. Allerdings hinderst du damit - oder per .htaccess - den Bot nur, deine Seiten zu crawlen, im Index bleiben sie trotzdem. Ich weiß jetzt allerdings nicht, ob für "ewig" oder ob sie dann doch nach einiger Zeit verschwinden.

Ich habe mich bei den Webmastertools von Google angemeldet und dann dort die nicht gewünschten Seiten aus dem Index entfernen lassen.

Gruß, Jürgen
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Seiten per .htaccess für den Googlebot sperren
  
  Robert B. 10.01.2011 23:46
  
  webserver
  – Informationen zu den Bewertungsregeln
  Moin,
  
  meiner Erfahrung nach hält sich Google an die robots.txt. Allerdings hinderst du damit - oder per .htaccess - den Bot nur, deine Seiten zu crawlen, im Index bleiben sie trotzdem. Ich weiß jetzt allerdings nicht, ob für "ewig" oder ob sie dann doch nach einiger Zeit verschwinden.
  
  Ich habe soeben die Probe aufs Exempel mit Google, Yippy und Bing gemacht: Alle drei beachten die robots.txt und Änderungen daran. Ich habe vor kurzem Seiten per Bitte (robots.txt ist nur eine Bitte an den Bot) von der Indizierung ausschließen lassen und zumindest die genannten Suchmaschinen respektieren dies. Die Seiten werden bei einer Suche nur noch über den Titel gefunden, aber nicht mehr über den Inhalt.
  
  Viele Grüße,
  Robert
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Anita: Seiten per .htaccess für den Googlebot sperren