Seiten per .htaccess für den Googlebot sperren
Anita
- webserver
Hallo!
Ich habe ein paar Seiten meiner Internetpräsenz per robots.txt gesperrt. Leider listet Google die Seiten immer noch.
Ich würde deshalb gerne bestimmte Seiten für den Google-Bot per .htaccess sperren.
Meine erste Recherche hat keine entsprechenden Lösungen gebracht. Wahrscheinlich nutze ich die falschen Suchwörter, denn ich kann mir eigentlich nicht vorstellen, dass das nicht möglich ist.
Also, ich würde gerne http://domain.de/bestimmte-seite/ für den Googlebot per .htaccess sperren. Wie geht das?
Liebe Grüße
Anita
Meine erste Recherche hat keine entsprechenden Lösungen gebracht.
Dann war diese äußerst schlecht.
Wahrscheinlich nutze ich die falschen Suchwörter, denn ich kann mir eigentlich nicht vorstellen, dass das nicht möglich ist.
Selbst "Seiten per .htaccess für den Googlebot sperren" liefert in Google auf der ersten Seite ordentliche Treffer.
Bessere Ergebnisse liefert "per htaccess googlebot aussperren".
Trauig.
Also, ich würde gerne http://domain.de/bestimmte-seite/ für den Googlebot per .htaccess sperren. Wie geht das?
indem du REMOTE_ADDR oder HTTP_USER_AGENT entsprechend auswertest.
Hello,
indem du REMOTE_ADDR oder HTTP_USER_AGENT entsprechend auswertest.
oder ein 'deny from xxx.xxx.xxx.xxx yyy.yyy.yyy.yyy zzz.zzz.zzz.zzz
benutzt, sofern sie die IPs des Google-Bots und seiner Helfer kennt.
Mir stellt sich aber die Frage, was eine Seite, die bei Google nicht erscheinen darf, dann im Internet, per HTTP erreichbar, soll?
Liebe Grüße aus dem schönen Oberharz
Tom vom Berg
Mir stellt sich aber die Frage, was eine Seite, die bei Google nicht erscheinen darf, dann im Internet, per HTTP erreichbar, soll?
Diese Frage hab' ich mir verkniffen, ich hab heute keine Motivation, irgendwelche unqualifizierten Anfeindungen zu ernten :)
Moin
Mir stellt sich aber die Frage, was eine Seite, die bei Google nicht erscheinen darf, dann im Internet, per HTTP erreichbar, soll?
Zum Beispiel privater Content der nicht in einer Suchmaschine auffindbar sein soll. Da kenn ich sogar in meinem Umkreis ein Beispiel dafür.
Gruß Bobby
Zum Beispiel privater Content der nicht in einer Suchmaschine auffindbar sein soll. Da kenn ich sogar in meinem Umkreis ein Beispiel dafür.
Deine Defintion von privat ist äußerst mangelhaft.
Moin
Deine Defintion von privat ist äußerst mangelhaft.
Z.B. eine Bildergalerie bei der die Bilder nicht über google indexiert und gecached werden sollen.
Besser?
Gruß Bobby
Hello,
Deine Defintion von privat ist äußerst mangelhaft.
Z.B. eine Bildergalerie bei der die Bilder nicht über google indexiert und gecached werden sollen.
Aber alle Anderen, außer Google, dürfen die Bilder sehen? Es sollte ja, lt. OP, nur Google ausgesperrt werden.
Basic-Auth-Seiten habe ich auch ein paar, aber da handelt es sich dann um Inhalte, die nur für ein paar Leute von Interesse sind. Sie sind allerdings auch nicht unbedingt geheim, denn dann würde ich sie nicht ins Internet stellen und schon gar nicht per HTTP anbieten.
Liebe Grüße aus dem schönen Oberharz
Tom vom Berg
Moin
Aber alle Anderen, außer Google, dürfen die Bilder sehen? Es sollte ja, lt. OP, nur Google ausgesperrt werden.
Genau so ist es. Wer die Adresse kennt, kennt diese. Aber über Suchmaschinen wird sie nicht gefunden.
Gruß Bobby
Hello,
Aber alle Anderen, außer Google, dürfen die Bilder sehen? Es sollte ja, lt. OP, nur Google ausgesperrt werden.
Genau so ist es. Wer die Adresse kennt, kennt diese. Aber über Suchmaschinen wird sie nicht gefunden.
Du verwendest hier fälschlich den Plural.
Die Information wird bestenfalls über Google nicht gefunden, wenn man dessen _sämtliche_ Crawler aussperrt.
Liebe Grüße aus dem schönen Oberharz
Tom vom Berg
Genau so ist es. Wer die Adresse kennt, kennt diese. Aber über Suchmaschinen wird sie nicht gefunden.
Google != alle Suchmaschinen
Aber alle Anderen, außer Google, dürfen die Bilder sehen? Es sollte ja, lt. OP, nur Google ausgesperrt werden.
Mit Google und Bing decke ich den größten Teil aller Suchmaschinenanfragen ab. Bing hat nur zwei Bots, das ließ sich recht schnell herausfinden:
msnbot/2.0b (+http://search.msn.com/msnbot.htm)
msnbot/1.1 (+http://search.msn.com/msnbot.htm)
Die würde ich also selbstständig in meine .htaccess einbauen, deshalb hatte ich nicht extra nach Bing, sondern explizit nach Google gefragt. :)
Generell ist mir klar, dass meine bei Bing/Google gesperrten Inhalte möglicherweise in der ein oder anderen Nischen-Suchmaschine auftauchen. Das ist aber in Ordnung und wenn ich es nicht wollte, dürfte ich den Inhalt nicht veröffentlichen.
Liebe Grüße
Anita
Mit Google und Bing decke ich den größten Teil aller Suchmaschinenanfragen ab.
Und das soll dich schützen? Diese sichtweise ist etwa so schmal wie die eines Apple-Benutzers: "Mac OS X hat so wenig Verbreitung, darum ist es sicher". Selbst 5 % Marktanteil im Internet sind aber enorm und keineswegs vernachlässigbar.
Bing hat nur zwei Bots, das ließ sich recht schnell herausfinden:
Ich werf mal wieder ein "Traurig" ein :)
msnbot/2.0b (+http://search.msn.com/msnbot.htm)
msnbot/1.1 (+http://search.msn.com/msnbot.htm)
Der hier scheint regelmäßig in meinen Logfiles auf und der "aktuellste", den Microsoft verwendet:
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Generell ist mir klar, dass meine bei Bing/Google gesperrten Inhalte möglicherweise in der ein oder anderen Nischen-Suchmaschine auftauchen.
Yahoo z.B. - kleine Niesche, ja. Oder T-Online. Oder Ask - alle sehr klein.
Das ist aber in Ordnung und wenn ich es nicht wollte, dürfte ich den Inhalt nicht veröffentlichen.
Wenn du dein ursächliches Problem behebst, wirst du vermutlich mehr Erfolg haben.
Der hier scheint regelmäßig in meinen Logfiles auf und der "aktuellste", den Microsoft verwendet:
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Danke, der fehlte mir noch. Das ist konkret und hilft mir weiter. :)
Der hier scheint regelmäßig in meinen Logfiles auf und der "aktuellste", den Microsoft verwendet:
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)Danke, der fehlte mir noch. Das ist konkret und hilft mir weiter. :)
Ich hab dir bewusst die etwa 10 anderen die regelmäßig in meiner statisitk auftauchen vorenthalten - es gibt kein Patentrezept für dein Vorhaben und wenn auch nur einer der Bots der Suchmaschine die du aussperren willst durchkommt, war dein Vorhaben umsonst.
Hello,
Der hier scheint regelmäßig in meinen Logfiles auf und der "aktuellste", den Microsoft verwendet:
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)Danke, der fehlte mir noch. Das ist konkret und hilft mir weiter. :)
Im Moment scheint das Thema zwar erstmal ein politisches Problem zu haben, aber was ist/war denn mit den ganzen chinesischen Firmen, die für Google weltweit recherchiert und klassifiziert haben? Die haben alle unterschiedliche IPs gehabt und trotzdem erschienen die Links auf die Contents dann einige Wochen später immer in Google, obwohl die Google-Bots nie direkt zugegriffen haben.
Und das galt selbst für Domains, die nie bewusst irgendwo veröffentlicht wurden, außer im DNS.
In der letzten Zeit ist da etwas Ruhe eingekehrt. Das wird aber kaum so bleiben.
Liebe Grüße aus dem schönen Oberharz
Tom vom Berg
Hallo Anita,
Danke, der fehlte mir noch. Das ist konkret und hilft mir weiter. :)
glaube ich nicht. Der Versuch, alle(!) Bots aller(!) Suchmaschinen per .htaccess auszusperren kann nicht funktionieren, du wirst immer eine übersehen.
Der Weg, Seiten aus dem Index von Suchmaschinen zu heraus zu halten, geht über die robots.txt. Du musst nur Geduld haben, bis sie aus dem Index gelöscht werden, oder den Weg über die Webmastertools gehen. Ob da andere Suchmaschinen ähnliches bieten wie Google, weiß ich allerdings nicht.
Gruß, Jürgen
Mir stellt sich aber die Frage, was eine Seite, die bei Google nicht erscheinen darf, dann im Internet, per HTTP erreichbar, soll?
Ich will zum Beispiel eine Datenschutzerklärung oder ein Impressum nicht im Index von Suchmaschinen haben, da sie sonst von Abmahnanwälten leicher gefunden werden. Auch Kontaktformulare sehe ich nur ungern in den SERPs, da Spamer oder andere Saboteure mit Suchmaschinen gezielt nach Kontaktformularen suchen können.
Ich will zum Beispiel eine Datenschutzerklärung oder ein Impressum nicht im Index von Suchmaschinen haben, da sie sonst von Abmahnanwälten leicher gefunden werden. Auch Kontaktformulare sehe ich nur ungern in den SERPs, da Spamer oder andere Saboteure mit Suchmaschinen gezielt nach Kontaktformularen suchen können.
Security through obscurity hat noch nie funktioniert und wird auch in Zukunft nicht funktionieren.
Security through obscurity hat noch nie funktioniert und wird auch in Zukunft nicht funktionieren.
Es mag nicht 100%ig funktionieren, das muss es in diesem Fall aber auch nicht. Aber wer mit einem fehlerhaften Impressum nicht an Stelle 1 in den Suchmaschinen steht, wird unter Garantie deutlich weniger Ärger mit Abmahnanwälten haben.
Security through obscurity hat noch nie funktioniert und wird auch in Zukunft nicht funktionieren.
Es mag nicht 100%ig funktionieren,
Es funktioniert garnicht, das ist der Knackpunkt.
Aber wer mit einem fehlerhaften Impressum nicht an Stelle 1 in den Suchmaschinen steht, wird unter Garantie deutlich weniger Ärger mit Abmahnanwälten haben.
Was ist das Problem, wenn du einfach dein verdammtes Impressum in Ordnung bringst? Du doktorst Stunden um Stunden herum anstatt einfach ein paar Zeilen text ordentlich zu schreiben.
Die Komplexität eines ordentlichen Impressums ist etwas dort angesiedelt, wo auch das Beschriften und Frankieren eines Briefkuverts zu finden ist.
Grundlage für Zitat #1845.
Was ist das Problem, wenn du einfach dein verdammtes Impressum in Ordnung bringst? Du doktorst Stunden um Stunden herum anstatt einfach ein paar Zeilen text ordentlich zu schreiben.
Zum einen ist das Impressum generell umstritten, ein rechtlich eindeutiges Impressum - das es auch morgen noch ist - gibt es nicht. Selbst das BMJ traut sich nicht, ein Muster-Impressum zu veröffentlichen.
Zum anderen will ich mit der Lösung auch meine Kontaktformulare unsichtbar machen, und so mit einfachsten Mitteln den Spam verringern, ohne durch den Einbau eines Chaptas einen Usability-Gau zu erzeugen. Und das funktioniert. Nicht 100%, aber das tut kein Spamschutz.
Zum anderen will ich mit der Lösung auch meine Kontaktformulare unsichtbar machen, und so mit einfachsten Mitteln den Spam verringern, ohne durch den Einbau eines Chaptas einen Usability-Gau zu erzeugen. Und das funktioniert. Nicht 100%, aber das tut kein Spamschutz.
Fürs Protokoll:
Es gibt für viele Dinge einen wirksamen Spamschutz ohne Captcha :)
Besonders für herkommliche Kontaktformulare kann man sich durch ein paar einfache Maßnahmen sehr gut absichern.
Moin,
Ich will zum Beispiel eine Datenschutzerklärung oder ein Impressum nicht im Index von Suchmaschinen haben, da sie sonst von Abmahnanwälten leicher gefunden werden. Auch Kontaktformulare sehe ich nur ungern in den SERPs, da Spamer oder andere Saboteure mit Suchmaschinen gezielt nach Kontaktformularen suchen können.
Suchmaschinen beachten aber robots.txt, immer wieder neu. Mit ein bisschen Geduld hat sich dieses Problem in Luft aufgelöst, ohne eine .htaccess mit RewriteCond voll zu laden.
Bei abmahnsicheren Impressums und Datenschutzerklärungen wird dir im Zweifelsfall mit Sicherheit ein Anwalt helfen können. Nicht jeder Anwalt ist ein Abmahnanwalt, manche veröffentlichen sogar Muster-Datenschutzerklärungen.
Benutzen Spammer eigentlich immer noch Suchmaschinen? Mir scheint, die setzen mittlerweile eigene Crawler ein. Oder meinst du manuelle Spammer á la „tolle Seite bla fasel“? Letztere Gruppe lässt sich auch gut vom Leib halten, wenn die merken, dass ihre Anmerkungen nicht durchkommen.
Viele Grüße,
Robert
Meine erste Recherche hat keine entsprechenden Lösungen gebracht.
Dann war diese äußerst schlecht.
Zwar findet Google ein paar Einträge, von denen ich übrigens auch die meisten bereits durchgelesen hatte, eine konkrete Lösung gibt es aber nicht.
Also, ich würde gerne http://domain.de/bestimmte-seite/ für den Googlebot per .htaccess sperren. Wie geht das?
indem du REMOTE_ADDR oder HTTP_USER_AGENT entsprechend auswertest.
Was laut einem Forenbeitrag so geht:
RewriteCond %{HTTP_USER_AGENT} ^google.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^googlebot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1 (+http://www.google.com/bot.html).*
RewriteRule ^/.* - [forbidden]
Nur, ist das korrekt, aktuell und nicht doppelt gemoppelt? Fehlen da nicht noch einige Googlebots? (z. B. Mediapartners-Google/2.1) Die Suchergebnisse meiner Recherche haben mich qualitativ nicht überzeugt.
Außerdem, und darauf habe ich noch keine Antwort bekommen: Obige .htaccess gilt für meine gesamte Website. Ich will aber nur eine bestimmte Seite "unsichtbar" (http://domain.de/bestimmte-seite/) machen. Die .htaccess einfach in das Verzeichnis /bestimmte-seite/ legen geht nicht, da nur die index.html gesperrt werden soll, nicht aber http://domain.de/bestimmte-seite/unterseite1.html.
Trauig.
Also doch nicht so traurig, oder?!
Vielleicht habe ich die Frage falsch gestellt, daher nochmal:
Wenn ich alle aktuell bekannten Googlebots von der Webseite http://domain.de/bestimmte-seite/ fernhalten will, wie muss ich dann folgenden Eintrag in der .htaccess, die im Wurzel-Verzeichnis liegt, anpassen?
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^google.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^googlebot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mediapartners-Google/2.1 [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1 (+http://www.google.com/bot.html).*
RewriteRule ^/.* - [forbidden]
Liebe Grüße
Anita
indem du REMOTE_ADDR oder HTTP_USER_AGENT entsprechend auswertest.
Was laut einem Forenbeitrag so geht:
RewriteCond %{HTTP_USER_AGENT} ^google.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^googlebot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Googlebot/2.1 (+http://www.google.com/bot.html).*
RewriteRule ^/.* - [forbidden]Nur, ist das korrekt, aktuell und nicht doppelt gemoppelt?
Nachdem man in der RewriteCond einen Regulären Ausdruck verwenden kann ist das mehr als Redundant, ja.
Fehlen da nicht noch einige Googlebots? (z. B. Mediapartners-Google/2.1) Die Suchergebnisse meiner Recherche haben mich qualitativ nicht überzeugt.
Ja - und was ist mit den "Googlebots" die sich nicht als solcher zeigen sondern getarnt daherkommen um zu prüfen ob du dem Googlebot nicht etwas anderes servierst? Und vor allem, was ist mit anderen Suchmaschinen?
Außerdem, und darauf habe ich noch keine Antwort bekommen: Obige .htaccess gilt für meine gesamte Website. Ich will aber nur eine bestimmte Seite "unsichtbar" (http://domain.de/bestimmte-seite/) machen. Die .htaccess einfach in das Verzeichnis /bestimmte-seite/ legen geht nicht, da nur die index.html gesperrt werden soll, nicht aber http://domain.de/bestimmte-seite/unterseite1.html.
RewriteCond erlaubt neben HTTP_USER_AGENT und REMOTE_ADDR ansich jedes HTTP-Header-Feld - z.B. auch REQUEST_URI.
Trauig.
Also doch nicht so traurig, oder?!
Nein, nicht mehr.
Vielleicht habe ich die Frage falsch gestellt, daher nochmal:
Nein, deine Frage war schon in Ordnung.
Wenn ich alle aktuell bekannten Googlebots von der Webseite http://domain.de/bestimmte-seite/ fernhalten will, wie muss ich dann folgenden Eintrag in der .htaccess, die im Wurzel-Verzeichnis liegt, anpassen?
Diese Frage hingegen ist hingegen Frech, sie impliziert, dass dir jemand anderer die Arbeit abnimmt.
Ja - und was ist mit den "Googlebots" die sich nicht als solcher zeigen sondern getarnt daherkommen um zu prüfen ob du dem Googlebot nicht etwas anderes servierst? Und vor allem, was ist mit anderen Suchmaschinen?
Daran habe ich auch gedacht. Nur dürfte es den Googlebot kaum interessieren, wenn ich ihm bestimmte Seite komplett vorenthalte und nur dem Besucher bereitstelle.
Etwas anderes wäre es natürlich, wenn ich dem Googlebot etwas anderes ausgebe als dem Besucher. Das aber mache ich nicht. Also dürfte das auch kein Fall von Cloaking sein.
Diese Frage hingegen ist hingegen Frech, sie impliziert, dass dir jemand anderer die Arbeit abnimmt.
Das sehe ich anders. Wenn ich jemandem in einem Forum helfen kann, dann verpacke ich die Antwort nicht in eine Schnitzeljagd, sondern gebe gerne eine konkrete Lösung. :) Und ja, dabei nehme ich dem Fragenden ein wenig Arbeit ab.
Das sehe ich anders. Wenn ich jemandem in einem Forum helfen kann, dann verpacke ich die Antwort nicht in eine Schnitzeljagd, sondern gebe gerne eine konkrete Lösung. :)
Du hast den Unterscheid zwischen SELF und GET nicht verstanden.
Und ja, dabei nehme ich dem Fragenden ein wenig Arbeit ab.
Indem du aus einem anderen - nicht näher genannten Forum - eine Lösung kopierst und aus dem Kontext gerissen forderst, man möge sie dir anpassen?
Wirklich nicht - da ist from scratch schneller und sicherer.
Moin,
Du hast den Unterscheid zwischen SELF und GET nicht verstanden.
<scrn>Ich kenne GET nur von HTTP, aber nicht von SLLP (SeLfhtml Lern-Protokoll). Ist das eine eine Methode?</scnr>
Viele Grüße,
Robert
Hallo,
Wenn ich jemandem in einem Forum helfen kann, dann verpacke ich die Antwort nicht in eine Schnitzeljagd, sondern gebe gerne eine konkrete Lösung. :)
das mag in manchen Foren so sein, dagegen ist auch nichts einzuwenden. Das SELFHTML-Forum verfolgt aber primär die Ideologie, den Leuten dabei zu helfen, selbst die Antwort zu finden.
Und ja, dabei nehme ich dem Fragenden ein wenig Arbeit ab.
Das ist zweifellos nett gemeint, aber langfristig nicht immer hilfreich.
So long,
Martin
Moin,
Nur dürfte es den Googlebot kaum interessieren, wenn ich ihm bestimmte Seite komplett vorenthalte und nur dem Besucher bereitstelle.
Aber wenn der Googlebot sich gar nicht so nennt und nur Besucher ist, dann enthältst du ihm auch nichts vor. Schwachstelle gefunden?
Viele Grüße,
Robert
Mahlzeit Anita,
Daran habe ich auch gedacht. Nur dürfte es den Googlebot kaum interessieren, wenn ich ihm bestimmte Seite komplett vorenthalte und nur dem Besucher bereitstelle.
[ ] Du weißt, dass der Googlebot (und vermutlich auch diverse andere Bots) gerne mal "als sie selbst" und mal "als irgendein menschlicher Benutzer" vorbeischauen ... unter anderem, um herauszufinden, ob der Seitenautor/-betreiber bescheißen will (denn nichts anderes ist der Versuch, einem Bot anderen Inhalt als menschlichen Benutzern vorzuspielen).
MfG,
EKKi
Hallo Anita,
meiner Erfahrung nach hält sich Google an die robots.txt. Allerdings hinderst du damit - oder per .htaccess - den Bot nur, deine Seiten zu crawlen, im Index bleiben sie trotzdem. Ich weiß jetzt allerdings nicht, ob für "ewig" oder ob sie dann doch nach einiger Zeit verschwinden.
Ich habe mich bei den Webmastertools von Google angemeldet und dann dort die nicht gewünschten Seiten aus dem Index entfernen lassen.
Gruß, Jürgen
Moin,
meiner Erfahrung nach hält sich Google an die robots.txt. Allerdings hinderst du damit - oder per .htaccess - den Bot nur, deine Seiten zu crawlen, im Index bleiben sie trotzdem. Ich weiß jetzt allerdings nicht, ob für "ewig" oder ob sie dann doch nach einiger Zeit verschwinden.
Ich habe soeben die Probe aufs Exempel mit Google, Yippy und Bing gemacht: Alle drei beachten die robots.txt und Änderungen daran. Ich habe vor kurzem Seiten per Bitte (robots.txt ist nur eine Bitte an den Bot) von der Indizierung ausschließen lassen und zumindest die genannten Suchmaschinen respektieren dies. Die Seiten werden bei einer Suche nur noch über den Titel gefunden, aber nicht mehr über den Inhalt.
Viele Grüße,
Robert