André: robot.txt

Guten Morgen,

mit einer robot.txt kann ich einzelne Seite für Suchmaschinen ausschließen, sofern die sich an die Vorgaben halten.

Gestern Abend schrieb mich ein User an, ob es möglich ist dass er seine Kontaktdaten veröffentlicht aber diese nicht an Google übermittelt werden. Ich meinte nur, soweit ich weiß geht dieses nicht, ich kann nur ganze Seiten ausschließen.

Stimmt diese Aussage oder ist es doch irgendwie möglich einzelne Bereich einer Seite z.B. alles was innerhalb von <div id=“kontakt“></div> liegt nicht zu übermitteln?

  1. Hallo

    mit einer robot.txt kann ich einzelne Seite für Suchmaschinen ausschließen, sofern die sich an die Vorgaben halten.

    Bis auf das fehlende „s“ in robots.txt ist das korrekt.

    Gestern Abend schrieb mich ein User an, ob es möglich ist dass er seine Kontaktdaten veröffentlicht aber diese nicht an Google übermittelt werden. Ich meinte nur, soweit ich weiß geht dieses nicht, ich kann nur ganze Seiten ausschließen.

    Stimmt diese Aussage oder ist es doch irgendwie möglich einzelne Bereich einer Seite z.B. alles was innerhalb von <div id=“kontakt“></div> liegt nicht zu übermitteln?

    Die Aussage ist korrekt. Abgesehen vom Umstand, dass eine Seite bereits übermittelt ist, wenn sie bei einem Client jenseits des Webservers angezeigt/eingelesen wird, gibt es keine Möglichkeit, einen Client zu bitten, anzuweisen oder gar zu zwingen, Teile des Dokuments zu ignorieren.

    Tschö, Auge

    --
    Wir hören immer wieder, dass Regierungscomputer gehackt wurden. Ich denke, man sollte die Sicherheit seiner Daten nicht Regierungen anvertrauen.
    Jan Koum, Mitgründer von WhatsApp, im Heise.de-Interview
    1. Hi,

      Abgesehen vom Umstand, dass eine Seite bereits übermittelt ist, wenn sie bei einem Client jenseits des Webservers angezeigt/eingelesen wird, gibt es keine Möglichkeit, einen Client zu bitten, anzuweisen oder gar zu zwingen, Teile des Dokuments zu ignorieren.

      aber man kann mit serverseitigen Techniken und User Agent Sniffing versuchen, bekannte Bots als Clients zu erkennen, und denen dann Teile des Dokuments vorenthalten.

      Natürlich ist das keine sichere Methode - niemand wird garantieren, dass man Suchmaschinen-Bots immer an ihrem UA erkennt. Aber andererseits ist auch die Masche mit robots.txt nicht sicher, denn wer sagt uns, dass die vielen Bots sich wirklich daran halten?

      So long,
       Martin

      1. Hallo

        Abgesehen vom Umstand, dass eine Seite bereits übermittelt ist, wenn sie bei einem Client jenseits des Webservers angezeigt/eingelesen wird, gibt es keine Möglichkeit, einen Client zu bitten, anzuweisen oder gar zu zwingen, Teile des Dokuments zu ignorieren.

        aber man kann mit serverseitigen Techniken und User Agent Sniffing versuchen, bekannte Bots als Clients zu erkennen, und denen dann Teile des Dokuments vorenthalten.

        Natürlich kann man das, auch wenn das nicht konkret erfragt wurde. Deine Betonung des Wortes „versuchen“ zeigt aber schon das erste Problem, die Erkennung solcher UserAgents (nicht die Strings). Zudem ergibt sich, zumindest für mich, aus der Fragestellung gleich die nächste (nicht unnehmbare) Hürde.

        Unterscheide zwischen grundsätzlich gleichartigen Inhalten, für deren eine Teilmenge gilt: „veröffentliche sie nur unter bestimmten Bedingungen“. Ganz wild würde es, um es gedanklich auf die Spitze zu treiben, wenn Nutzer A die Veröffentlichung gegenüber Google verhindern möchte und Nutzer B mit Google kein Problem hat, dafür aber z.B. mit Facebook.

        … Aber andererseits ist auch die Masche mit robots.txt nicht sicher, denn wer sagt uns, dass die vielen Bots sich wirklich daran halten?

        Das war soweit klar. André wies ja selbst schon im ersten Satz seines Eröffnungspostings darauf hin.

        Tschö, Auge

        --
        Wir hören immer wieder, dass Regierungscomputer gehackt wurden. Ich denke, man sollte die Sicherheit seiner Daten nicht Regierungen anvertrauen.
        Jan Koum, Mitgründer von WhatsApp, im Heise.de-Interview
      2. Hallo Martin,

        aber man kann mit serverseitigen Techniken und User Agent Sniffing versuchen, bekannte Bots als Clients zu erkennen, und denen dann Teile des Dokuments vorenthalten.

        Kann man machen, führt aber, wenn man erwischt wird, ggfls dazu, dass man „bestraft“ wird. Google sieht das überhaupt nicht gerne; das war mal eine beliebte Strategie, um User via Google auf eine Seite zu bekommen. Der Google-Bot hat dann andere Inhalte bekommen als der User, was dann dazu geführt hat, dass die Suchergebnisse nicht mit dem tatsächlichen Dokument übereinstimmten.

        LG,
        CK

        1. Hallo Christian Kruse,

          Kann man machen, führt aber, wenn man erwischt wird, ggfls dazu, dass man „bestraft“ wird. Google sieht das überhaupt nicht gerne; das war mal eine beliebte Strategie, um User via Google auf eine Seite zu bekommen. Der Google-Bot hat dann andere Inhalte bekommen als der User, was dann dazu geführt hat, dass die Suchergebnisse nicht mit dem tatsächlichen Dokument übereinstimmten.

          Und ich bin sicher, dass man erwischt wird, weil ich sicher bin, dass google überprüft, ob der Google-Bot andere Ergebnisse bekommt als andere.

          Bis demnächst
          Matthias

          --
          Das Geheimnis des Könnens liegt im Wollen. (Giuseppe Mazzini)
          1. Hallo Matthias,

            Und ich bin sicher, dass man erwischt wird, weil ich sicher bin, dass google überprüft, ob der Google-Bot andere Ergebnisse bekommt als andere.

            Klar. Das merken die. Die leben ja schließlich davon.

            LG,
            CK

        2. Hallo!

          ...das war mal eine beliebte Strategie, um User via Google auf eine Seite zu bekommen. Der Google-Bot hat dann andere Inhalte bekommen als der User, was dann dazu geführt hat, dass die Suchergebnisse nicht mit dem tatsächlichen Dokument übereinstimmten.

          Die sich Cloaking nennt.

          "Cloaking bezeichnet die Vorgehensweise, Besuchern einer Website und Suchmaschinen unterschiedliche Inhalte oder URLs bereitzustellen. Cloaking wird als Verstoß gegen unsere Richtlinien für Webmaster angesehen, da es unseren Nutzern andere Ergebnisse als erwartet liefert..."

          Da gäbe es noch: Verborgener Text und verborgene Links

          "Das Verbergen von Text oder Links in Ihren Inhalten mit dem Ziel, das Ranking in den Google-Suchergebnissen zu beeinflussen, kann von Google als Täuschung und somit als Verstoß gegen die Richtlinien für Webmaster angesehen werden."

          Googlebot möchte natürlich genau das sehen, was auch der menschliche Besucher zu sehen bekommt. Das gilt natürlich auch für Bing und andere Suchmaschinen.

          Eigentlich sollte der User immer die Möglichkeit haben, festlegen zu können, welche seiner Daten öffentlich sichbar sind.

          LG, Robert

  2. Moin!

    Stimmt diese Aussage oder ist es doch irgendwie möglich einzelne Bereich einer Seite z.B. alles was innerhalb von <div id=“kontakt“></div> liegt nicht zu übermitteln?

    Einige Webseiten verwenden einen "Spoiler", genau genommen einen Button bei dem auf einen Klick hin die Information mit Javascript geladen (woher auch immer, XHR-Request wäre eine Möglichkeit) und angezeigt wird.

    Ob das freilich dem Google-(oder einem anderen Bots) standhält lässt sich von außenstehenden weder für den aktuellen Zeitpunkt noch für die Zukunft zuverlässig behaupten. Der Google-Bot kann nämlich durchaus Javascript und die Bildersuche sicherlich auch OCR ...

    Jörg Reinholz

    1. Hallo Jörg Reinholz,

      Ob das freilich dem Google-(oder einem anderen Bots) standhält lässt sich von außenstehenden weder für den aktuellen Zeitpunkt noch für die Zukunft zuverlässig behaupten. Der Google-Bot kann nämlich durchaus Javascript und die Bildersuche sicherlich auch OCR ...

      Hinzu kommt, falls man verpflichtet ist Kontaktinformationen bereitzustellen, könnte diese Implementierung zu einer Abmahnung führen.

      Bis demnächst
      Matthias

      --
      Das Geheimnis des Könnens liegt im Wollen. (Giuseppe Mazzini)
      1. Moin!

        Gestern Abend schrieb mich ein User an,

        blahfasel

        Hinzu kommt, falls man verpflichtet ist Kontaktinformationen bereitzustellen, könnte diese Implementierung zu einer Abmahnung führen.

        Trifft hier eher nicht zu, es sei denn es handelt sich ein Angebot bei welchem die User auf einer eigenen (Sub-) Domain eine eigene Webseite betreiben können, wie. z.B. Blogspot.com oder Wordpress.com. Wer aber sowas betreibt, der wird eher nicht diese Frage stellen.

        Jörg Reinholz

  3. Hallo,

    um mal alle bisherigen Antworten zusammenzufassen: Du solltest das, was Google nicht zu sehen bekommen soll, nicht im Internet veröffentlichen...

    Gruß
    Kalk

    1. Hallo,

      um mal alle bisherigen Antworten zusammenzufassen: Du solltest das, was Google nicht zu sehen bekommen soll, nicht im Internet veröffentlichen...

      Freut mich, dass diese Aussage, die aber auch ein bisschen problematisch ist, da es ja vorkommen kann, dass andere genau das veröffentlichen, was ich selber vermeiden will, ein so positives Echo erhält. Aber kann es sein, @Matthias Apsel, dass ich dich damit plagiert habe, oder warum steht nicht mein Name im Zitatvorschlag?

      Gruß
      Kalk

      1. Hallo Tabellenkalk,

        Freut mich, dass diese Aussage, die aber auch ein bisschen problematisch ist, da es ja vorkommen kann, dass andere genau das veröffentlichen, was ich selber vermeiden will, ein so positives Echo erhält. Aber kann es sein, @Matthias Apsel, dass ich dich damit plagiert habe, oder warum steht nicht mein Name im Zitatvorschlag?

        Weil Matthias die falsche URL kopiert hat.

        LG,
        CK

        1. Hallo Christian Kruse,

          Weil Matthias die falsche URL kopiert hat.

          Sorry für die Umstände. Neuer Versuch, weil das nachträgliche Ändern des Autors nicht funktioniert hat. Der Name wird zwar geändert, nicht aber der Avatar.

          Bis demnächst
          Matthias

          --
          Das Geheimnis des Könnens liegt im Wollen. (Giuseppe Mazzini)
  4. mit einer robot.txt kann ich einzelne Seite für Suchmaschinen ausschließen, sofern die sich an die Vorgaben halten.

    Gestern Abend schrieb mich ein User an, ob es möglich ist dass er seine Kontaktdaten veröffentlicht aber diese nicht an Google übermittelt werden. Ich meinte nur, soweit ich weiß geht dieses nicht, ich kann nur ganze Seiten ausschließen.

    Da wäre jetzt die Frage, warum er die Kontaktdaten nicht auf eine per robots.txt ausgeschlossene Seite legen will oder können soll. Es ist übliche Vorgehensweise, nicht auf jede einzelne Seite seine Adresse zu schreiben, sondern diese zentral als Impressum zu hinterlegen.

    Das Impressum und mithin den eigenen Namen und die Anschrift per robots.txt aus Googles Index rauszuhalten ist möglich. Ich habe es seit jeher so, die jeweiligen Seiten werden vom Googlebot nicht abgerufen und sind (logischerweise) auch nicht per Suche aufzufinden.

    Teilweise ist über Google trotz Impressum nicht einmal mein Name mit den Angeboten in Verbindung zu bringen. Das hängt im Einzelfall aber von der Verbindung zu anderen Seiten ab; die Namensnennung durch Andere ist halt nicht kontrollierbar. Wenn ich hier schreibe, dass der Chefredakteur der Bild Diekmeier heisst (oder so, wer die Bild liest, möge mich korrigieren …), einschließlich Verweis zur Bild, dann braucht Google kein Impressum bei der Bild.