robot.txt von Matthias Apsel, 11.03.2016 12:16

robot.txt

André 11.03.2016 09:45

Guten Morgen,

mit einer robot.txt kann ich einzelne Seite für Suchmaschinen ausschließen, sofern die sich an die Vorgaben halten.

Gestern Abend schrieb mich ein User an, ob es möglich ist dass er seine Kontaktdaten veröffentlicht aber diese nicht an Google übermittelt werden. Ich meinte nur, soweit ich weiß geht dieses nicht, ich kann nur ganze Seiten ausschließen.

Stimmt diese Aussage oder ist es doch irgendwie möglich einzelne Bereich einer Seite z.B. alles was innerhalb von <div id=“kontakt“></div> liegt nicht zu übermitteln?

Beitrag melden

– Informationen zu den Bewertungsregeln

robot.txt
Auge 11.03.2016 10:41

html

suchmaschinen
+2 Informationen zu den Bewertungsregeln
Hallo

mit einer robot.txt kann ich einzelne Seite für Suchmaschinen ausschließen, sofern die sich an die Vorgaben halten.

Bis auf das fehlende „s“ in robots.txt ist das korrekt.

Gestern Abend schrieb mich ein User an, ob es möglich ist dass er seine Kontaktdaten veröffentlicht aber diese nicht an Google übermittelt werden. Ich meinte nur, soweit ich weiß geht dieses nicht, ich kann nur ganze Seiten ausschließen.

Stimmt diese Aussage oder ist es doch irgendwie möglich einzelne Bereich einer Seite z.B. alles was innerhalb von <div id=“kontakt“></div> liegt nicht zu übermitteln?

Die Aussage ist korrekt. Abgesehen vom Umstand, dass eine Seite bereits übermittelt ist, wenn sie bei einem Client jenseits des Webservers angezeigt/eingelesen wird, gibt es keine Möglichkeit, einen Client zu bitten, anzuweisen oder gar zu zwingen, Teile des Dokuments zu ignorieren.

Tschö, Auge

--
Wir hören immer wieder, dass Regierungscomputer gehackt wurden. Ich denke, man sollte die Sicherheit seiner Daten nicht Regierungen anvertrauen.
Jan Koum, Mitgründer von WhatsApp, im Heise.de-Interview
Beitrag melden

+2
Informationen zu den Bewertungsregeln
1. robot.txt
  
  Der Martin 11.03.2016 10:57
  
  html
  
  suchmaschinen
  – Informationen zu den Bewertungsregeln
  Hi,
  
  Abgesehen vom Umstand, dass eine Seite bereits übermittelt ist, wenn sie bei einem Client jenseits des Webservers angezeigt/eingelesen wird, gibt es keine Möglichkeit, einen Client zu bitten, anzuweisen oder gar zu zwingen, Teile des Dokuments zu ignorieren.
  
  aber man kann mit serverseitigen Techniken und User Agent Sniffing versuchen, bekannte Bots als Clients zu erkennen, und denen dann Teile des Dokuments vorenthalten.
  
  Natürlich ist das keine sichere Methode - niemand wird garantieren, dass man Suchmaschinen-Bots immer an ihrem UA erkennt. Aber andererseits ist auch die Masche mit robots.txt nicht sicher, denn wer sagt uns, dass die vielen Bots sich wirklich daran halten?
  
  So long,
  Martin
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. robot.txt
    
    Auge 11.03.2016 11:14
    
    html
    
    suchmaschinen
    
    – Informationen zu den Bewertungsregeln
    Hallo
    
    Abgesehen vom Umstand, dass eine Seite bereits übermittelt ist, wenn sie bei einem Client jenseits des Webservers angezeigt/eingelesen wird, gibt es keine Möglichkeit, einen Client zu bitten, anzuweisen oder gar zu zwingen, Teile des Dokuments zu ignorieren.
    
    aber man kann mit serverseitigen Techniken und User Agent Sniffing versuchen, bekannte Bots als Clients zu erkennen, und denen dann Teile des Dokuments vorenthalten.
    
    Natürlich kann man das, auch wenn das nicht konkret erfragt wurde. Deine Betonung des Wortes „versuchen“ zeigt aber schon das erste Problem, die Erkennung solcher UserAgents (nicht die Strings). Zudem ergibt sich, zumindest für mich, aus der Fragestellung gleich die nächste (nicht unnehmbare) Hürde.
    
    Unterscheide zwischen grundsätzlich gleichartigen Inhalten, für deren eine Teilmenge gilt: „veröffentliche sie nur unter bestimmten Bedingungen“. Ganz wild würde es, um es gedanklich auf die Spitze zu treiben, wenn Nutzer A die Veröffentlichung gegenüber Google verhindern möchte und Nutzer B mit Google kein Problem hat, dafür aber z.B. mit Facebook.
    
    … Aber andererseits ist auch die Masche mit robots.txt nicht sicher, denn wer sagt uns, dass die vielen Bots sich wirklich daran halten?
    
    Das war soweit klar. André wies ja selbst schon im ersten Satz seines Eröffnungspostings darauf hin.
    
    Tschö, Auge
    
    --
    Wir hören immer wieder, dass Regierungscomputer gehackt wurden. Ich denke, man sollte die Sicherheit seiner Daten nicht Regierungen anvertrauen.
    Jan Koum, Mitgründer von WhatsApp, im Heise.de-Interview
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
  2. robot.txt
    
    Christian Kruse Homepage des Autors 11.03.2016 11:24
    
    html
    
    suchmaschinen
    
    +1 Informationen zu den Bewertungsregeln
    Hallo Martin,
    
    aber man kann mit serverseitigen Techniken und User Agent Sniffing versuchen, bekannte Bots als Clients zu erkennen, und denen dann Teile des Dokuments vorenthalten.
    
    Kann man machen, führt aber, wenn man erwischt wird, ggfls dazu, dass man „bestraft“ wird. Google sieht das überhaupt nicht gerne; das war mal eine beliebte Strategie, um User via Google auf eine Seite zu bekommen. Der Google-Bot hat dann andere Inhalte bekommen als der User, was dann dazu geführt hat, dass die Suchergebnisse nicht mit dem tatsächlichen Dokument übereinstimmten.
    
    LG,
    CK
    
    --
    https://wwwtech.de/about
    Beitrag melden
    
    +1
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. robot.txt
      
      Matthias Apsel 11.03.2016 12:16
      
      html
      
      suchmaschinen
      
      +2 Informationen zu den Bewertungsregeln
      
      Hallo Christian Kruse,
      
      Kann man machen, führt aber, wenn man erwischt wird, ggfls dazu, dass man „bestraft“ wird. Google sieht das überhaupt nicht gerne; das war mal eine beliebte Strategie, um User via Google auf eine Seite zu bekommen. Der Google-Bot hat dann andere Inhalte bekommen als der User, was dann dazu geführt hat, dass die Suchergebnisse nicht mit dem tatsächlichen Dokument übereinstimmten.
      
      Und ich bin sicher, dass man erwischt wird, weil ich sicher bin, dass google überprüft, ob der Google-Bot andere Ergebnisse bekommt als andere.
      
      Bis demnächst
      Matthias
      
      --
      Das Geheimnis des Könnens liegt im Wollen. (Giuseppe Mazzini)
      
      Beitrag melden
      
      +2
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. robot.txt
        
        Christian Kruse Homepage des Autors 11.03.2016 20:06
        
        html
        
        suchmaschinen
        
        – Informationen zu den Bewertungsregeln
        
        Hallo Matthias,
        
        Und ich bin sicher, dass man erwischt wird, weil ich sicher bin, dass google überprüft, ob der Google-Bot andere Ergebnisse bekommt als andere.
        
        Klar. Das merken die. Die leben ja schließlich davon.
        
        LG,
        CK
        
        --
        https://wwwtech.de/about
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
    2. robot.txt
      
      Jonny 5 12.03.2016 10:41 (Versionen)
      
      html
      
      suchmaschinen
      
      +2 Informationen zu den Bewertungsregeln
      
      Hallo!
      
      ...das war mal eine beliebte Strategie, um User via Google auf eine Seite zu bekommen. Der Google-Bot hat dann andere Inhalte bekommen als der User, was dann dazu geführt hat, dass die Suchergebnisse nicht mit dem tatsächlichen Dokument übereinstimmten.
      
      Die sich Cloaking nennt.
      
      "Cloaking bezeichnet die Vorgehensweise, Besuchern einer Website und Suchmaschinen unterschiedliche Inhalte oder URLs bereitzustellen. Cloaking wird als Verstoß gegen unsere Richtlinien für Webmaster angesehen, da es unseren Nutzern andere Ergebnisse als erwartet liefert..."
      
      Da gäbe es noch: Verborgener Text und verborgene Links
      
      "Das Verbergen von Text oder Links in Ihren Inhalten mit dem Ziel, das Ranking in den Google-Suchergebnissen zu beeinflussen, kann von Google als Täuschung und somit als Verstoß gegen die Richtlinien für Webmaster angesehen werden."
      
      Googlebot möchte natürlich genau das sehen, was auch der menschliche Besucher zu sehen bekommt. Das gilt natürlich auch für Bing und andere Suchmaschinen.
      
      Eigentlich sollte der User immer die Möglichkeit haben, festlegen zu können, welche seiner Daten öffentlich sichbar sind.
      
      LG, Robert
      
      Beitrag melden
      
      +2
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
robot.txt
Jörg Reinholz Homepage des Autors 11.03.2016 11:16 (Versionen)

html

suchmaschinen
– Informationen zu den Bewertungsregeln
Moin!

Stimmt diese Aussage oder ist es doch irgendwie möglich einzelne Bereich einer Seite z.B. alles was innerhalb von <div id=“kontakt“></div> liegt nicht zu übermitteln?

Einige Webseiten verwenden einen "Spoiler", genau genommen einen Button bei dem auf einen Klick hin die Information mit Javascript geladen (woher auch immer, XHR-Request wäre eine Möglichkeit) und angezeigt wird.

Ob das freilich dem Google-(oder einem anderen Bots) standhält lässt sich von außenstehenden weder für den aktuellen Zeitpunkt noch für die Zukunft zuverlässig behaupten. Der Google-Bot kann nämlich durchaus Javascript und die Bildersuche sicherlich auch OCR ...

Jörg Reinholz
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. robot.txt
  
  Matthias Apsel 11.03.2016 12:18
  
  html
  
  suchmaschinen
  – Informationen zu den Bewertungsregeln
  Hallo Jörg Reinholz,
  
  Ob das freilich dem Google-(oder einem anderen Bots) standhält lässt sich von außenstehenden weder für den aktuellen Zeitpunkt noch für die Zukunft zuverlässig behaupten. Der Google-Bot kann nämlich durchaus Javascript und die Bildersuche sicherlich auch OCR ...
  
  Hinzu kommt, falls man verpflichtet ist Kontaktinformationen bereitzustellen, könnte diese Implementierung zu einer Abmahnung führen.
  
  Bis demnächst
  Matthias
  
  --
  Das Geheimnis des Könnens liegt im Wollen. (Giuseppe Mazzini)
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. robot.txt
    
    Jörg Reinholz Homepage des Autors 11.03.2016 17:25
    
    html
    
    suchmaschinen
    
    – Informationen zu den Bewertungsregeln
    Moin!
    
    Gestern Abend schrieb mich ein User an,
    
    blahfasel
    
    Hinzu kommt, falls man verpflichtet ist Kontaktinformationen bereitzustellen, könnte diese Implementierung zu einer Abmahnung führen.
    
    Trifft hier eher nicht zu, es sei denn es handelt sich ein Angebot bei welchem die User auf einer eigenen (Sub-) Domain eine eigene Webseite betreiben können, wie. z.B. Blogspot.com oder Wordpress.com. Wer aber sowas betreibt, der wird eher nicht diese Frage stellen.
    
    Jörg Reinholz
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
robot.txt
Tabellenkalk 11.03.2016 11:32

suchmaschinen
+8 Informationen zu den Bewertungsregeln
Hallo,

um mal alle bisherigen Antworten zusammenzufassen: Du solltest das, was Google nicht zu sehen bekommen soll, nicht im Internet veröffentlichen...

Gruß
Kalk
Grundlage für Zitat #2095.

Beitrag melden

+8
Informationen zu den Bewertungsregeln
1. robot.txt
  
  Tabellenkalk 11.03.2016 12:28
  
  suchmaschinen
  
  zu diesem forum
  – Informationen zu den Bewertungsregeln
  Hallo,
  
  um mal alle bisherigen Antworten zusammenzufassen: Du solltest das, was Google nicht zu sehen bekommen soll, nicht im Internet veröffentlichen...
  
  Freut mich, dass diese Aussage, die aber auch ein bisschen problematisch ist, da es ja vorkommen kann, dass andere genau das veröffentlichen, was ich selber vermeiden will, ein so positives Echo erhält. Aber kann es sein, @Matthias Apsel, dass ich dich damit plagiert habe, oder warum steht nicht mein Name im Zitatvorschlag?
  
  Gruß
  Kalk
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. robot.txt
    
    Christian Kruse Homepage des Autors 11.03.2016 12:29
    
    suchmaschinen
    
    zu diesem forum
    
    – Informationen zu den Bewertungsregeln
    Hallo Tabellenkalk,
    
    Freut mich, dass diese Aussage, die aber auch ein bisschen problematisch ist, da es ja vorkommen kann, dass andere genau das veröffentlichen, was ich selber vermeiden will, ein so positives Echo erhält. Aber kann es sein, @Matthias Apsel, dass ich dich damit plagiert habe, oder warum steht nicht mein Name im Zitatvorschlag?
    
    Weil Matthias die falsche URL kopiert hat.
    
    LG,
    CK
    
    --
    https://wwwtech.de/about
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. robot.txt
      
      Matthias Apsel 11.03.2016 13:01
      
      zu diesem forum
      
      – Informationen zu den Bewertungsregeln
      
      Hallo Christian Kruse,
      
      Weil Matthias die falsche URL kopiert hat.
      
      Sorry für die Umstände. Neuer Versuch, weil das nachträgliche Ändern des Autors nicht funktioniert hat. Der Name wird zwar geändert, nicht aber der Avatar.
      
      Bis demnächst
      Matthias
      
      --
      Das Geheimnis des Könnens liegt im Wollen. (Giuseppe Mazzini)
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
robot.txt
Kartoffelhans 11.03.2016 20:14

html

suchmaschinen
– Informationen zu den Bewertungsregeln
mit einer robot.txt kann ich einzelne Seite für Suchmaschinen ausschließen, sofern die sich an die Vorgaben halten.

Gestern Abend schrieb mich ein User an, ob es möglich ist dass er seine Kontaktdaten veröffentlicht aber diese nicht an Google übermittelt werden. Ich meinte nur, soweit ich weiß geht dieses nicht, ich kann nur ganze Seiten ausschließen.

Da wäre jetzt die Frage, warum er die Kontaktdaten nicht auf eine per robots.txt ausgeschlossene Seite legen will oder können soll. Es ist übliche Vorgehensweise, nicht auf jede einzelne Seite seine Adresse zu schreiben, sondern diese zentral als Impressum zu hinterlegen.

Das Impressum und mithin den eigenen Namen und die Anschrift per robots.txt aus Googles Index rauszuhalten ist möglich. Ich habe es seit jeher so, die jeweiligen Seiten werden vom Googlebot nicht abgerufen und sind (logischerweise) auch nicht per Suche aufzufinden.

Teilweise ist über Google trotz Impressum nicht einmal mein Name mit den Angeboten in Verbindung zu bringen. Das hängt im Einzelfall aber von der Verbindung zu anderen Seiten ab; die Namensnennung durch Andere ist halt nicht kontrollierbar. Wenn ich hier schreibe, dass der Chefredakteur der Bild Diekmeier heisst (oder so, wer die Bild liest, möge mich korrigieren …), einschließlich Verweis zur Bild, dann braucht Google kein Impressum bei der Bild.
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

André: robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt

robot.txt