Auge: robot.txt

Beitrag lesen

Hallo

Abgesehen vom Umstand, dass eine Seite bereits übermittelt ist, wenn sie bei einem Client jenseits des Webservers angezeigt/eingelesen wird, gibt es keine Möglichkeit, einen Client zu bitten, anzuweisen oder gar zu zwingen, Teile des Dokuments zu ignorieren.

aber man kann mit serverseitigen Techniken und User Agent Sniffing versuchen, bekannte Bots als Clients zu erkennen, und denen dann Teile des Dokuments vorenthalten.

Natürlich kann man das, auch wenn das nicht konkret erfragt wurde. Deine Betonung des Wortes „versuchen“ zeigt aber schon das erste Problem, die Erkennung solcher UserAgents (nicht die Strings). Zudem ergibt sich, zumindest für mich, aus der Fragestellung gleich die nächste (nicht unnehmbare) Hürde.

Unterscheide zwischen grundsätzlich gleichartigen Inhalten, für deren eine Teilmenge gilt: „veröffentliche sie nur unter bestimmten Bedingungen“. Ganz wild würde es, um es gedanklich auf die Spitze zu treiben, wenn Nutzer A die Veröffentlichung gegenüber Google verhindern möchte und Nutzer B mit Google kein Problem hat, dafür aber z.B. mit Facebook.

… Aber andererseits ist auch die Masche mit robots.txt nicht sicher, denn wer sagt uns, dass die vielen Bots sich wirklich daran halten?

Das war soweit klar. André wies ja selbst schon im ersten Satz seines Eröffnungspostings darauf hin.

Tschö, Auge

--
Wir hören immer wieder, dass Regierungscomputer gehackt wurden. Ich denke, man sollte die Sicherheit seiner Daten nicht Regierungen anvertrauen.
Jan Koum, Mitgründer von WhatsApp, im Heise.de-Interview