automatisches Auslesen von Webseiten erschweren. von molily, 08.06.2013 12:35

SELF-Forum

automatisches Auslesen von Webseiten erschweren.

molily Homepage des Autors 08.06.2013 12:35

+1 Informationen zu den Bewertungsregeln

Hallo,

Dass ich den HTML-Code dynamisch ändern muss, damit ein automatischer Parser geringere bis keine Chancen hat.

Geht es darum, Spiegeln zu verhindern oder das gezielte Extrahieren von Daten?

Will nicht das Rad neu erfinden, wenn ich es einfach nur an meine Anforderungen anpassen kann ;)

Da gibt es meines Wissens nichts fertiges, du müsstest das Rad neu erfinden.

Oder hat jemand ne andere/bessere Idee um Parser auszusperren?

Da gibt es tausende Möglichkeiten. Allerdings bringen diese jeweils Einschränkungen mit sich, du handelst dir Nachteile ein. Die Frage ist, welche Einschränkungen kannst du dir leisten?

Du kannst die Zugänglichkeit für Parser verringern und das maschinelle Auslesen der Daten erschweren, aber damit verschlechterst du auch die allgemeine Zugänglichkeit.

Beispiel: Verwende kein semantisches Markup, sondern zufällige ID und Klassen im HTML, CSS und JavaScript. Baue die Site mit JavaScript zusammen, sodass du sie clientseitig synchron entschlüsselst (Schlüssel inbegriffen). Das ist naturgemäß nur Obfuscation, klar. Der Aufwand, es zu lesen, ist geringer als dein Aufwand, es zu verschleiern.

Mit diesem Setup machst du deine Site auch für legitime Nutzer schlechter zugänglich. Das Markup ist ohne Bedeutung, das CSS muss ständig neu geladen werden, ohne JavaScript läuft nichts, die Seite ist langsamer, Suchmaschinen werden deine Site ignorieren usw. Wenn du daran bisher nicht gedacht hast, solltest du vorsichtig sein, solche Techniken zu implementieren. Sie können u.U. mehr schaden als nutzen.

Natürlich bin ich auch an Meinungen interessiert, die mein Vorhaben kritisch beäugen. Da steckt viel Arbeit und Geld im Relaunch, deshalb viel Aufwand gegen kopierer ;)

Der Aufwand wäre besser in Abuse-Mails und DMCA-Takedown-Notices investiert, wenn deine Inhalte wirklich woanders im Netz auftauchen. Oder in sinnvolle SEO, damit deine Site im Gegensatz zu den Copycats auffindbar ist.

Grüße,
Mathias

--
Chaplin.js – JavaScript application architecture using Backbone.js.

Beitrag melden

+1 Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

molily: automatisches Auslesen von Webseiten erschweren.

Beitrag lesen

automatisches Auslesen von Webseiten erschweren.

automatisches Auslesen von Webseiten erschweren.

Anstand und Fairness - hier: Sockenpuppen

Frei zugängliche Webinhalte lassen sich nicht schützen