M.: automatisches Auslesen von Webseiten erschweren.

Mahlzeit,
um zu verhindern, dass eine Webseite automatisch ausgelesen und daraus eine Datenbank erstellt wird, will ich die Seitenstruktur ständig verändern.
Es geht darum, dass die Arbeit und Zeit, die in einem Projekt steckt, nicht einfach kopiert werden kann, zumindest am Anfang.

Dass ich den HTML-Code dynamisch ändern muss, damit ein automatischer Parser geringere bis keine Chancen hat.

Was mich interessiert, gibts da schon Ansätze, Libs oder Klassen, die ein solches Vorhaben erleichtern (PHP und, auf Template-Basis, Smarty3)?

Will nicht das Rad neu erfinden, wenn ich es einfach nur an meine Anforderungen anpassen kann ;)

Wenns da nix gibt, werd ich das müssen, Konzept steht ja schon.

Oder hat jemand ne andere/bessere Idee um Parser auszusperren?

Es ist nicht nur eine Vorsichtsmassnahme sondern ich habe aktuell Zugriffe aus den USA und China, die massiv die aktuelle Projektseite spiegeln.

Mir ist klar, dass das Spiegeln an sich nicht verhindert werden kann und auch Links etc. können aufgerufen werden, egal, wo sie stehen, aber der Kontext (Details zum Link etc. müssen dann per Hand rausgearbeitet werden)

Natürlich bin ich auch an Meinungen interessiert, die mein Vorhaben kritisch beäugen. Da steckt viel Arbeit und Geld im Relaunch, deshalb viel Aufwand gegen kopierer ;)

  1. Dass ich den HTML-Code dynamisch ändern muss, damit ein automatischer Parser geringere bis keine Chancen hat,

    Da fehlt noch ein "ist mir klar" am Ende des Satzes.

    1. 1. Wenn Leute wie Du HTML erfunden hätten, wäre HTML-Quellcode heute verschlüsselt und das entschlüsseln strafbar.

      2. Wenn Du nicht willst, daß Leute deine Ideen nehmen, verändern und neu kombinieren, warum stellst Du Sie überhaupt ins Netz? Du spammst nur die Suchmaschinen voll.

      3. Wahrscheinlich willst Du deinen Content gegen ein prächtiges Sümmchen verkaufen, aber fragst hier nach kostenloser Hilfe. Zumindest von mir erhältst Du die nicht :-p

      1. Moin Ernst,

        ich finde sein Anliegen durchaus nachvollziehbar. Nichts gegen die Remix-Kultur (die sich IMHO selber ziemlich hochlobt), aber das automatisierte kopieren von Daten um dann selber davon zu profitieren ist nicht in Ordnung. Kopieren um jeden Preis finde ich nicht richtig.

        Du kennst Huckelberry Finn? Die Zaun-Steicher-Szene? Was würdest du sagen, wenn du meinen Zaun streichst und ich kriege dafür die Entlohnung und die Lorbeeren?

        LG,
         CK

      2. Da du mein Vorhaben so massiv angreifst, geh ich davon aus, dass du zu den Leuten gehörst, die der Meinung sind, Raubkopien gehören zum Grundrecht eines Menschen

        1. Wahrscheinlich willst Du deinen Content gegen ein prächtiges Sümmchen verkaufen, aber fragst hier nach kostenloser Hilfe. Zumindest von mir erhältst Du die nicht :-p

        Von jemanden, wie dir will ich gar keine Hilfe, ich will Hilfe von Leuten, die das geistige Eigentum anderer respektieren und nicht dessen Schutz mit Beleidigungen schlecht machen.

        Und nur um die Lügen zu strafen: Das Projekt ist kostenlos und werbefrei. Aber das passt sicher nicht in deinen Unterstellungspost, deshalb interessiert es dich sicher nicht

        BTW: Ich hab im Archiv keinen Beitrag von dir gefunden, der auch nur ansatzweise irgendwem hilft. Naja, genaugenommen hab gar nichts gefunden, ausser eine _Frage_ von dir hier in den aktiven Themen

        1. Guten Abend,

          Da du mein Vorhaben so massiv angreifst, geh ich davon aus, dass du zu den Leuten gehörst, die der Meinung sind, Raubkopien gehören zum Grundrecht eines Menschen

          Es gibt keine Raubkopien. Wenn ich etwas kopiere fehlt das Original nicht. Das Wort "Raubkopie" ist der reine Schwachsinn.

          Und nur um die Lügen zu strafen:

          Lügen strafen ist so sinnlos wie Bier gegen Alkoholismus.

          Das Projekt ist kostenlos und werbefrei.

          Finde ich gut. Dann ist das Problem ja gelöst. Lade, wie schon gesagt, deinen Content auf z.B. sourceforge hoch.

          Grundsätzlich wollen Leute, die deine Seite spiegeln, in der Regel nicht damit Geld verdienen, sondern den Content sichern.

          BTW: Ich hab im Archiv keinen Beitrag von dir gefunden, der auch nur ansatzweise irgendwem hilft. Naja, genaugenommen hab gar nichts gefunden, ausser eine _Frage_ von dir hier in den aktiven Themen

          Das ist zwar nicht wichtig in Bezug auf deine Frage, aber ich bin hier nicht angemeldet und poste unter verschiedenen Namen. Die Leute sollen mich nach der Qualität meiner Aussagen beurteilen.

          Viele Grüße, Ernst

          1. Grundsätzlich wollen Leute, die deine Seite spiegeln, in der Regel nicht damit Geld verdienen, sondern den Content sichern.

            Klar, und Leute, die Software illegal kopieren wollen sie nur für die Nachwelt aufheben, falls der Hersteller in einem schwarzen Loch verschwindet.

            Das ist zwar nicht wichtig in Bezug auf deine Frage, aber ich bin hier nicht angemeldet und poste unter verschiedenen Namen.

            Du bist also eine Sockenpuppe und das, obwohl das hier mindestens unerwünscht, wenn nicht per Forenregeln verboten ist ...

            Die Leute sollen mich nach der Qualität meiner Aussagen beurteilen.

            In diesem Thread ist die scheisse. Und da du eine Sockenpuppe bist, ist dein Verhalten grundsätzlich fragwürdig und deine Beiträge vermutlich ebenso.

            Wer nicht mit seinem Namen dazu steht, was er schreibt (und wenn es nur ein gleichbleibendes Pseudonym ist), den kann ich nicht ernst nehmen. Somit ist dein Name nicht Programm.

            1. Tag,

              Grundsätzlich wollen Leute, die deine Seite spiegeln, in der Regel nicht damit Geld verdienen, sondern den Content sichern.

              Klar, und Leute, die Software illegal kopieren wollen sie nur für die Nachwelt aufheben, falls der Hersteller in einem schwarzen Loch verschwindet.

              Das weiß ich nicht, ist aber eine Verdrehung meiner Aussage. Ich speichere den Text einer Webseite, wenn er mir wichtig vorkommt, auf meinem Rechner, definitiv um ihn zu sichern.

              Du bist also eine Sockenpuppe und das, obwohl das hier mindestens unerwünscht, wenn nicht per Forenregeln verboten ist ...

              Du verdrehst auch das. Das ist Quatsch. Das Selfhtml Forum bietet Leuten die Möglichkeit, ohne Anmelde-Stress etwas zu posten, was ich sehr schätze, und darum mache ich davon Gebrauch. Und das ist gut so.

              Die Leute sollen mich nach der Qualität meiner Aussagen beurteilen.

              In diesem Thread ist die scheisse.

              Das mag stimmen, Sie pauschal als Scheisse zu titulieren, ist aber kein Beweis. Widerlege meine Argumente, wenn Du sie verstanden hast.

              Und da du eine Sockenpuppe bist (etc etc)

              Quatsch.

              Ernst

              1. Hallo,

                Du bist also eine Sockenpuppe und das, obwohl das hier mindestens unerwünscht, wenn nicht per Forenregeln verboten ist ...
                Du verdrehst auch das. Das ist Quatsch. Das Selfhtml Forum bietet Leuten die Möglichkeit, ohne Anmelde-Stress etwas zu posten, was ich sehr schätze, und darum mache ich davon Gebrauch. Und das ist gut so.

                ja, das finde ich auch gut so. Und jedem steht es frei, sich einen Phantasienamen, ein Pseudonym auszudenken und damit quasi-anonym zu bleiben. Ausdrücklich unerwünscht ist aber, diesen Namen häufig zu wechseln.

                Solange das nur in getrennten und womöglich sogar themenfremden Threads ist, wird wahrscheinlich noch keiner von den Moderatoren etwas dagegen einwenden, geschweige denn unternehmen. Sobald aber der Eindruck entsteht, dass jemand mit mehreren Identitäten *gleichzeitig* unterwegs ist, vielleicht sogar mit seinem eigenen alter ego einen Scheindialog anzettelt, um Aufmerksamkeit zu erregen ... dann werden "wir" schon mal an den Teilnehmer appellieren, das doch bitte zu unterlassen.

                Wirklich verhindern können wir es nicht; wir sind also auf ein wenig Fairness angewiesen.

                Die Leute sollen mich nach der Qualität meiner Aussagen beurteilen.

                In Ordnung. Das können sie aber auch, wenn du bei einem Namen bleibst.

                So long,
                 Martin

                --
                Du kannst dem Leben nicht mehr Tage geben.
                Aber dem Tag mehr Leben.
                Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(
                1. Hallo,

                  Gut, ich verwende jetzt erstmal den Namen "Ernst".

                  Ernst

    2. Noch eines: Massendownloads sind tatsächlich ärgerlich. Einfache Abhilfe: Deinen Content zippen auf sourceforge o.Ä. hochladen. Hatte ich schon erwähnt, daß man Sich SELFHTML kostenlos runterladen kann?

    3. Kommt jetzt genau im Detail drauf an was du machen willst.

      Um genau zu sein sehe ich da zwei unterschiede.

      1. "Diebe" die einmal auf deine Seite kommen und ein sagen wir mal "Screenshot" machen. Die wirste wohl niemals ausschliessen können.

      2. "Diebe" die Teile deiner Webseite in Regelmässigen abständen klauen. Ich muss gestehen dazu zähle ich. Also nicht direkt bei dir, aber ich hab eine "Verbindung" zu einer anderen Seite gebaut, die Teile meiner Datenbank aktuell hält. Deshalb kann ich ein wenig aus eigener Erfahrung sprechen.
      Ärgerlich ist, wenn sich die HTML Struktur ändert. Kommt natürlich drauf an wie stabil man das ganze baut. Wenn man HTML Tags zählt um dann Content aus irgendeiner Zelle zu holen, reicht es schon aus, ein paar dummy Zellen/Tags in den Code ein zu bauen.

      Ansonsten gibt es ein paar "Abwehrmaßnahmen gegen PHP-CURL".

      Hilfe war nicht wirklich professionell - ist schon spät *Gähn*. Hoffe ich konnte trotzdem helfen!

      Gruß
      Nachtschwärmer
      T-Rex

      1. Tach!

        Ansonsten gibt es ein paar "Abwehrmaßnahmen gegen PHP-CURL".

        Nein, die gibt es nach wie vor nicht (auch nicht unter diesem Stichwort zu finden). Ob ein Request von curl, von ein Browser oder aus einzeln zusammengefügten Bytes erstellt wurde, lässt sich am Server nicht erkennen.

        Es gibt nur die üblichen Verdächtigen, um Menschen von Maschinen zu unterscheiden. Captchas einzugeben, allein schon zum Stöbern auf einer Seite, ist bisher noch unüblich und vermutlich nicht zielführend/gewünscht. Zudem ist es auch recht billig, sie lösen zu lassen. Und es wird sicherlich nicht jede Seite vercaptchat werden sollen, um die normalen Besucher nicht zu vergraulen. Ein einzelnes löst der Angreifer mal eben nebenbei, während er das Crawlen startet. Ein geschlossener Nutzerkreis mit Login wäre wohl eher angebracht. Doch auch hier ist es nicht übermäßig schwer, Logins zum Zwecke des Crawlens zu erstellen, wenn man die Logins nicht handverlesen nur an bekannte Nasen vergeben möchte.

        Um ein wenig die Maschinen zu behindern und Menschen kaum, könnte man die Inhalte mit Ajax nachladen. Aber auch Ajax-Requests kann man nachbauen. Da kann man nur den Parse-Aufwand hochtreiben, indem man die Abruf-URL nicht direkt lesbar im Code liegen hat, auf sie nicht ohne Key zugreifen kann und diesen Key möglichst verschleiert erzeugt. Letztlich hilft das aber alles nichts, weil jeder Browser alle Daten im Klartext braucht. Man kann das Javascript analysieren und die Funktionalität nachbauen.

        dedlfix.

        1. Du hast natürlich recht zu 100% kann man es nicht verhindern, aber man kann es erschweren. Je nachdem wie der Angreifer die Requests verarbeitet bzw. welche Anfrage er schickt, kann man die Requests blocken oder einfach leicht veränderten HTML Code ausliefern.
          Ich hab irgendwann auch mal einen Blockeintrag mit 10 Maßnahmen gegen Curl gelesen. Ich suche schon die ganze Zeit verzweifelt die url :(.

          So wie ich das ganze aber lese, ist das vorhaben welches der Threadstarter verfolgt nicht umsetzbar.

          Gruß
          100%
          T-Rex

          1. Tach!

            Ich hab irgendwann auch mal einen Blockeintrag mit 10 Maßnahmen gegen Curl gelesen. Ich suche schon die ganze Zeit verzweifelt die url :(.

            Versteif dich mal nicht so auf Curl. Das Problem ist ein generelles. Man kann, wie schon gesagt, mit Curl haargenau dieselben Requests nachbilden, wie sie ein Browser sendet. Wenn du Requests ablehnst, die browseruntypisch sind, muss der Crawler/Bot-Entwickler daraufhin nur sein Produkt ein wenig anpassen. Es sind lediglich ein paar wenige Stufen im Wettrüsten bis zu Ende der einfachen Maßnahmen. Der nächste Schritt wäre dann das Request-Verhalten zu analysierten. Bots gehen üblicherweise gezielt vor. Wenn nur der Request nach der HTML-Ressource kommt, aber keine nach eingebundenen Ressourcen, besonders wenn das der erste Aufruf von dieser IP war, dann kann das ein Indiz zur Bot-Erkennung sein. Kann aber auch nach hinten losgehen und unschuldige Nutzer mit Cache-Nutzung treffen. Es ist auch schwierig, sowas automatisch zu erkenenn, weil du dann quasi eine Verhaltensanalyse programmieren musst. Es ist jedenfalls einfacher, auf Angreiferseite das Requestverhalten eines normalen Nutzer nachzubauen.

            dedlfix.

        1. "Diebe" die einmal auf deine Seite kommen und ein sagen wir mal "Screenshot" machen. Die wirste wohl niemals ausschliessen können.

        Das ist klar, das will ich auch gar nicht.

        1. "Diebe" die Teile deiner Webseite in Regelmässigen abständen klauen. Ich muss gestehen dazu zähle ich. Also nicht direkt bei dir, aber ich hab eine "Verbindung" zu einer anderen Seite gebaut, die Teile meiner Datenbank aktuell hält. Deshalb kann ich ein wenig aus eigener Erfahrung sprechen.

        Wenn jemand einen Teil klaut, ist das auch nicht schlimm. Mir geht es darum, dass jemand das, was ich in mehreren Monaten aufgebaut hab, komplett klaut und dann ein identisches Projekt macht. Wenn schon mehrere "klauer" aus China anfangen auf der jetzigen Seite alles zu spidern, was es gibt, wird das, beim erweiterten Projekt schon schlimmer werden.

        Ärgerlich ist, wenn sich die HTML Struktur ändert. Kommt natürlich drauf an wie stabil man das ganze baut. Wenn man HTML Tags zählt um dann Content aus irgendeiner Zelle zu holen, reicht es schon aus, ein paar dummy Zellen/Tags in den Code ein zu bauen.

        Ich muss halt sehen, was ich verändern kann ohne Google und Co. zu ärgern.

        Ansonsten gibt es ein paar "Abwehrmaßnahmen gegen PHP-CURL".

        Das wird nix bringen, die Spidern mit IE6 und XP SP2 als Browserkennung. Aber zumindest habe ich jetzt erstmal alles geblockt, was reine HEAD-requests sind und alles, was noch http1.0 ist.

        Zumindest hat das vorerst die Chinesen ausgesperrt bzw. bekommen sie jetzt einen 403er mit dem Text: Chinese spammers have a very small penis *g*

        Hilfe war nicht wirklich professionell - ist schon spät *Gähn*. Hoffe ich konnte trotzdem helfen!

        Viel besser als das, was Ernst abgelassen hat und zumindest Denkansätze waren dabei :)

        1. Hallo,

          Aber zumindest habe ich jetzt erstmal alles geblockt, was reine HEAD-requests sind und alles, was noch http1.0 ist.

          Verzeihung, aber weißt du wirklich, was du da tust? HEAD-Requests sind essentiell für viele legitime Nutzungsarten. Auch Suchmaschinen-Robots können diese verwenden.

          Inwiefern hilft es gegen das Abgrasen deiner Site, gerade HEAD-Requests zu blocken? Wenn ich deinen Content will, sende ich keine HEAD-Requests.

          Mathias

          1. Verzeihung, aber weißt du wirklich, was du da tust? HEAD-Requests sind essentiell für viele legitime Nutzungsarten. Auch Suchmaschinen-Robots können diese verwenden.

            Diese Entscheidung habe ich durch Recherche im Netz getroffen. Sämtliche Bots in meinem Logfile verwenden GET-Requests.

            Ich will den Block auch nur noch heute drauf lassen, dann hoffe ich, dass die "Schnüffler" aufgeben

            Inwiefern hilft es gegen das Abgrasen deiner Site, gerade HEAD-Requests zu blocken? Wenn ich deinen Content will, sende ich keine HEAD-Requests.

            Dann haben die nen anderen Grund. Kann ja auch sein, dass es gar kein Kopierversuch sondern der Versuch in den Server einzubrechen ist.

            Ich kann zwar einen Server administrieren, bin aber kein Sicherheitsexperte und ich kenne nicht die Tricks von Hackern, daher kann ich die Requests nicht anders deuten.

            1. Hallo,

              Diese Entscheidung habe ich durch Recherche im Netz getroffen.

              Die HTTP-Spezifikation ist dir bekannt…?

              Sämtliche Bots in meinem Logfile verwenden GET-Requests.

              Klar, das ist die HTTP-Methode zum Anfordern von statischen Inhalten.

              Inwiefern hilft es gegen das Abgrasen deiner Site, gerade HEAD-Requests zu blocken? Wenn ich deinen Content will, sende ich keine HEAD-Requests.

              Dann haben die nen anderen Grund. Kann ja auch sein, dass es gar kein Kopierversuch sondern der Versuch in den Server einzubrechen ist.

              Wie kommst du darauf? Es sind ganz normale HEAD-Requests. HEAD ist eine HTTP-Methode von vielen. Damit lässt sich der Status einer Ressource abfragen, ohne dessen Inhalt anzufordern. Aus nahe liegenden Gründen nutzen viele legitime HTTP-Clients diese Methode (neben Conditional GET), um zu testen, ob die Ressource noch existiert oder eine neuere Version vorliegt. Das können auch Browser oder Suchmaschinen sein.

              Wieso sollte jemand damit in deinen Server einbrechen wollen? Das bloße Vorhandensein von HEAD-Requests im Log ist kein Hinweis auf einen Angriffsversuch.

              Ich kann zwar einen Server administrieren, bin aber kein Sicherheitsexperte und ich kenne nicht die Tricks von Hackern, daher kann ich die Requests nicht anders deuten.

              Informiere dich besser über HTTP, bevor du harmlose Anfragen fehlinterpretierst und hinter ihnen Angriffe vermutest. Das kann schnell nach hinten losgehen, wenn du z.B. den Googlebot in seiner Arbeit behinderst.

              Mathias

              1. Wie kommst du darauf?

                Hab ich gelesen. In einem Artikel stand, dass damit geprüft wird, ob eine Datei evtl. angreifbar ist.

                Wieso sollte jemand damit in deinen Server einbrechen wollen? Das bloße Vorhandensein von HEAD-Requests im Log ist kein Hinweis auf einen Angriffsversuch.

                Aber über 4 Wochen jede Sekunde 5 Zugriffe dürften von einem normalen Userverhalten abweichen. Ebneso ein UA der zwar behauptet XP SP2 zu sein mit IE6 aber dann per HTTP1.0 anfrängt. Das widersprichts sich IMO

                Informiere dich besser über HTTP, bevor du harmlose Anfragen fehlinterpretierst und hinter ihnen Angriffe vermutest.

                Daran arbeite ich, da es ja offensichtlich notwendig ist.

                Das kann schnell nach hinten losgehen, wenn du z.B. den Googlebot in seiner Arbeit behinderst.

                Der hat keine Probleme, ebenso wenig wie der Bingbot und die anderen Suma-Bots. Ich habs geprüft. Die fragen ja auch per GET und mit HTTP1.1 an.

  2. Moin M.,

    meines Wissens nach gibt es da nichts fertiges. Ich würde aber an deiner Stelle einfach Random-mässig irgendwo Tags und Links einfügen, die ich dann via CSS wieder ausblende.

    Klar, das ist kein perfekter Schutz, aber es dürfte reichen um Bots aus dem Konzept zu bringen.

    LG,
     CK

    1. Moin M.,

      meines Wissens nach gibt es da nichts fertiges. Ich würde aber an deiner Stelle einfach Random-mässig irgendwo Tags und Links einfügen, die ich dann via CSS wieder ausblende.

      Ja, sowas schwebt mir vor. Soll halt nur schön rafiniert sein, da überleg ich nochmal.

      Klar, das ist kein perfekter Schutz, aber es dürfte reichen um Bots aus dem Konzept zu bringen.

      Es gibt keinen perfekten Schutz, das ist klar. Aber wenn ich die Content-Klauer ein bisschen ärgern kann, reicht das ja schon

  3. Imho. ist das nicht die Aufgabe eines Webdesigners, sondern eines Anwalts.
    Mit derartigen Verschleierungs-Techniken büßt du allenfalls Suchmaschinen-Ranking ein.

    1. Imho. ist das nicht die Aufgabe eines Webdesigners, sondern eines Anwalts.

      Kannst du mir nen guten Anwalt empfehlen, der in China und USA erfolgreich gegen solche Leute vorgehen kann? ;)

      Mit derartigen Verschleierungs-Techniken büßt du allenfalls Suchmaschinen-Ranking ein.

      Stimmt, daran hab ich noch gar nicht gedacht.

  4. Mahlzeit!

    um zu verhindern, dass eine Webseite automatisch ausgelesen und daraus eine Datenbank erstellt wird,

    Warum "versteckst" du sie dann nicht hinter einem Login?

    will ich die Seitenstruktur ständig verändern.

    Sorry, aber das ist wohl eine schlechte Idee ...! Aus mehreren Gründen, wovon einige ja hier im Thread schon genannt wurden.

    Fakt ist nun mal, dass "frei zugängliche" Inhalte im Web *nicht* geschützt werden können.
    Stellst du also Inhalte online, sind diese auch prinzipiell für alles und jeden zugänglich.

    Es geht darum, dass die Arbeit und Zeit, die in einem Projekt steckt, nicht einfach kopiert werden kann, zumindest am Anfang.

    Der Wunsch ist verständlich, aber vermutlich nicht realisierbar.

    Oder hat jemand ne andere/bessere Idee um Parser auszusperren?

    Es ist nicht nur eine Vorsichtsmassnahme sondern ich habe aktuell Zugriffe aus den USA und China, die massiv die aktuelle Projektseite spiegeln.

    Wer ist denn deine eigentliche (Haupt-)Zielgruppe?
    Wenn du auf "User" aus China verzichten kannst, dann würde ich es am ehesten noch mit entsprechenden IP-Sperren auf dem Server versuchen ...!

    Natürlich bin ich auch an Meinungen interessiert, die mein Vorhaben kritisch beäugen. Da steckt viel Arbeit und Geld im Relaunch, deshalb viel Aufwand gegen kopierer ;)

    Ohne konkrete Angaben, bzw. ohne zu wissen, um welche Art von "Informationen" es sich handelt, kann man auch deren "Wert" nicht einschätzen und somit auch nicht beurteilen, wie "schützenswert" sie sind.

    Ich kann mir momentan noch nicht mal vorstellen, in wie fern eine "Kopie" der Seite/ Inhalte in China deine Absichten im Bezug auf die Website "negativ" beeinflussen könnte.

    Gruß Gunther

    1. Warum "versteckst" du sie dann nicht hinter einem Login?

      Weil dann weder SuMas noch "zufällige" Besucher die Seite nutzen können. Ausserdem soll über einen Webservice auch der Zugriff über entsprechende Endgeräte möglich sein, was die Sache komplizieren wird.

      will ich die Seitenstruktur ständig verändern.

      Sorry, aber das ist wohl eine schlechte Idee ...! Aus mehreren Gründen, wovon einige ja hier im Thread schon genannt wurden.

      Stimmt, so siehts aus. Aber ich bin halt immer der Meinung, fragen kostet nix ;)

      Fakt ist nun mal, dass "frei zugängliche" Inhalte im Web *nicht* geschützt werden können.
      Stellst du also Inhalte online, sind diese auch prinzipiell für alles und jeden zugänglich.

      Das ist klar, sie sollen ja auch zugänglich sein. Nur sollen sie nicht maschinell verwertbar sein. Menschen sollen vollen Zugriff haben, ebenso wie Sumas

      Wer ist denn deine eigentliche (Haupt-)Zielgruppe?
      Wenn du auf "User" aus China verzichten kannst, dann würde ich es am ehesten noch mit entsprechenden IP-Sperren auf dem Server versuchen ...!

      Auf China will ich nicht verzichten. Die Zielgruppe ist die ganze Welt.

      Ohne konkrete Angaben, bzw. ohne zu wissen, um welche Art von "Informationen" es sich handelt, kann man auch deren "Wert" nicht einschätzen und somit auch nicht beurteilen, wie "schützenswert" sie sind.

      Es handelt sich um eine Datenbank mit Internatradios. Da es bisher schon dir grösste der Welt war und durch den Relauch die Anzahl an Webradios mehr als verdoppelt wird, will ich natürlich vermeiden, dass jemand in z.B. einem anderen Land eine Konkurrenzseite mit meinen Daten aufmacht

      Ich kann mir momentan noch nicht mal vorstellen, in wie fern eine "Kopie" der Seite/ Inhalte in China deine Absichten im Bezug auf die Website "negativ" beeinflussen könnte.

      Ich hab viel mit China (bzw. Handel mit China) zu tun und weiss, die kopieren nur, wenn sie dahinter ein Geschäft wittern. Also sind die Zugriffe entweder der Versuch, den Server zu hacken (es werden aber nur Daten gelesen) oder der Versuch, die Seite zu kopieren.

      Da systematisch jeder Link verfolgt wird und auch Playlisten etc. kopiert werden (mit vielen Anfragen pro sekunde, also kein Switchen eines Users durch die Webradioliste), gehe ich davon aus, hier wird ne Datenbank mit meinen Daten aufgebaut.

      Da meine Datenbank Webradios (und auch terrestrische Angebote) der ganzen Welt bietet, ist China natürlich hier auch ein Markt, da es dort ne ganze Menge an Webradios gibt

      1. Warum "versteckst" du sie dann nicht hinter einem Login?

        Weil dann weder SuMas noch "zufällige" Besucher die Seite nutzen können. Ausserdem soll über einen Webservice auch der Zugriff über entsprechende Endgeräte möglich sein, was die Sache komplizieren wird.

        Letzteres ist wohl weniger ein Problem. Alle Android Smartphones "funktionieren" mit der (einmaligen) Verknüpfung eines Google Kontos.
        Zu Ersterem schreibe ich weiter unten ...!

        Stimmt, so siehts aus. Aber ich bin halt immer der Meinung, fragen kostet nix ;)

        Vollkommen richtig. Und ich besuche dieses Forum hier u.a. deswegen regelmäßig, weil ich aus den Diskussionen, die aufgrund der gestellten Fragen entstehen, auch die eine oder andere neue Erkenntnis für mich ziehen kann. :-)

        Fakt ist nun mal, dass "frei zugängliche" Inhalte im Web *nicht* geschützt werden können.
        Stellst du also Inhalte online, sind diese auch prinzipiell für alles und jeden zugänglich.

        Das ist klar, sie sollen ja auch zugänglich sein. Nur sollen sie nicht maschinell verwertbar sein. Menschen sollen vollen Zugriff haben, ebenso wie Sumas

        Der letzte Satz, wie auch schon weiter oben erwähnt, erschwert dein Vorhaben noch zusätzlich (weil man zwischen "menschlichen" Zugriffen und "automatisierten" noch halbwegs "treffsicher" unterscheiden kann). Dann könntest du ggf. die SuMas per UA-Sniffing auf dem Server identifizieren.

        Wer ist denn deine eigentliche (Haupt-)Zielgruppe?
        Wenn du auf "User" aus China verzichten kannst, dann würde ich es am ehesten noch mit entsprechenden IP-Sperren auf dem Server versuchen ...!

        Auf China will ich nicht verzichten. Die Zielgruppe ist die ganze Welt.

        Ohne konkrete Angaben, bzw. ohne zu wissen, um welche Art von "Informationen" es sich handelt, kann man auch deren "Wert" nicht einschätzen und somit auch nicht beurteilen, wie "schützenswert" sie sind.

        Es handelt sich um eine Datenbank mit Internatradios. Da es bisher schon dir grösste der Welt war und durch den Relauch die Anzahl an Webradios mehr als verdoppelt wird, will ich natürlich vermeiden, dass jemand in z.B. einem anderen Land eine Konkurrenzseite mit meinen Daten aufmacht

        Ich kann mir momentan noch nicht mal vorstellen, in wie fern eine "Kopie" der Seite/ Inhalte in China deine Absichten im Bezug auf die Website "negativ" beeinflussen könnte.

        Ich hab viel mit China (bzw. Handel mit China) zu tun und weiss, die kopieren nur, wenn sie dahinter ein Geschäft wittern. Also sind die Zugriffe entweder der Versuch, den Server zu hacken (es werden aber nur Daten gelesen) oder der Versuch, die Seite zu kopieren.

        Da systematisch jeder Link verfolgt wird und auch Playlisten etc. kopiert werden (mit vielen Anfragen pro sekunde, also kein Switchen eines Users durch die Webradioliste), gehe ich davon aus, hier wird ne Datenbank mit meinen Daten aufgebaut.

        Erstmal danke für die Infos - das hilft ja beim Verständnis! ;-)
        In deinem letzten Absatz sehe ich den einzigen halbwegs gangbaren Ansatz.
        Wenn du bspw., wie weiter oben erwähnt, SuMas herausfilterst und dann prüfst, wie viele Requests von einer IP innerhalb einer "sehr kurzen" Zeitspanne kommen, würde ich dann die entsprechenden IPs blocken, die mehrere Anfragen pro Sekunde schicken.

        Aber nochmal: Es liegt in der Natur des Webs, dass sich Inhalte, die frei zugänglich sein sollen, nicht vor ungewollter/ untersagter Nutzung schützen lassen.

        In einigen Ländern kann man bei Zuwiderhandlungen rechtliche Schritte einleiten. Ob die Kosten-Nutzen-Relation hier in einem angemessenen Verhältnis steht, ist wiederum eine andere Frage.
        In Ländern wie China oder Russland kann man sich solche Mühen vermutlich von vorneherein schenken ...!

        Gruß Gunther

      2. @@M.:

        nuqneH

        Das ist klar, sie sollen ja auch zugänglich sein. Nur sollen sie nicht maschinell verwertbar sein. Menschen sollen vollen Zugriff haben, ebenso wie Sumas

        Du widersprichst dir. Die Daten sollen für Such_maschinen_ _maschinell_ verwertbar sein.

        Menschen von Maschinen zu unterscheiden dürfte schon schwer bis unmöglich sein. Gute Maschinen von bösen Maschinen noch schwerer bis unmöglicher.

        Du willst eine Whitelist der guten (auf die Gefahr hin, etliche Suchmaschinen auszusperren) oder eine Blacklist der schlechten (auf die Gefahr hin, etliche davon bzw. eine mit wechselnder Identität durchzulassen)?

        Qapla'

        --
        „Talente finden Lösungen, Genies entdecken Probleme.“ (Hans Krailsheimer)
        1. @@M.:

          nuqneH

          Das ist klar, sie sollen ja auch zugänglich sein. Nur sollen sie nicht maschinell verwertbar sein. Menschen sollen vollen Zugriff haben, ebenso wie Sumas

          Du widersprichst dir. Die Daten sollen für Such_maschinen_ _maschinell_ verwertbar sein.

          Sumas werden nicht aus meinem Content eine Datenbank erzeugen um diese Daten selbst zu verwerten.

          Menschen von Maschinen zu unterscheiden dürfte schon schwer bis unmöglich sein. Gute Maschinen von bösen Maschinen noch schwerer bis unmöglicher.

          Ja, grosses Problem, keine Lösung in sicht.

          Du willst eine Whitelist der guten (auf die Gefahr hin, etliche Suchmaschinen auszusperren) oder eine Blacklist der schlechten (auf die Gefahr hin, etliche davon bzw. eine mit wechselnder Identität durchzulassen)?

          Nicht das, was ich will. Zuviel Unsicherheit.

      3. Om nah hoo pez nyeetz, M.!

        Warum "versteckst" du sie dann nicht hinter einem Login?
        Weil dann weder SuMas noch "zufällige" Besucher die Seite nutzen können.

        Du könntest einen Teil als Demo für jedermann sichtbar und erreichbar haben. Diejenigen, die sich wirklich interessieren, werden sich anmelden. Gerade wenn du ihnen einen Mehrwert bietest, wie zum Beispiel in diesem Forum.

        Ausserdem soll über einen Webservice auch der Zugriff über entsprechende Endgeräte möglich sein

        Welche hast du da im Sinn? Radios? Fernseher?

        Matthias

        --
        Der Unterschied zwischen Java und JavaScript ist größer als der zwischen Helm und Helmut.

        1. Du könntest einen Teil als Demo für jedermann sichtbar und erreichbar haben. Diejenigen, die sich wirklich interessieren, werden sich anmelden. Gerade wenn du ihnen einen Mehrwert bietest, wie zum Beispiel in diesem Forum.

          Wäre natürlich ne Möglichkeit, aber ich bin kein Freund von Zwangslogins. Wer der Community beitreten will und z.B. im Forum schreiben, Kommentare verfassen oder ein Radio bewerten will, muss sich eh anmelden. Alleine schon, damit niemand ein Radio mehrfach bewerten kann.

          Ausserdem soll über einen Webservice auch der Zugriff über entsprechende Endgeräte möglich sein

          Welche hast du da im Sinn? Radios? Fernseher?

          Z.B. steht die Seite als Webradioübersicht in der Bedienungsanleitung einiger Router bei AVM und damit auch bei 1&1. Und für diese Geräte wäre ein ebservice zum Radiohören denkbar.

          Auch ist gerade ein Multimediasystem in Entwicklung, mit der per Smartphone oder Tablet alle Fernseher usw. in der Wohnung zu nem Player werden, der, ausser Videos und Musikdateien, auch Webradio und WebTV abspielen können soll.

          Die Musikdatenbank ist also als Mehrwert für solche Endgeräte gedacht.

          1. Tach!

            Wer der Community beitreten will und z.B. [...] ein Radio bewerten will, muss sich eh anmelden. Alleine schon, damit niemand ein Radio mehrfach bewerten kann.

            Warum nicht? Die Qualität einer Station ist doch keine Naturkonstante. Jedenfalls stelle ich mir vor, dass man das mindestens einmal pro Tag tun können soll. Dann kann man auch schöne Beliebtheitskurven malen. Und die Daten für diese Kurven lassen sich nicht so einfach abcrawlen.

            dedlfix.

            1. Warum nicht? Die Qualität einer Station ist doch keine Naturkonstante. Jedenfalls stelle ich mir vor, dass man das mindestens einmal pro Tag tun können soll. Dann kann man auch schöne Beliebtheitskurven malen. Und die Daten für diese Kurven lassen sich nicht so einfach abcrawlen.

              Das Voting kann ja verändert werden, aber trotzdem kann jeder User nur einmal bewerten.
              Bei Mehrfachbewertung ist Manipulation recht leicht möglich, bei einer Bewertung wird das schon schwieriger, da man entsprechend viele Personen aktivieren muss. Selbst wenn sich jemand zigmal anmeldet ist der Aufwand recht gross.

              Deshalb nur eine einzige Bewertung möglich.

              1. Moin M.,

                Warum nicht? Die Qualität einer Station ist doch keine Naturkonstante. Jedenfalls stelle ich mir vor, dass man das mindestens einmal pro Tag tun können soll. Dann kann man auch schöne Beliebtheitskurven malen. Und die Daten für diese Kurven lassen sich nicht so einfach abcrawlen.

                Das Voting kann ja verändert werden, aber trotzdem kann jeder User nur einmal bewerten.
                Bei Mehrfachbewertung ist Manipulation recht leicht möglich, bei einer Bewertung wird das schon schwieriger, da man entsprechend viele Personen aktivieren muss. Selbst wenn sich jemand zigmal anmeldet ist der Aufwand recht gross.

                Ich finde aber den Gedanken von dedlfix interessant. Ich würde an deiner Stelle darüber nachdenken, es vielleicht auf einmal am Tag oder so zu ändern; so kann man die Beliebtheitskurven, die dedlfix da vorschwebten, gut implementieren. Denn das Radio-Programm einer Station ist ja wirklich nicht immer super.

                Das wäre auch ein echter Mehrwert für die Leute, die die Stationen betreiben. Damit könnte man das Radio-Programm gut optimieren.

                LG,
                 CK

                1. Om nah hoo pez nyeetz, Christian Kruse!

                  Das wäre auch ein echter Mehrwert für die Leute, die die Stationen betreiben. Damit könnte man das Radio-Programm gut optimieren.

                  +1

                  So bringst du Konsumenten und Lieferanten zusammen.

                  Matthias

                  --
                  Der Unterschied zwischen Java und JavaScript ist größer als der zwischen Hans und Hansestadt.

                2. Ich finde aber den Gedanken von dedlfix interessant. Ich würde an deiner Stelle darüber nachdenken, es vielleicht auf einmal am Tag oder so zu ändern; so kann man die Beliebtheitskurven, die dedlfix da vorschwebten, gut implementieren. Denn das Radio-Programm einer Station ist ja wirklich nicht immer super.

                  Sicher ist der Gedanke interessant. Aber ist da wirklich ein Unterschied, ob jemand sein Voting ändern kann oder ob er täglich ein neues vergibt?
                  Der Vorteil, wenn jemand alle 2 Minuten seine Meinung ändert, kann er das, bei Mehrfachvotings ist eine vordefinierte Wartezeit nötig und eine Automatisierung denkbar.

                  Das wäre auch ein echter Mehrwert für die Leute, die die Stationen betreiben. Damit könnte man das Radio-Programm gut optimieren.

                  Ja, das geht IMO auch wenn der Hörer sein Voting ändern kann und daraus eine Kurve entsteht.

                  Ich sehe es so, das die Idee von dedlfix und von mir im Endeffekt gleich ist, nur anders ausführt.

                  Oder hab ich was übersehen?

                  Ich weiss ja nicht, ob ich bei Google+ oder FB das +1 bzw. like zurücknehmen kann, aber bei mir soll das definitiv möglich sein.
                  Mir schwebt aber eher was mit 5 Sternen vor o.ä. Das Design ist ja erstmal Nebensache aber mehr als ein "mag ich" oder "mag ich nicht" halte ich schon für sinnvoll.

                  Ich werde sogar soweit gehen und verschiedene Rubriken wie

                  Musik
                  Moderation
                  Webseite (Design)
                  Webseite (Inhalte)
                  ...

                  einzeln bewerten  lasse. Ich denke, das bringt den Betreibern nochmal ne bessere Möglichkeit, gezielt zu optimieren, da sie ja damit genau wissen, was bei ihrem Projekt gefällt und was nicht.

  5. Hallo,

    Dass ich den HTML-Code dynamisch ändern muss, damit ein automatischer Parser geringere bis keine Chancen hat.

    Geht es darum, Spiegeln zu verhindern oder das gezielte Extrahieren von Daten?

    Will nicht das Rad neu erfinden, wenn ich es einfach nur an meine Anforderungen anpassen kann ;)

    Da gibt es meines Wissens nichts fertiges, du müsstest das Rad neu erfinden.

    Oder hat jemand ne andere/bessere Idee um Parser auszusperren?

    Da gibt es tausende Möglichkeiten. Allerdings bringen diese jeweils Einschränkungen mit sich, du handelst dir Nachteile ein. Die Frage ist, welche Einschränkungen kannst du dir leisten?

    Du kannst die Zugänglichkeit für Parser verringern und das maschinelle Auslesen der Daten erschweren, aber damit verschlechterst du auch die allgemeine Zugänglichkeit.

    Beispiel: Verwende kein semantisches Markup, sondern zufällige ID und Klassen im HTML, CSS und JavaScript. Baue die Site mit JavaScript zusammen, sodass du sie clientseitig synchron entschlüsselst (Schlüssel inbegriffen). Das ist naturgemäß nur Obfuscation, klar. Der Aufwand, es zu lesen, ist geringer als dein Aufwand, es zu verschleiern.

    Mit diesem Setup machst du deine Site auch für legitime Nutzer schlechter zugänglich. Das Markup ist ohne Bedeutung, das CSS muss ständig neu geladen werden, ohne JavaScript läuft nichts, die Seite ist langsamer, Suchmaschinen werden deine Site ignorieren usw. Wenn du daran bisher nicht gedacht hast, solltest du vorsichtig sein, solche Techniken zu implementieren. Sie können u.U. mehr schaden als nutzen.

    Natürlich bin ich auch an Meinungen interessiert, die mein Vorhaben kritisch beäugen. Da steckt viel Arbeit und Geld im Relaunch, deshalb viel Aufwand gegen kopierer ;)

    Der Aufwand wäre besser in Abuse-Mails und DMCA-Takedown-Notices investiert, wenn deine Inhalte wirklich woanders im Netz auftauchen. Oder in sinnvolle SEO, damit deine Site im Gegensatz zu den Copycats auffindbar ist.

    Grüße,
    Mathias

    1. Tach!

      Der Aufwand wäre besser [...] in sinnvolle SEO [investiert], damit deine Site im Gegensatz zu den Copycats auffindbar ist.

      Hmm, wie erstellt man solch eine SEO und wie wirkt sie ausschließlich auf das Original, wenn die Copycats sie nach meinem Verständnis von SEO einfach mitkopieren können?

      dedlfix.

      1. Hallo!

        Hmm, wie erstellt man solch eine SEO und wie wirkt sie ausschließlich auf das Original, wenn die Copycats sie nach meinem Verständnis von SEO einfach mitkopieren können?

        Natürlich lässt sich gut optimierter Content abgreifen und noch massiver optimiert wieder online stellen sowie mehr Backlinks generieren bzw. Off-Site-Optimierung betreiben. Die Chance, damit nach einiger Zeit besser zu ranken, ist durchaus hoch. Manche mit Werbung zugepflasterte Wikipedia-Mirrors ranken bei gewissen Suchbegriffen höher als das Original, oder haben eine stetige Position unter den ersten 10 Ergebnissen.

        Ich ging in der Annahme, dass es eine derartig kommerzielle betriebene Urheberrechtsverletzung in M.s Falle nicht gibt. Falls doch, so ist eine Diskussion über ein bisschen Obsfuscation ziemlich sinnlos; sie wird die Kopierer nicht stark behindern.

        Gegen Urheberrechtsverletzungen lässt sich übrigens auch bei den Suchmaschinen vorgehen, wenn die Schuldigen bzw. die Provider auf Takedown-Notices nicht reagieren oder rechtlich schwer belangbar sind. Im Allgemeinen ist das jedoch eine umstrittene Praxis.

        Grüße,
        Mathias

    2. Hallo,

      Dass ich den HTML-Code dynamisch ändern muss, damit ein automatischer Parser geringere bis keine Chancen hat.

      Geht es darum, Spiegeln zu verhindern oder das gezielte Extrahieren von Daten?

      Es geht um das Extrahieren von Daten.Spiegeln lässt sich nur verhindern, indem ich die Seite vom Netz nehme ;)

      Der Aufwand wäre besser in Abuse-Mails und DMCA-Takedown-Notices investiert, wenn deine Inhalte wirklich woanders im Netz auftauchen. Oder in sinnvolle SEO, damit deine Site im Gegensatz zu den Copycats auffindbar ist.

      Mir gehts mit meiner Massnahme ja auch nur um die ersten paar Wochen.
      Ich bin mit einigen sehr grossen Webradios in Kontakt, und durch die angeschlossene Community werden die zusätzlichen Inhalte (Wiki, Forum/Board usw.) sowieso so Umfangreich sein, dass das Kopieren der Seite keinen Sinn mehr macht.

      So wie es jetzt aussieht, ist der Aufwand eh zu gross, um das umzusetzen und die Nachteile so massiv, dass sie die Vorteile massiv überwiegen.

  6. Erstmal danke an alle, die sich Gedanken gemacht haben.

    Aktuell geht die Tendenz dazu, mein Vorhaben einzustampfen und die Seite einfach ohne "Verstümmelung" online zu stellen.

    Da die Umsetzung viel Arbeit bedeutet und die Nachteile massiv sind, sehe ich darin keinen Sinn. Da es eh nur für ein paar Wochen wäre, bis das Ranking entsprechend ist, ist der Sinn noch viel weniger.

    Es gab aber interessante Ansätze, die evtl. bei anderen Problemen zu einer Lösung führen können.

    So sieht also dann mein Arbeitsablauf ab:

    fertigstellen der Seite ohne "Verstümmelung"
    Onlinestellen
    Durch Kooperation mit Webradios für ständig aktuellen Content sorgen.
    Kopierer dadurch in den Sumas schön weit unten halten ;)

    Ergibt eine gut bedienbare Seite die den Sumas und den Besuchern gefallen soll, auf möglichst vielen Endgeräten funktioniert.

    Und auch, wenn ich nicht immer nett bin, es gibt hier immer wieder was zu lernen :)

    1. Guten Abend,

      Gut, daß Du den von deinen Nutzern für Dich kostenlos im Wiki erstellen Content sowie den Content anderer Webradios nicht versteckst vor "Kopierern".

      Ich denke mal, Du willst nebenbei auf der Seite Musik zum Verkauf anbieten um - notwendigerweise - Geld einzunehmen. Das Konzept ist aber nicht neu ist. Siehe zum Beispiel http://www.discogs.com/

      Du sagtest, Kritik sei willkommen.

      Gruß, Ernst

      1. Hör auf mit deinen Unterstellungen  und halt einfach die Finger still. Wenn du nichts zum Thema beitragen kannst, versuch es nicht erst.

        Ich weiss nicht, ob du neidisch bist, dass du kein erfolgreiches Projekt hast, aber ich hab sogar soviele, dass ich damit ein solches Projekt finanzieren kann.

        Ich verschwende aber meine Zeit auch nicht mit Stänkern, dir ist vermutlich chronisch zu langweilig.

        1. Tag,

          So ein Quatsch. DU willst dich an der Arbeit anderer bereichern, machst Sie Dir zu eigen und baust auf dem Wissen von Generationen vor Dir auf. Dann kommst angerannt, "Hilfe, fiese Raubkopierer bestehlen mich". Plapperst nach, was dein Fernseher Dir täglich eintrichtert. Das kommt mir Spanisch vor und das lasse ich Dich auch wissen. Schöne Geschäfte noch.

          Ernst

          1. Kann mal bitte ein Moderator diese Unterstellungen auf noArchive setzen?
            Ich glaube nicht, dass Bashing einer Sockenpuppe in diesem Thread für andere einen Mehrwert bietet.

            Die Diskussion ist ja durchaus das Archiv wert, wie ich finde, bis auf die Beiträge von Ernst, der ja eh nur da ist um zu stänkern.

            Danke.

            1. Tach!

              Ich glaube nicht, dass Bashing einer Sockenpuppe in diesem Thread für andere einen Mehrwert bietet.

              Vorsicht mit den Steinen.

              Die Diskussion ist ja durchaus das Archiv wert, wie ich finde, bis auf die Beiträge von Ernst, der ja eh nur da ist um zu stänkern.

              Versuch doch mal deeskalierend die Situation anzugehen. So ganz unschuldig bist du an dem Verlauf auch nicht.

              dedlfix.

              1. Versuch doch mal deeskalierend die Situation anzugehen. So ganz unschuldig bist du an dem Verlauf auch nicht.

                Das hab ich, indem ich befürworte, diese Beiträge nicht ins Archiv zu nehmen.

                Und was die Steine betrifft,er hat selbst geschrieben, dass er eine Sockenpuppe ist.

                Ich habe nie ein Geheimnis draus gemacht, wer ich bin und ich wechsle meinen Nick nicht, um unerkannt zu bleiben.
                Wenn du willst, kannst du, anhand des Archivs, sogar meinen realen Namen und auch meine Anschrift rausfinden, da die in einigen Impressi (ist das die Mehrzahl von Impressum?) steht und somit kein Geheimnis ist.

                Und wenn ich stänkere (ja, das kommt relativ regelmässig vor), dann mit dem bekannten Nick, weil ich mich nicht verstecken muss.