Pixelschieber: PHP: "Texte aufteilen" für Plagiatssuche

Hallo,

wie ich gerade feststellen durfte habe ich ein Problem, und zwar mit massenhaft Kopien meiner Webseite bzw. Auszügen davon (Lernhilfe 8-13 Klasse). Natürlich ohne Quellenangabe und ohne von mir genehmigt zu sein. Geld für einen Anwalt habe ich nicht, (bin in Studium), daher bleibt mir wohl nur ein DMCA Antrag bei Google.

Da ich ein Budget von 0 € habe, bleibt mir Copyscape und Co. auch verschlossen. So bin ich auf die BING API gekommen, hier sind ein paar Tausend Abfrage für 0 € zu bekommen.

Jetzt macht es natürlich Sinn nicht nur den kompletten Text zu suchen, sondern auch Auszugsweise. Eine satzweise Prüfung (Trennung via Explode), war nicht erfolgreich. Wie teile ich den Content (liegt als PHP String vor) nun so auf, das ich Ihn "sinnvoll" Testen kann.

Welche Erfahrungen habt Ihr hier? Und es gibt sicher bessere PHP Funktionen als Explode oder?

  1. Hello Pixelschieber,

    wenn Du ein ehrliches Anliegen hast, wäre doch ein erster Schritt, hier Original und vermeintliche Plagiate mit der Bitte um Vergleich zu verlinken, aber erst einmal ohne den Vorwurf zu erheben. Die Frage danach, ob die Texte (oder ganzen Seiten) sich für Außenstehwende ähneln, wird hier hoffentlich erlaubt sein.

    Der nächste Schritt wäre dann die chronologische Verfolgung der Veröffentlichungen. Das mündet dann im Nachweis der Urheberschaft. Hier gibt es auch im Web diverse Hilfsmittel.

    Erst wenn die Urheberschaft dann befriedigend geklärt ist, kann es ggf. zur Rechtsverfolgung gehen.

    Und dann kannst Du auch einen Antrag auf Rechtsberatung/usw- stellen. Mit erfolgtem positivem Bescheid kannst Du einen Anwalt deiner Wahl beauftragen, ohne Angst vor eingener Rechtsverfolgung wegen Betruges (Auftrag trotz Zahlungsunfähigkeit) haben zu müssen.

    Dass Verfahren vom Antrag bis zur Handlung des Beauftragten dauert erfahrungsgemäß zwei bis drei Monate. Altgernativ kannst Du abklären, ob Du die Kosten mit einem Anwalt staffelweise so vereinbaren kannst (Basisbereatung, Beauftragung, Klageerhebung, weitere Vertretung), dass Dir evtl. Freunde oder Familienangehörige die jeweilige Stufe sponsorn.

    Aber ohne eigene akribische Faktensammlung wirst Du keinen Erfolg haben! Überlege immer, wie Du reagieren würdest, wenn man Dich einer ähnlichen Verfehlung bezichtigen würde und ob Du darauf (auch in mehreren Stufen) bestandskräftig antworten könntest.

    Wie man das Ganze dann technisch umsetzt, um im Web Plagiate zu finden, kann immer erst der letzte Schritt sein. Zuvor muss man sich immer die (finanziellen) Mittel dafür beschaffen. Sonst mündet das meistens im Desaster.

    Recht haben und Recht bekommen sind seit einigen Jahren schon wieder immer mehr zwei verschiedene Dinge!

    Liebe Grüße
    Tom S.

    --
    Es gibt nichts Gutes, außer man tut es!
    Das Leben selbst ist der Sinn.
  2. @@Pixelschieber

    Geld für einen Anwalt habe ich nicht, (bin in Studium)

    Dann solltest du in den Genuss einer kostenlosen Rechtsberatung kommen. Du musst dich nur erkundigen, wo das in deiner Gegend angeboten wird.

    LLAP 🖖

    --
    “When UX doesn’t consider all users, shouldn’t it be known as ‘Some User Experience’ or... SUX? #a11y” —Billy Gregory
    1. Hallo,

      wie gesagt es ist nicht mein Fokus den/die Herren zu verklagen sondern (um es einfacher und kostengünstig zu halten) in Google sperren zu lassen ( https://support.google.com/legal/troubleshooter/1114905?hl=de ). Hierfür ist es nötig diese Inhalte erstmal zu finden. Daher die BING API, um eine Bestandsaufnahme der Kopien zu erstellen.

      Hierzu möchte ich den TEXT in einzelne Teile splitten, das ist auch der eigentliche Teil der Frage. Welche Möglichkeiten habe ich einen Text zu unterteilen außerhalb von Explode.

      1. wie gesagt es ist nicht mein Fokus den/die Herren zu verklagen sondern (um es einfacher und kostengünstig zu halten) in Google sperren zu lassen

        Was, falls es sich vor Gericht nicht als berechtigt erweist, zu Unterlassungs- und Schadensersatzansprüchen der Gegner und also zu teuren Prozessen führen kann, deren Beginn Du nicht mehr selbst festlegst - denn dann wirst Du verklagt.

        Du bist dann für Deine Behauptungen Google gegenüber beweispflichtig. Überlege Dir das WIRKLICH gut.

      2. Hello,

        Hierzu möchte ich den TEXT in einzelne Teile splitten, das ist auch der eigentliche Teil der Frage. Welche Möglichkeiten habe ich einen Text zu unterteilen außerhalb von Explode?

        1. Texte besorgen (das dürfte ein Extrapunkt sein, die liegen ja üblicherseise in HTML vor)
        2. Codierung des Textes normieren
        3. definieren, nach welchen Kriterien der Text gesplittet werden soll
        4. Splittung durchführen mittels
          4.1 Stringfunktionen
          4.2 Regular Expressions
          4.3 anderer Verfahren
        5. gesplittete Teile zählen und gewichten
        6. optische (persönliche) Kontrolle der Häufungen

        Liebe Grüße
        Tom S.

        --
        Es gibt nichts Gutes, außer man tut es!
        Das Leben selbst ist der Sinn.
      3. Hallo Pixelschieber,

        bist Du sicher, dass sich eine automatisierte Suche dieser Art lohnt? Was heißt denn "massenhaft" - und was willst Du bei Google tun, wenn Du massenhaft Treffer findest? Massenhaft automatisierte Sperranträge senden? Das ist zum einen nicht so leicht, weil das Formular am Ende ein reCaptcha enthält, und ich halte es für gefährlich. Wenn dein Script Bockmist baust, flutest Du Google mit Takedown-Anträgen, die möglicherweise falsch sind. Dieser Schuss explodiert genau unter Deiner Nase.

        D.h. du musst ohnehin jeden DMCA-Antrag manuell erstellen. Möglicherweise gibt's auch ein Batchverfahren, mit dem Abmahnfirmen oder Musikrechteinhaber Tauschbörsen abschießen können, ich denke aber, dass diese Verfahren für den studentischen Kleinanwender nicht nutzbar sind.

        Und du musst vermutlich auch manuell überprüfen, ob die gefundene Seite tatsächlich ein Plagiat ist oder nur zufällig ähnlich deinen Inhalten ist.

        Danach kommt dann der Antwortschuss der von Dir gesperrten Seite. Sie werden ja automatisch über den Antrag benachrichtigt, und zu einer Gegendarstellung aufgefordert. Wenn sie dann frech behaupten, dass das ihr eigener Text sei, den Du gekupfert hast, musst Du Google beweisen, dass Du im Recht bist.

        Und wenn Du schon das BING API kennst - warum stellst Du den Takedown-Antrag dann nur bei Google? Musst Du den nicht bei jeder Suchmaschine stellen? Oder wird das über lumen.org automatisch verteilt?

        Die Folgen deiner Anträge haben es also in sich.

        Hast Du denn schon die ganz einfache Methode versucht? Admin der Zielseite anschreiben, auf dein Recht als Autor hinweisen und die Entfernung verlangen? Dabei kannst Du ja durchaus in freundlichem Ton darauf hinweisen, dass Du Dir den Einsatz rechtlicher Mittel vorbehältst. Setze eine Frist, bis zu der Du eine Reaktion erwartest (üblich sind 2 Wochen, wenn ich mich nicht irre). Bei denen, die entweder nicht reagieren oder mit "f**k off" antworten, kannst Du dann immer noch nachsetzen. Wenn es zum Rechtsstreit käme, steht natürlich auch der Streitwert in Frage. Verdienst Du mit diesen Inhalten Geld? Oder geht es Dir nur um Nennung deiner Urheberschaft und der Sicherstellung, dass keine veralteten Inhalte deiner Texte durch die Welt repliziert werden?

        Rolf

        --
        sumpsi - posui - clusi