SteBu: Suche Blacklist für Badwords

Moin,

kennt jemand eine gute Blacklist(Quelle) für dt. Badwords?
Für ein Webprojekt möchte ich eine Art Scoring für böse Wörter in einer DB hinterlegen, also "id, wort, score".
Ab einem bestimmten Score soll ein Eintrag, der gemacht werden kann, erst nach einer Bewertung freigeschltet werden.
Gibt es evtl. sogar eine Liste, welche schon ein Scoring enthält? Wenn nicht, wäre eine reine Wortliste auch schon OK.

Achja, wegen der Lizenz. Das wird ein kommerzielles Projekt.

Gruß
SteBu

  1. Hi,

    kennt jemand eine gute Blacklist(Quelle) für dt. Badwords?

    Die gibt es aus dem einfachem Grund nicht, das es keine Definition fuer "Badword" geben kann.
    Du kannst noch nicht einmal sinnvoll eine Liste fuer "Goodwords" erstellen.

    Wenn Dein Kunde eine Liste haben moechte, muss er sie individuell erstellen (HINT: ein Service, den z.B. Du anbieten koenntest).

    Dein statistischer Ansatz hingegen ist recht interessant! Warum nicht vollstaendig als Spam-filter implementieren? Die sowieso erforderliche regelmaessige Kontrolle kann dann dahingehend genutzt werden, das auch Texte, die trotz Vermeidung verbotener Worte gegen die Etiquette verstossen moeglichst einfach "eingelernt" werden koennen.

    Achja, wegen der Lizenz. Das wird ein kommerzielles Projekt.

    Ich hoffe doch trotzdem schwer, das Du einen ausgibst wenn Du Milliardaer gworden bist, oder? ;-)

    so short

    Christoph Zurnieden

    1. Hi Christoph und alle anderen,

      kennt jemand eine gute Blacklist(Quelle) für dt. Badwords?

      Die gibt es aus dem einfachem Grund nicht, das es keine Definition fuer "Badword" geben kann.

      Das ist klar. Ich dachte da so an einschlägige Sachen wie
      <nachdenk>
      ob das Forum die Wörter durchlässt?
      Wenn nicht, gibt es hier einen Filter ;-)
      </nachdenk>
      Sex und dessen Kombis, sowie ähnlichen Sachen, die man nicht in seinem Projekt lesen will.

      Du kannst noch nicht einmal sinnvoll eine Liste fuer "Goodwords" erstellen.

      Das wäre sogar noch schwieriger.

      .. (HINT: ein Service, den z.B. Du anbieten koenntest).

      Gute Idee ;-)

      Ich hoffe doch trotzdem schwer, das Du einen ausgibst wenn Du Milliardaer gworden bist, oder? ;-)

      Sicher doch. Dann treffen wir uns alle bei Billy im Garten und sehen zu, wie er meinen Rasen mäht und Linus ihm sagt wo er noch nicht war ;-)

      Falls es möglich ist, und natürlich mir was sinniges einfällt, werde ich versuchen das unter einer sinvollen Lizenz(GNU, GPL oder so) auch der Allgemeinheit zugänglich zu machen.

      Gruß
      Ste

      1. Hi,

        Sex und dessen Kombis, sowie ähnlichen Sachen, die man nicht in seinem Projekt lesen will.

        Wie viele Möglichkeiten gibt es, den Badword-Filter zu umgehen, für den menschlichen Leser aber trotzdem noch das entsprechende Wort erkennbar zu lassen?

        Um nur mal eine winzige Auswahl zu zeigen:

        S e x
        S/e/x
        S_e_x
        S.e.x

        SSSS  EEEEE  X   X
        S      E       X X
         SSS   EEEE     X
            S  E       X X
        SSSS   EEEEE  X   X

        Es gibt noch viel mehr Möglichkeiten, solche Filter auszutricksen.

        cu,
        Andreas

        --
        Warum nennt sich Andreas hier MudGuard?
        Schreinerei Waechter
        Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.
        1. @MudGuard, Armin und wahsaga

          Wie viele Möglichkeiten gibt es, den Badword-Filter zu umgehen, für den menschlichen Leser aber trotzdem noch das entsprechende Wort erkennbar zu lassen?

          Um nur mal eine winzige Auswahl zu zeigen:

          Ja ist schon klar. Auch ich möchte, dass Gasexplosionen nicht hinten runter fallen. Deswegen ja auch der Audit für solche Sachen.

          Und MuDgards "S_e_x" sollte sich über RegEx relativ schnell filtern lassen. Ich kenne z.B. kein sinvolles Wort im dt. Wortschatz welches zwingend s_o g-s-c-h-r.i.e.b_e_n werden sollte.

          Ich überlege gerade, ob man nicht mal das Netz daran beteiligt. Soll heißen, eine Form bereit zu stellen wo jeder seine Badwords eintragen und "scoren" kann. Sieht irgendjemand ne Chance, dass es mehr bringt als Nachbearbeitungsaufwand erfordert?

          Ste

          1. Hallo,

            Ich überlege gerade, ob man nicht mal das Netz daran beteiligt. Soll heißen, eine Form bereit zu stellen wo jeder seine Badwords eintragen und "scoren" kann.

            Um was zu erstellen? Es gibt keine "schlechten Worte", genau so wenig, wie es "schlechte Buchstaben" gibt. Sprache besteht nämlich nicht aus Worten und Buchstaben, sondern Worte und Buchstaben sind für die Sprache Mittel zum Zweck. Um unerwünschte Äußerungen automatisch erkennen zu können, müsstest Du den gesamten Sinn der Aussage und auch noch deren Kontext automatisch erkennen können. Das Programm müsste also Sprache _verstehen_, die Unterhaltung verstehend verfolgen können. Das ist mit handelsüblichen Computersystemen nicht möglich. Hierfür benötigst Du künstliche Intelligenz.

            viele Grüße

            Axel

          2. Hallo SteBu,

            Ich kenne z.B. kein sinvolles Wort im dt. Wortschatz welches zwingend s_o g-s-c-h-r.i.e.b_e_n werden sollte.

            Tatsächlich _keines_?

            Grüße
             Roland

      2. hi,

        Das ist klar. Ich dachte da so an einschlägige Sachen wie Sex und dessen Kombis

        Hast du was gegen gaswerkSEXplosionen?

        gruß,
        wahsaga

        --
        /voodoo.css:
        #GeorgeWBush { position:absolute; bottom:-6ft; }
      3. Hallotrio,

        Sex und dessen Kombis, sowie ähnlichen Sachen, die man nicht in seinem Projekt lesen will.

        Und wenn der Filter denn etwas zu genau arbeitet kann auch kein Mensch ueber Sextanten (nein, nicht was Ihr wieder denkt. Die Dinger die ein Seefahrer benutzt hat bevor GPS und all dieser neumodische Kram aufkam) oder Essex (beruehmt-beruechtigt fuer seine girls und boys) schreiben. Oder ueber Bruce Cockburn (soll ja Leute geben die dessen Musik moegen).

        --
        Schluss mit dem Schmutz und Schund!
        Armin
      4. Guten Tag!

        Sex und dessen Kombis, sowie ähnlichen Sachen, die man nicht in seinem Projekt lesen will.

        Entschuldige die Frage, aber was hast Du gegen guten Sex?

        Sexistischen Gruß von einer ehemaligen Sextanerin ;-)

        PS: Dein Kunde wird sowieso jeden Beitrag bewerten müssen. Du könntest die durch Leer- und Satzzeichen getrennten Wörter komplett in eine Tabelle einfügen (falls noch nicht vorhanden) und ihren Böses-Wort-Wert entsprechend der Bewertung des Beitrags verändern. Damit bildet sich mit der Zeit automatisch die gewünschte Liste. Siehe Bayes'scher Filter.

      5. Hi,

        Sex und dessen Kombis, sowie ähnlichen Sachen, die man nicht in seinem Projekt lesen will.

        Wer ist "man" und was fuer ein "Projekt"?
        Diese beiden Sachen muessen geklaert sein, sonst funktioniert es gar nicht. Ich glaube in einem streng katholischem Forum waere man sehr erstaunt darueber, das ein Satz wie "Kein Sex vor der Ehe!" bemaekelt wird. Auch in einer Diskussion ueber das optimale Format der Datenbanktabelle fuer die Biologen waere man verwundert darueber, das "sex" als Kolumnenbezeichnung nicht zulaessig ist.
        Aber ich sehe gerade, das die Kollegen schon schneller waren.

        Du kannst noch nicht einmal sinnvoll eine Liste fuer "Goodwords" erstellen.
        Das wäre sogar noch schwieriger.

        Nein. Eine Liste der Badwords ist theoretisch unendlich, da Du alle, auch die zukuenftigen erfassen muestest. Eine Goodwordliste kann dagegen endlich gehalten werden. Problem bei der Goodwordliste ist jedoch, das Du natuerlich auch alle Woerter rausschmeissen musst, die zukuenftig die Bedeutung aendern und die Liste wechseln, deshalb ist zu erwarten, das die Goodwordliste die Laenge Null haben wird.

        .. (HINT: ein Service, den z.B. Du anbieten koenntest).
        Gute Idee ;-)

        Da individuell zugeschnittene Badwordlisten nunmal die einzige Moeglichkeit darstellen, solltest Du die Moeglichkeit auch nutzen und damit Geld verdienen.

        Ich hoffe doch trotzdem schwer, das Du einen ausgibst wenn Du Milliardaer gworden bist, oder? ;-)
        Sicher doch. Dann treffen wir uns alle bei Billy im Garten und sehen zu, wie er meinen Rasen mäht und Linus ihm sagt wo er noch nicht war ;-)

        Und wenn dann noch Linus' Gattin die Durchsetzung uebernimmt, wuerde ich glatt die Getraenke uebernehmen ;-)

        so short

        Christoph Zurnieden

        1. Moin,

          Wer ist "man" und was fuer ein "Projekt"?

          man = 'undifined';
          Projekt = 'C2C';

          Diese beiden Sachen muessen geklaert sein, sonst funktioniert es gar nicht. Ich glaube in einem streng katholischem Forum waere man sehr erstaunt darueber, das ein Satz wie "Kein Sex vor der Ehe!" bemaekelt wird. Auch in einer Diskussion ueber das optimale Format der Datenbanktabelle fuer die Biologen waere man verwundert darueber, das "sex" als Kolumnenbezeichnung nicht zulaessig ist.

          Mein Problem ist z.Zt. , dass ich entwickle ohne einen Kunden zu haben. Es ist halt ne Idee.
          Ja. Sex war auch ein blödes Bsp..

          Aber ich sehe gerade, das die Kollegen schon schneller waren.

          Du kannst noch nicht einmal sinnvoll eine Liste fuer "Goodwords" erstellen.
          Das wäre sogar noch schwieriger.

          ...Eine Goodwordliste kann dagegen endlich gehalten werden.

          Was ein zu großer Aufwand wäre.

          so long
          SteBu

          1. Hi,

            Mein Problem ist z.Zt. , dass ich entwickle ohne einen Kunden zu haben. Es ist halt ne Idee.

            Ist ja auch voellig in Ordnung. Die vorherige Erstellung einer solchen Liste macht halt keinen Sinn, wenn Du keinen Kunden hast.
            Was Du jedoch machen kannst, um zu zeigen, das Du in der Lage bist eine Badwortliste schnell und praezise zu implementieren, es nur noch am Kunde haengt, waere eine Liste mit sinnfreien Kunstwoertern einzubauen. Die kann sich der Kunde dann selber aendern oder von Dir aendern lassen.

            Ja. Sex war auch ein blödes Bsp..

            Nein, das war genausogut oder -schlecht, wie jedes(!) andere Wort die Schwierigkeiten bei der Implementation einer Wortliste aufzuzeigen.

            ...Eine Goodwordliste kann dagegen endlich gehalten werden.

            Was ein zu großer Aufwand wäre.

            Was ist an
            $ touch goodwordlist
            aufwendig? ;-)

            so short

            Christoph Zurnieden

            1. Was ist an
              $ touch goodwordlist
              aufwendig? ;-)

              Hm, ich meinte die Pflege, nicht den Zugriff/Erstellung

              Jetzt glaube ich, dass Du was anderes meinst ;-), oder?

              SteBu

              1. Hi,

                Was ist an
                $ touch goodwordlist
                aufwendig? ;-)
                Hm, ich meinte die Pflege, nicht den Zugriff/Erstellung

                Bei der Datei ist keinerlei Pflege mehr notwendig, die passt ewiglich.
                Mmh ...
                Nein, das stimt auch wieder nicht, da es moeglich ist, das irgendwann und/oder irgendwo einmal eine fehlende Antwort eine toedliche Beleidigung sein kann.
                Womit dann bewiesen ist, das Wortlisten im allgemeinen nicht funktionieren koennen.

                Jetzt glaube ich, dass Du was anderes meinst ;-), oder?

                Meine Meinung war, das solche Listen Unsinn sind und sehe mich auch bestaetigt.
                Ich habe aber nicht untersucht, ob sich solche Listen in irgendeiner Weise selber in den Fuss schiessen koennen, ich vermute es aber: wenn Du die Liste nicht ununterbrochen pruefst, ist es moegliche, das sich in der Zwischenzeit Bedeutungen gewandelt haben koennen und die Liste deshalb nicht mehr stimmt und ein "Boeses Wort" mit dem Score "nur durch Blut abzuwaschende Beleidigung" durchschluepfen koennte.

                Aber die Idee mit dem statistischem Filter ist doch so schlecht nicht und sollte weiterverfolgt werden. Ich nehme an, das sich der eine oder andere Spamfilter dazu gebrauchen laesst. Das waere eine recht elegante und mit Sicherheit auch gut verkaeufliche Loesung.

                so short

                Christoph Zurnieden