Beat: Spam vermeiden

Beitrag lesen

Wortfilter wäre sicher noch eine gute Sache, vor allem sind deren Mails meistens auf Englisch. Vielleicht eine Kombination: weiblich + englisch + Mailadresse eines Freemailers + Link in der Mail = Spam.

Von Wortfiltern halte ich persönlich nicht besonders viel. Ich würde dir eher dazu raten, mal einen Bayesschen Filter auszuprobieren. Die Grundlage eines solchen Filters ist im Prinzip, dass du aufgrund gesammelter statistischer Daten eine Spam-Wahrscheinlichkeit für einen beliebigen Text berechnen kannst.

Hmm tja... Bayes-Filter haben ihre eigenen Probleme.
Was passiert wenn ich per zufall den Bayes mit englischem Spam aber deutschem Ham trainiere? Er wird schlicht zum Sprachfilter.

Tja und dann ist das da. Du bist die salami.com Dein Konkurrent von der schweinswurst.com verbreitet nun Spam mit dem den Worten salami und salami.com

Und dann ist da noch Schäuble. Der schreibt Spam mit den Worten Menschenrechte Menschenrechtsbewegung Stasimethoden etc...

Also das mit dem Bayes hat da seine Tücken und braucht sehr viel Kontrolle. Ein blinder Bayes-Mechanismus ist nichts anderes als Zensur auf Abruf.
Das gilt auch für andere selbstlernende statistische Mechanismen.

PS: Diese Gedanken kamen mir, weil ich derzeit selbst einen Bayes-Filter Implemetiere und trainiere.

mfg Beat

--
><o(((°>           ><o(((°>
   <°)))o><                     ><o(((°>o
Der Valigator leibt diese Fische