Christoph Zurnieden: Spam-Schutz

Beitrag lesen

Hi Hendrik,

Da kommt man erschöpft von langer Tages Mühe nach Hause und was muß man feststellen?
Zwei Postings in der hart erstrittenen Mittagsruhe und gleich zwei peinliche Fehler eingebaut.
Also wirklich!
;-)

Bitte herzhaft um Entschuldigung.

Such z.B. auf http://freshmeat.net oder http://sourceforge.net mit den Begriffen "Spamfilter" oder auch "Bayonne".

Na da hast du mich aber neugierig gemacht? Meinst du Bayonne in Frankreich oder in den USA? Oder meinst du GNU Bayonne, den Telefonieserver? ;-) [1]

Den Telephonieserver selbstverständlich, denn der gemeine Spammer vermeidet persönlichen Kontakt. (Das mit dem Telemarketing ist hier in D ja Gottseidank noch nicht so verbreitet, als das es lästig fiele. Wer weiß, wie lange noch)

Das ist ein ewiger Wettlauf, den stets der Spammer gewinnt, solange sich nichts grundlegend ändert.

Leider wird die mittlerweile sehr wohl zur Verfügung stehende und sehr gut funktionierend Software noch nicht sehr breit eingesetzt. Anderenfalls würde sich das Spamaufkommen vermutlich stark reduzieren. Siehe auch Paul Grahams "A Plan for Spam" http://www.paulgraham.com/spam.html.

(Iih! CLisp! ;-)

Alles, was das Spam_aufkommen_ reduzieren würde, macht dem Anwender Mühe. Und wenn es nur ein Extraklick o.ä. ist, das mag Otto Outlookuser nicht.
Also bleiben nur die Filter, also das Wegschmeißen von Spam, wenn sie schon abgeschickt wurde. Das ist numal nur ein Bekämpfen der Symptome, kein Beseitigen des Übels.

Aber ich merke schon, ich predige eh den Bekehrten, ich muß mich zurückhalten ;-)

Das von Knut angesprochene regelbasierte Filtern wird sehr gut von SpamAssassin implementiert. Das hat aber leider prinziptbedingt unschöne false positive-Raten (bei mir vor allem durch Blacklists verursacht) und nicht besonders beeindruckende false negative-Raten (bei mir vor allem dadurch, dass die Regeln überwiegend für englischen Spam sind, ich aber eine ganze Menge deutschen Müll erhalte).

Ja, den hatte ich auch mal und auch aus den gleichen Gründen wieder entfernt. Soll sich aber mittlerweile angepasst haben, sollte ich mal wieder eine Change geben.

Die wichtigsten Programme für das statistische Filtern sind wohl ifile, popfile sowie bogofilter. Letzteres zeigt hier bei mir beeindruckende false positive-Raten - seit ich den Filter für einkommende Mail einsetze war kein einziger dabei, und in meinem Corpus von 20.000 Nichtspams waren es nur 3 falsche Meldungen - und sehr gute false negative-Raten (ungefähr eine Mail alle 2 Tage), wobei es sehr hilfreich ist, den Filter ständig mit den aktuellen Spamnachrichten nachzutrainieren.

Ja, auch hier kann ich nur beipflichten, bogofilter habe ich schon in mehreren Servern erfolgreich im Einsatz, sehr zu empfehlen, allerdings, wie Du schon richtig bemerktest, am Anfang recht arbeitsintensiv und braucht auch regelmäßige Pflege.

Dann gibt es da noch einen Aussenseiter: Den Controllable Regex Mutilator CRM114 http://crm114.sourceforge.net/. Der hat noch einen etwas anderen und deutlich cooleren Algorithmus, arbeitet dadurch aber auch langsamer und ich hatte keine Lust die Zeit bis zum Einlernen meines Corpus abzuwarten. Das Ding soll aber tatsächlich eine bessere Genauigkeit als ein Mensch erreichen können: http://www.paulgraham.com/wsy.html.

Den hatte ich noch nicht. Wie langsam ist er denn?

so short

Christoph Zurnieden