Moin,
Such z.B. auf http://freshmeat.net oder http://sourceforge.net mit den Begriffen "Spamfilter" oder auch "Bayonne".
Na da hast du mich aber neugierig gemacht? Meinst du Bayonne in Frankreich oder in den USA? Oder meinst du GNU Bayonne, den Telefonieserver? ;-) [1]
Das ist ein ewiger Wettlauf, den stets der Spammer gewinnt, solange sich nichts grundlegend ändert.
Leider wird die mittlerweile sehr wohl zur Verfügung stehende und sehr gut funktionierend Software noch nicht sehr breit eingesetzt. Anderenfalls würde sich das Spamaufkommen vermutlich stark reduzieren. Siehe auch Paul Grahams "A Plan for Spam" http://www.paulgraham.com/spam.html.
Das von Knut angesprochene regelbasierte Filtern wird sehr gut von SpamAssassin implementiert. Das hat aber leider prinziptbedingt unschöne false positive-Raten (bei mir vor allem durch Blacklists verursacht) und nicht besonders beeindruckende false negative-Raten (bei mir vor allem dadurch, dass die Regeln überwiegend für englischen Spam sind, ich aber eine ganze Menge deutschen Müll erhalte).
Die wichtigsten Programme für das statistische Filtern sind wohl ifile, popfile sowie bogofilter. Letzteres zeigt hier bei mir beeindruckende false positive-Raten - seit ich den Filter für einkommende Mail einsetze war kein einziger dabei, und in meinem Corpus von 20.000 Nichtspams waren es nur 3 falsche Meldungen - und sehr gute false negative-Raten (ungefähr eine Mail alle 2 Tage), wobei es sehr hilfreich ist, den Filter ständig mit den aktuellen Spamnachrichten nachzutrainieren.
Dann gibt es da noch einen Aussenseiter: Den Controllable Regex Mutilator CRM114 http://crm114.sourceforge.net/. Der hat noch einen etwas anderen und deutlich cooleren Algorithmus, arbeitet dadurch aber auch langsamer und ich hatte keine Lust die Zeit bis zum Einlernen meines Corpus abzuwarten. Das Ding soll aber tatsächlich eine bessere Genauigkeit als ein Mensch erreichen können: http://www.paulgraham.com/wsy.html.
[1] Ja ich weiss, dass das Bayes heissen sollte. SCNR
Henryk Plötz
Grüße aus Berlin
~~~~~~~~ Un-CDs, nein danke! http://www.heise.de/ct/cd-register/ ~~~~~~~~
~~ Help Microsoft fight software piracy: Give Linux to a friend today! ~~