hi!
ich bin auf der suche nah einem Anti-Spam Tools, welches die
Mailkonten checkt und Spam löscht.
Ich wollte noch einen anderen Ansatz vorstellen, den bisher niemand
erwähnt hat: der neue Mozilla bekommt nämlich einen statistischen
Spamfilter, der Mails anhand des Inhalts mit einer Wahrscheinlichkeit
bewertet, dass es sich dabei um Spam handelt.
Damit der Filter das auch bewerten kann, füttert man ihn am Anfang
zum Training mit Mails, die von Hand als Spam oder als Nicht-Spam
klassifiziert werden. Dazu berechnet er für jedes vorkommende Wort
die Wahrscheinlichkeit, dass es in Spam vorkommt bzw. in normalen
Mails.
Für neue Mails, die klassifiziert werden sollen, berechnet er dann
zuerst Einzelwahrscheinlichkeiten für jedes Wort, das in der Mail
vorkommt. Diese Einzelwahrscheinlichkeiten werden dann mit der
Formel von Bayes[1] zu einer Gesamtwahrscheinlichkeit für den ganzen
Nachrichtentext kombiniert.
Paul Graham hat darüber einen Artikel[2] auf seiner Homepage ver-
öffentlicht, in dem er das genauer ausführt. Laut seiner Versuche
gibt es nach einem guten Training keine "false positives" (fälsch-
licherweise als Spam klassifizierte richtige Mail), außerdem werden
nur etwa 5 von 1000 Spammails nicht erkannt (was IMHO eine sehr gute
Rate ist, die ein manuell aufgesetzter Filter keinesfalls erreicht).
Paul Graham hat außerdem eine Liste von Software erstellt, die nach
dieser Methode Spam filtern: http://www.paulgraham.com/filters.html
Am Wochenende habe ich mir mal POPFile installiert und mit ein paar
alten Mails gefüttert. Mittlerweile kann er schon ziemlich eindeutig
Spam von erwünschter Mail unterscheiden. Noch lasse ich zwar nichts
löschen, sondern nur in meinem Mailprogramm Nachrichten anhand der
Klassifikation von POPFile markieren, aber wenn die Erkennungsrate
weiterhin so gut bleibt, werde ich das mal ändern.
(Direktes und vollständiges Löschen von vermeintlichem Spam kann ich
übrigens nicht empfehlen. Außer in eindeutigen Fällen sollten er-
kannte Mails eigentlich grundsätzlich nur in einen gesonderten Ordner
verschoben werden, den man ab und zu mal durchschauen kann.)
Wer noch nicht von der Methode überzeugt ist, sollte vielleicht
trotzdem mal ein ähnliches Programm ausprobieren und noch nicht
wirklich danach filtern. POPFile zum Beispiel fügt in alle Mails eine
zusätzliche Header-Zeile nach der das Mailprogramm dann filtern kann.
Es kann also nichts passieren... :)
bye, Frank!
--
Never argue with an idiot. He will lower you to his level and then
beat you with experience.
[1] Muss man nicht wirklich kennen, wenn man nicht irgendwann mal
relativ ausgiebig Stochastik gemacht hat (Uni oder Mathe LK).
[2]
http://www.paulgraham.com/spam.html