Moin!
Wonach soll ich hier bitte filtern? OK, "Knutschi" und "viele Knuddelz" sagt keiner zu mir, aber ich kann nicht alles was keiner zu mir sagt auf eine Blacklist setzen ;-)
Mit dem Ansatz Bayesischer Filter (oder wie auch immer die heißen) werden derzeit hervorragende Trefferraten von durchgehend über 95% erreicht.
Grundlage ist, alle Mails, welche eingeteilt werden in gewollte Mails und SPAM-Mails, auf die enthaltenen Wörter zu scannen. Die Häufigkeit der vorkommenden Wörter wird analysiert - hierbei wird auch der Mailheader herangezogen. Spam kommt eben typischerweise von irgendwie ähnlichen oder gleichen Mailservern, oder enthält typische Mailwege, die auf diese Weise mit in die Betrachtung einfließen.
Eine neu eingehende Mail wird ebenso in Wörter zerlegt. Jedes gefundene Wort wird in der Datenbank gesucht. In der Datenbank ist zu jedem Wort ein Wahrscheinlichkeitswert gespeichert, der angibt, wie wahrscheinlich es ist, dass das jeweilige Wort in einer Spam-Mail vorkommt, oder in einer gewollten Mail.
Der Trick besteht nun darin, die Wahrscheinlichkeiten nach Eindeutigkeit zu sortieren und nur die Top-10 der eindeutigsten Worte zu analysieren.
Und darin steht z.B. auch ein netter Link:
http://ingeborg.tripod.com.br/index.txt?sid=101E0E011D59031912284202174A015D54565E570B43405D0A404511450052464C41095058Aber sagt mir was ich hier filtern kann? OK, diese Struktur gibt es sehr oft, also würde ich z.B. '.txt?' filtern, denn das ist ja Quatsch, btw. was soll das eigentlich??
Da filterst du nach ".txt?sid=".
Der Witz dieser Links ist, dass man dir eine eindeutige ID in die Mail geschrieben hat, um vermutlich deine Mailadresse eindeutig als "aktiv" zu verifizieren. Solche Links gehen auch alle gerne nach irgendwas.tripod.com.br - da wäre auch "tripod.com.br" ein schönes Schlüsselwort zum Filtern.
Allerdings sind Schlüsselwortfilter nicht wirklich gut geeignet. Da muß man sich ja vorher Gedanken machen, welche Worte man typischerweise in SPAM erwartet.
- Sven Rautenberg
ss:) zu:) ls:[ fo:} de:] va:) ch:] sh:) n4:# rl:| br:< js:| ie:( fl:( mo:|