gudn tach!
momentan steht da
Sei [latex]N_C[/latex] die Anzahl der Kommentare in der Kategorie [latex]C[/latex] und [latex]N_{C,i}[/latex] die Häufigkeit des Wortes [latex]i[/latex] in den Kommentaren der Kategorie [latex]C[/latex], dann ist die Wahrscheinlichkeit, dass ein Text der Kategorie [latex]C[/latex] das Wort [latex]i[/latex] enthält:
[latex]P(C,i)=\frac{N_{C,i}}{N_C}[/latex]
(das "=" fehlt im original immer noch.)
das ist imho missverstaendlich oder falsch. richtig waere z.b.
[latex]N_C[/latex] = Anzahl der Kommentare in der Kategorie [latex]C[/latex],
[latex]N_{C,i}[/latex] = Anzahl der Kommentare der Kategorie [latex]C[/latex], die mind. ein mal das wort [latex]i[/latex] enthaelt.
unter "haeufigkeit des wortes [latex]i[/latex]" verstehe ich eigentlich die anzahl aller vorkommnisse des wortes [latex]i[/latex]. beispiel:
c_1="hulla hulla hulla!"
c_2="hulla, bolla bolla."
anzahl der kommentare = 2,
haeufigkeit des wortes "hulla" = 4. (dann wuerde aber die formel keinen sinn machen.)
anzahl der kommentare, die das wort "hulla" enthalten = 2. P=1, passt. aber meintest du das denn auch? ich verstehe deine notation nicht.
[latex]P(C,i)[/latex] waere afais die wahrscheinlichkeit, dass ein kommentar der kategorie [latex]C[/latex] angehoert und das wort [latex]i[/latex] enthaelt.
die erwaehnte "Wahrscheinlichkeit, dass ein Text der Kategorie [latex]C[/latex] das Wort [latex]i[/latex] enthält", waere dagegen eher [latex]P(i|C)[/latex] oder [latex]P_C(i)[/latex] oder sowas. sonst kaeme ja keine gueltige dichte heraus.
danach schreibst du's ja auch als bedingte wahrscheinlichkeit
[latex]P(w_1, w_2,\dotsc,w_n|C),[/latex]
wie ich's eher erwartet haette.
bzgl. der nachteile der konventionellen bayes-spam-filter habe ich eben noch zwei paper ergoogelt, die mit hilfe von HMMs arbeiten und auf den ersten blick recht vielversprechend aussahen:
Spam Deobfuscation using a Hidden Markov Model
Dynamically Weighted Hidden Markov Model for Spam Deobfuscation
wenigstens die existenz solcher dinge sollten bei dir imho auch erwaehnt werden.
prost
seth