seth: Artikel-Review: Bayesscher Spam-Filter für Weblogs

Beitrag lesen

gudn tach!

momentan steht da

Sei [latex]N_C[/latex] die Anzahl der Kommentare in der Kategorie [latex]C[/latex] und [latex]N_{C,i}[/latex] die Häufigkeit des Wortes [latex]i[/latex] in den Kommentaren der Kategorie [latex]C[/latex], dann ist die Wahrscheinlichkeit, dass ein Text der Kategorie [latex]C[/latex] das Wort [latex]i[/latex] enthält:

[latex]P(C,i)=\frac{N_{C,i}}{N_C}[/latex]
(das "=" fehlt im original immer noch.)

das ist imho missverstaendlich oder falsch. richtig waere z.b.
[latex]N_C[/latex] = Anzahl der Kommentare in der Kategorie [latex]C[/latex],
[latex]N_{C,i}[/latex] = Anzahl der Kommentare der Kategorie [latex]C[/latex], die mind. ein mal das wort [latex]i[/latex] enthaelt.

unter "haeufigkeit des wortes [latex]i[/latex]" verstehe ich eigentlich die anzahl aller vorkommnisse des wortes [latex]i[/latex]. beispiel:
  c_1="hulla hulla hulla!"
  c_2="hulla, bolla bolla."

anzahl der kommentare = 2,
haeufigkeit des wortes "hulla" = 4. (dann wuerde aber die formel keinen sinn machen.)

anzahl der kommentare, die das wort "hulla" enthalten = 2. P=1, passt. aber meintest du das denn auch? ich verstehe deine notation nicht.
[latex]P(C,i)[/latex] waere afais die wahrscheinlichkeit, dass ein kommentar der kategorie [latex]C[/latex] angehoert und das wort [latex]i[/latex] enthaelt.

die erwaehnte "Wahrscheinlichkeit, dass ein Text der Kategorie [latex]C[/latex] das Wort [latex]i[/latex] enthält", waere dagegen eher [latex]P(i|C)[/latex] oder [latex]P_C(i)[/latex] oder sowas. sonst kaeme ja keine gueltige dichte heraus.

danach schreibst du's ja auch als bedingte wahrscheinlichkeit
  [latex]P(w_1, w_2,\dotsc,w_n|C),[/latex]
wie ich's eher erwartet haette.

bzgl. der nachteile der konventionellen bayes-spam-filter habe ich eben noch zwei paper ergoogelt, die mit hilfe von HMMs arbeiten und auf den ersten blick recht vielversprechend aussahen:
Spam Deobfuscation using a Hidden Markov Model
Dynamically Weighted Hidden Markov Model for Spam Deobfuscation
wenigstens die existenz solcher dinge sollten bei dir imho auch erwaehnt werden.

prost
seth

0 56

Artikel-Review: Bayesscher Spam-Filter für Weblogs

Alexander Brock
  • programmiertechnik
  1. 0
    Felix Riesterer
    1. 0
      Mathias Brodala
      1. 0
        Alexander Brock
        1. 0
          Mathias Brodala
          1. 0
            Alexander Brock
  2. 1
    Robert Bienert
    1. 0
      Alexander Brock
      1. 1

        kleine anmerkung zum multiplikations-zeichen

        seth_not@home
        • sonstiges
        1. 0
          Alexander Brock
  3. 6
    Vinzenz Mai
    1. 1
      seth
      1. 0
        Alexander Brock
        1. 1
          seth_not@home
        2. 1
          Blaubart
          1. 1

            kleine anmerkung zur kommasetzung

            seth_not@home
            1. 1
              Auge
              1. 0
                seth
                • sonstiges
                1. 0
                  Auge
                  1. 0

                    ole, ole, metadiskussionen ueber komma-diskussionen

                    seth
                    1. 0

                      "ole, ole" ... die alten Schweden, die!

                      Auge
      2. 1
        Blaubart
        1. 1
          seth_not@home
          1. 1
            Blaubart
    2. 0
      Alexander Brock
      1. 3
        Vinzenz Mai
  4. 2
    seth
    1. 0
      Alexander Brock
      1. 1
        seth_not@home
        1. 0
          Alexander Brock
          1. 1
            seth
            1. 0
              Alexander Brock
              1. 1
                seth_not@home
                1. 0
                  Alexander Brock
                  1. 1
                    seth_not@home
                    1. 0
                      Alexander Brock
                      1. 0
                        seth_not@home
                        1. 0
                          Alexander Brock
                          1. 1
                            seth
                            1. 0
                              Alexander Brock
  5. 0
    Alexander Brock
    1. 1
      Robert Bienert
      1. 0
        Alexander Brock
        1. 1
          Robert Bienert
          1. 0
            Alexander Brock
            1. 1
              seth
              1. 0
                Alexander Brock
                1. 1
                  seth
                  1. 0
                    Alexander Brock
                  2. 0
                    O'Brien
    2. 1
      Der Dicki
      1. 0
        Alexander Brock
    3. 0
      Christian Seiler
      1. 0
        Alexander Brock
        1. 0
          Christian Seiler
          1. 0
            Alexander Brock