Blaubart: Artikel-Review: Bayesscher Spam-Filter für Weblogs

Beitrag lesen

Tach.

  • mathematische formeln werden normalerweise direkt in einen satz eingebettet und nicht mit doppelpunkten abgetrennt. die einrueckung ist natuerlich richtig und wichtig, aber der text sollte fluessiger sein, z.b.
    "Die Wahrscheinlichkeit, dass ein Kommentar eine Menge Wörter w enthält[komma!] lässt sich unter der naiven Annahme, dass das Auftreten eines bestimmten Wortes unabhängig von dem Auftreten aller anderen Wörter ist[komma!] durch
      [formel]
    ausdruecken."

Das ist Geschmackssache. Konstrukte wie das obige vermeide ich möglichst. Das letzte Wort im Satz ganz allein auf einer einzelnen Zeile ... unästhetisch. Wenn danach wirklich kein Text mehr folgt, stelle ich doch lieber die Formel ans Satzende; meinetwegen auch mit Doppelpunkt.

Übrigens: Konjunktiv rock! ;)

"Die Wahrscheinlichkeit, daß ein Kommentar eine Menge Wörter w enthält, läßt sich unter der naiven Annahme, das Auftreten eines bestimmten Wortes sei unabhängig vom Auftreten aller anderen Wörter, ..."

  • der begriff "bedingte wahrscheinlichkeit" sollte fallen und verlinkt werden.

Sehe ich auch so. Darüber hinaus stelle ich fest, daß insgesamt gar nicht so recht darauf eingegangen wird, was das Bayestheorem hier überhaupt verloren hat. "So sieht es aus: [Formel] ... und dann den Quotienten für P(B|A) in die Bayesformel einsetzen" ist wirklich zu knapp. Eine ausführlichere umgangssprachliche Erläuterung (d. h. nicht in Formeln gegossen oder diese lediglich wiedergebend) deines Vorgehens kann sicher auch den ein oder anderen Mathefeind zum Weiterlesen animieren.

  • geschweifte klammern als meta-runde klammern sind out. an der tafel moegen sie zwar u.u. sinnvoll sein, aber getext sind sie eher zu vermeiden, weil sie schon andere bedeutungen haben, allen voran "menge". ich empfehle \bigl( und \bigr). mehr dazu siehe wikipedia hilfe:teX

Um die Lesbarkeit noch weiter zu erhöhen, würde ich den Teil, der gar nicht in die Summe gehört, davor schreiben anstatt dahinter:

[latex]
\ln(P(Spam)) =
 (i-1) \bigl(
 \ln(N_{Ham}) - \ln(N_{Spam})
 \bigr)
 +
 \sum_{k=1}^{i}{ \bigl(
 \ln(N_{Spam,k}) - \ln(N_{Ham,k})
 \bigr) }
[/latex]

--
Once is a mistake, twice is jazz.
0 56

Artikel-Review: Bayesscher Spam-Filter für Weblogs

Alexander Brock
  • programmiertechnik
  1. 0
    Felix Riesterer
    1. 0
      Mathias Brodala
      1. 0
        Alexander Brock
        1. 0
          Mathias Brodala
          1. 0
            Alexander Brock
  2. 1
    Robert Bienert
    1. 0
      Alexander Brock
      1. 1

        kleine anmerkung zum multiplikations-zeichen

        seth_not@home
        • sonstiges
        1. 0
          Alexander Brock
  3. 6
    Vinzenz Mai
    1. 1
      seth
      1. 0
        Alexander Brock
        1. 1
          seth_not@home
        2. 1
          Blaubart
          1. 1

            kleine anmerkung zur kommasetzung

            seth_not@home
            1. 1
              Auge
              1. 0
                seth
                • sonstiges
                1. 0
                  Auge
                  1. 0

                    ole, ole, metadiskussionen ueber komma-diskussionen

                    seth
                    1. 0

                      "ole, ole" ... die alten Schweden, die!

                      Auge
      2. 1
        Blaubart
        1. 1
          seth_not@home
          1. 1
            Blaubart
    2. 0
      Alexander Brock
      1. 3
        Vinzenz Mai
  4. 2
    seth
    1. 0
      Alexander Brock
      1. 1
        seth_not@home
        1. 0
          Alexander Brock
          1. 1
            seth
            1. 0
              Alexander Brock
              1. 1
                seth_not@home
                1. 0
                  Alexander Brock
                  1. 1
                    seth_not@home
                    1. 0
                      Alexander Brock
                      1. 0
                        seth_not@home
                        1. 0
                          Alexander Brock
                          1. 1
                            seth
                            1. 0
                              Alexander Brock
  5. 0
    Alexander Brock
    1. 1
      Robert Bienert
      1. 0
        Alexander Brock
        1. 1
          Robert Bienert
          1. 0
            Alexander Brock
            1. 1
              seth
              1. 0
                Alexander Brock
                1. 1
                  seth
                  1. 0
                    Alexander Brock
                  2. 0
                    O'Brien
    2. 1
      Der Dicki
      1. 0
        Alexander Brock
    3. 0
      Christian Seiler
      1. 0
        Alexander Brock
        1. 0
          Christian Seiler
          1. 0
            Alexander Brock