flashnfantasy: Unterschiede zwei Strings in HTML darstellen

Beitrag lesen

Hi Christoph,

zuerst zum schwierigsten Thema, der Reparatur kaputter Wiki-Texte:
ich erinnere mich da an verschiedene Vorlesungen aus der Informations- und Codierungstheorie bei denen es darum ging, den Informationsbedarf zu ermitteln, um Daten rekonstruierbar zu machen.

Spätestens dann, wenn man drei Versionen vorliegen hat, gibt es sowas wie eine 'Mehrheitsentscheidung', das Problem ist jetzt eigentlich eine Quantifizierung der Mehrheit bei Texten.

Und da habe ich jetzt bereits einen praktischen Test gemacht. Ich habe eben jenen Artikel der Los-Angeles-Times in seine Wortbestandteile zerlegt (also Satzzeichen etc. rausgeschmissen).
Anschliessend habe ich die Häufigkeit einzelner Wörter gezählt.
Auch da mit dem angenehmen Ergebniss, daß viele Wörter nur ein einzigesmal vorkommen.

Aufgrund solcher Wörter will ich jetzt Sequenzen erkennen, d.h. Teiltexte, in denen sich die Häufigkeit der Wörter nicht unterscheidet.
Meine Idee ist es jetzt, zwischen zwei oder mehreren Texten die Sequenzen zu vergleichen, und ihre Wahrscheinlichkeit, daß sie richtig sind (gemessen an der Anzahl ihres Vorkommens in den unterschiedlichen Texten).
Eventuell kriege ich so auch mit, wann ein Text mutwillig zerstört wird (die Häufigkeit der Wörter ändert sich dann sehr stark).

Vielleicht werde ich bald bereits erste Ergebnisse meiner Idee haben.
---
Klar ist, daß sowas wie eine Wiki eine Kontrolle braucht.
Und das kann aber einer bestimmten Größe eine feste Redaktion nicht mehr alleine schaffen. Ich denke mal, daß neben bestimmten Spam-Algorithmen vorallem das wachsame Auge andere Nutzer hier zum Erfolg beiträgt.
Aber über Ergonometrie und das menschliche Verhalten mache ich mir ehrlich gesagt noch keine Gedanken - solange die Technik noch nicht steht.

Gruß,
Mathias