Hi,
zuerst zum schwierigsten Thema, der Reparatur kaputter Wiki-Texte:
Und wiederum meiner Frage: was ist "kaput", bitte definiere diesen Ausdruck. Wenn Du das gemacht hast, kommt der Rest normalerweise ganz von alleine.
ich erinnere mich da an verschiedene Vorlesungen aus der Informations- und Codierungstheorie bei denen es darum ging, den Informationsbedarf zu ermitteln, um Daten rekonstruierbar zu machen.
Ja, aber brauchst Du das jetzt schon? Du weißt ja noch nicht einmal _was_ Du _woraus_ rekonstruieren möchtest!
Spätestens dann, wenn man drei Versionen vorliegen hat, gibt es sowas wie eine 'Mehrheitsentscheidung', das Problem ist jetzt eigentlich eine Quantifizierung der Mehrheit bei Texten.
Das hat zwar jetzt nichts mit Rekonstruktion zu tun, aber: ja, das kann man so machen. Macht zwar hier keinerlei Sinn, aber es geht.
Denn: Dein Problem der Quantifizierung ist gar keines sondern eines der Qualität und somit sind wir wieder bei der Frage, was Du als "kaput" definierst.
Beispiel warum eine Mehrheitsentscheidung bei Texten keinen Sinn macht wenn die Texte Sinn machen sollen:
A) Der Ball ist rot.
B) Der Ball ist grün.
C) Der Ball ist blau.
Mehrheit: "Der Ball ist."
Der Sinn wurde also verändert.
A) Der Ball ist rot.
B) Der Ball ist grün.
C) Der Ball ist rot.
Mehrheit: "Der Ball ist rot"
Es wurde lediglich eine Mehrheit festgestellt. Ob der Ball rot oder auch nur ist bleibt fraglich.
Es ist also noch die Bedingung von Nöten, das Lügner und der Wahrheit verpflichtete statistisch bunt verteilt sind. Diese Verteilung ist im Voraus festzustellen und in die Mehrheitsfindung einzuarbeiten. Problem: wenn es Menschen sind, die diese Texte eingeben ist es kein technisches Problem mehr. Was bei Meßgeräten funktioniert tut's selten beim Homo S. S.
Und da habe ich jetzt bereits einen praktischen Test gemacht. Ich habe eben jenen Artikel der Los-Angeles-Times
(Keinen Link?)
Auch da mit dem angenehmen Ergebniss, daß viele Wörter nur ein einzigesmal vorkommen.
Ja, das war durchaus zu erwarten, nicht ungewöhnlich sowas.
Eventuell kriege ich so auch mit, wann ein Text mutwillig zerstört wird (die Häufigkeit der Wörter ändert sich dann sehr stark).
Und was bitte unterscheidet eine mutwillige Zerstörung von einer mutwilligen Korrektur? Die können beide den gleichen Umfang haben. Du setzt hier etwas willkürlich voraus, das der Ursprungstext zumindest im Grobem korrekt war und nur noch kleinerer Korrekturen bedarf. Was, wenn der Ursprungstext davon handelt, das die Erde eine Scheibe ist, es ausführlich beweist und das, was Du mit Deiner Methode als Zerstörung betrachtest diesen Sachverhalt korrigiert? Was, wenn der Scheibenweltler [sic!] ein paar Freunde hat und somit eine Mehrheit? Schon bist Du wieder bei einem nichttechnischem Problem.
Das einzige, was dabei hilfreich ist, ist die Tatsache das jemand aus der Menge herausschaut und näherer Betrachtung bedarf. Diese nähere Betrachtung muß jedoch händisch erfolgen, das kannst Du mit technischen Mitteln nicht lösen.
Vielleicht werde ich bald bereits erste Ergebnisse meiner Idee haben.
Es ist etwas zu aufwendig (es ist ja für jede Version ein Lexikon zu bauen und auch noch vorzuhalten), eine Graphen-Differenz sollte reichen (oder auch ein LCS wie Ratcliff/Obershelp o.ä.).
Ich würde aber trotzdem vorschlagen, die von mir erwähnten unscharfen Prüfsummen zu benutzen, da etwas weniger zu vergleichen ist, keine Lexika zu bauen und vorzuhalten sind und vor allem: sie sind gut genug.
BTW: was Du vorhast ist eine Kategorisierung in zwei Sparten. Das entspricht in Art und Funktion einem Spamfilter. Die entsprechende Literatur ist jedoch bereits Legion, deshalb auch gar nicht erst der Versuch Links zu listen ;-)
Aber das bedeutet natürlich auch, das alle Deine und auch meine Versuche dahingehende bereits bei den Spammern bekannt sind. Selbst wenn Du Deine Methoden geheim hältst so können sie sie doch selbst mit Brute-Force recht schnell herausfinden, da alle Methoden und auch deren Kombination einen bestimmten "Fingerabdruck" hinterlassen.
so short
Christoph Zurnieden