Thomas Lensch: HTML-Diff OpenSource Java

Hallo,

vor einigen Tagen hatte ich mich schon mal mit diesem Thema gemeldet.

Nochmals mein Problem: Wir haben Dokumente in Versionen und möchten dem Nutzer jeweils die Differenz zw. 2 Versionen anzeigen in einer Art wie es Word im Änderungsmodus macht.

Meine ersten Untersuchungen gingen in die Richtung nach einem XML-/HTML-Diff. Da gibt es sogar Open Source-Tools. Leider sind diese unbrauchbar, da sie Schwierigkeiten haben, bei einem geänderten DOM noch brauchbare Ergebnisse zu liefern (z.B. wurden von Version 1 zu Version 2 <br/> und <a href="...">...</a> eingefügt).

Somit glaube ich, dass ich eine Differenz nur dann ermiitteln kann, wenn man das komplette html-Markup ignoriert (quasi als whitespace behandelt). Nichtsdestotrotz sollten die Änderungen dann im html-Code eingefügt werden.

Bisher habe ich kein Tool (schon gar nicht Open Source Java) gefunden, das ein "ignore html-markup" bietet.

Hat jemand hier vielleicht eine Idee?

Besten Dank,
Thomas Lensch.

  1. Hey,
    Schau dir mal http://search.cpan.org/dist/Algorithm-Diff, inwieweit es dir helfen kann. Leider keine Musterlösung, aber eine exzellente Ausgangsbasis. Der Code ist generisch und flexibel, in einer Hochsprache geschrieben, deswegen leicht einzubetten, portieren und modifizieren.

    --
    水-金-地-火-木-土-天-海-冥