F. T. T.: HTML (oder CHM) aus .doc -- welche Werkzeuge gibt es, welche sind empfehlenswert? Wie .doc vorbereiten?

Guten Tag Foristen,

ich stehe gerade vor folgendem Problem:

Auf der Eingangsseite steht ein Word-Dokument (.doc [sic]), eine Software-Referenz mit ca. 200 Seiten, die bisher als PDF zur Software dazugegeben wurde.

Auf der Ausgangsseite hätte ich gerne eine (oder mehrere) HTML- oder CHM-Datei(en) oder eine sonstige Datei, die ich als Hilfe direkt in die Software einbauen kann. Ziel ist es, aus einzelnen Dialogen heraus mit einem Mausklick oder über [F1] die entsprechende Seite in der Hilfe aufzurufen.

Randbedingungen sind:

  • Das ganze sollte möglichst automatisiert ablaufen. Denn gepflegt wurde, und wird wohl auch in Zukunft, nur die .doc-Datei. Nicht meine Entscheidung…
  • Die Hilfe muss lokal mit der Software ausgeliefert werden. Online kommt nicht in Frage, da nicht alle Rechner, auf denen die Software läuft, am Netz sind (industrielles Umfeld).

Ich habe bisher das Word-Dokument, so weit als möglich, semantisch strukturiert. HTML-Export aus Word liefert aber nur unbefriedigende Ergebnisse, und CHM-Export bietet Word schon mal gar nicht an.

Ich wünsche mir ein Werkzeug, das mir aus dem Word-Dokument sauberes HTML oder CHM erzeugt. Sehr gerne kann es dabei die Datei anhand der Überschriften in Unterseiten zerlegen, damit nicht für jedes Hilfefenster zweihundert Seiten Text geladen werden müssen.

Für alle Tips auf aktuelle, funktionierende Software bin ich dankbar!

Beste Grüße und bleibt gesund

F. T. T.

  1. Auf der Eingangsseite steht ein Word-Dokument (.doc [sic]), eine Software-Referenz mit ca. 200 Seiten, die bisher als PDF zur Software dazugegeben wurde.

    Bleib dabei.

    Ich wünsche mir ein Werkzeug, das mir aus dem Word-Dokument sauberes HTML oder CHM erzeugt.

    Ich wüsste nicht, dass es so etwas gäbe (mir fehlt sogar die Fantasie, dass das möglich sein soll), lass mich aber gerne eines besseren belehren.

  2. Hallo F.T.T.,

    vor 12 Jahren musste ich mal eine App pflegen wo die zentralen Steuer-Informationen in Word vorlagen. D.h. Gliederung erkennen, Auflistungen auslesen - das habe ich damals über einen Text-Only Export und hinreichend schlaues Hinschauen auf die Textstrukturen lösen können.

    Parallel musste ich noch Daten aus einer Excel-Tabelle dazumischen. Die habe ich über das Excel-COM Objekt geöffnet und bin über die Ranges geturnt. Das ist nicht schnell, aber das war ein Batch der nur ab und zu laufen musste, der konnte sich Zeit lassen. Meine Programmiersprache dafür war C#, das integriert COM Objekte ganz gut. Mit C++ wäre es wohl anstrengender geworden.

    Mit dem Word-COM Objekt kannst Du auch Word-Dokumente verarbeiten. Das habe ich allerdings noch nicht gemacht. Ich weiß auch nicht, welche Programmiersprache Du einsetzt und kann darum nicht sagen, wie geschmeidig das von der Hand gehen kann.

    Bei Dir wäre auch die Frage, wie umfangreich die Word-Vorlage die Möglichkeiten von Word nutzt. Wenn es nicht mehr ist als Überschriften und Fließtext, dann mag man da was automatisieren können. Wenn aber fleißig mit Word-Mitteln Textverarbeitung betrieben wird, dann wird es schwierig.

    Es ist generell schwierig, sich auf ein Tool festzulegen und dann zu sagen: Nun liefert mir die Adapter, damit ein Toolstack daraus wird. Das muss man umgekehrt machen: Erst festlegen, was man tun will, und dann die Tools dafür passend festlegen. Zugegeben, wenn erstmal Legacy da ist, ist eine Änderung schwer.

    Online-Hilfe und Referenzhandbuch sind allerdings auch Dokumente mit unterschiedlicher Zielsetzung. Ob man das eine automatisch aus dem anderen generieren kann, und zwar so, dass beides etwas taugt, da möchte ich meine Zweifel anmelden.

    Ich habe gerade mal etwas gegoogelt, und habe in einem MDSN Magazin von 2006 einen Hinweis auf fast-help.com gefunden. Das kostet Geld, aber damit könntest Du CHM-Dateien und PDF Dateien aus deiner Quelle erzeugen. Du müsstest es leider einmal von Word auf FastHelp umstellen. Mutmaßlich gibt es auch andere Tools dieser Art. Word ist keins.

    Rolf

    --
    sumpsi - posui - obstruxi
  3. Hallo F.T.T.,

    du könntest versuchen, ob sich mit Pandoc (https://pandoc.org/) ein brauchbares Ergebnis erzielen lässt.

    Viele Grüße

    Jens

  4. Hi there,

    Für alle Tips auf aktuelle, funktionierende Software bin ich dankbar!

    OpenOfficeOrg resp. LibreOffice können doc-Dateien als HTML-Datei speichern. Wie brauchbar das ist vermag ich jetzt nicht zu beurteilen, aber wenn die einfachen Texte, die ich damit probiert habe, werden im Browser ganz passabel dargestellt...

  5. Auf der Ausgangsseite hätte ich gerne eine (oder mehrere) HTML- oder CHM-Datei(en)

    Also, das „Compiled HTML Help“ (Endung „.chm“) ist leider ein wenig „außer der Zeit“. Siehe:

    Der Kern ist, dass eigentlich ein Frameset mit Einzeldokumenten und einer Überschriftenliste erzeugt wird. Anno 2003 hab ich das mal gemacht. Damals konnte man das machen, für neue Projekte würde ich es nicht tun.

    Die für mich nahe liegenden Alternativen:

    • Ich hab mir den Export als epub3 aus LibreOffice angesehen, der kann aber nur Literatur - also Text mit Überschriften. Grafiken, Listen, das Inhaltsverzeichnis etc. gehen verloren. Vermutlich ist das für Dich unbrauchbar.
    • Ich habe mir mir den Export als HTML aus LibreOffice angesehen, der kann Einiges mehr. Allerdings befinden sich dann die Grafiken je nach Verankerung (eg: im Text, an der Seite) „nicht ganz genau dort, wo man diese zu finden hofft“. Brauchbar mit Vor- bzw, Nacharbeit.
    • Das beste Ergebnis lieferte immer noch der PDF-Export.

    Fazit:

    „Ach hättest Du doch nur Pischti Hufnagel geheiratet“ (die Dateien mit LaTeX erstellt)!

    1. Hallo Raktendokumentexportbeschauer,

      das bescheuerte ist nur: Es gibt von Microsoft nichts neueres. Die haben HTML Help gefühlt im vorletzten Jahrhundert eingeführt, Windows hat sich 5 Generationen weiter entwickelt, aber das Hilfesystem ist eingeschlafen. Sowas macht man doch online... Leider nicht alle.

      Rolf

      --
      sumpsi - posui - obstruxi
      1. Sowas macht man doch online... Leider nicht alle.

        Es gibt Situationen, in denen „online“ auf der Kundenseite unerwünscht ist oder zumindest nicht die einzige Option sein soll.

      2. Hallo zusammen,

        das bescheuerte ist nur: Es gibt von Microsoft nichts neueres. Die haben HTML Help gefühlt im vorletzten Jahrhundert eingeführt, Windows hat sich 5 Generationen weiter entwickelt, aber das Hilfesystem ist eingeschlafen. Sowas macht man doch online... Leider nicht alle.

        Ja, stimmt durchaus, aber CHM ist unter Windows bis 10 schon noch relevant.

        Ich erzeuge es bevorzugt via XSLT + letztem Prozessschritt über hhc.exe project.hhp. (hhc.exe hat man nach Installation des HTML Help Workshops vorliegen).

        Hier ein Vortrag über so genannte Containerformate. Des gepackte Material (23 MB) mit Code & Co. ist vielleicht auch interessant, aber für das Problem hier aus Word heraus wohl weniger. Eine eigene XML-Struktur + geeignete Transformation wäre aber ein gangbarer Weg.

        BTW, experimentell gefunden: mit <meta http-equiv="X-UA-Compatible" content="IE=edge" /> unterstützt der CHM-Viewer auch CSS3 und SVG. Normalerweise fällt dieser immer auf IE 7-Niveau runter. Make … 😉

        Grüße,
        Thomas

        1. Hallo ThomasM,

          CHM ist unter Windows bis 10 schon noch relevant.

          Ja, eigentlich wollte ich das auch ausgesagt haben. Es gibt nichts neueres, also ist es noch relevant. Aber es passt überhaupt nicht mehr ins Ökosystem. Und es ist lachhaft, dass es in Visual Studio keinen ab-Werk Projekttyp für Hilfeprojekte gibt. Immerhin gibt's im .net Framework Supportklassen dafür.

          Rolf

          --
          sumpsi - posui - obstruxi