Stefan Muenz: (ZUR INFO) Office 2000 - ein Blick ins Datei-Innere...

Liebe Forumsbesucher,

MS Office 2000, das ja mittlerweile auf dem Markt ist, hat jeweils 2 eigene Dateiformate: die alten, also doc, xls, ppt, und ein gemeinsames neues: naemlich htm (Datei/Speichern als/Webseite). In beiden Dateitypen koennen alle Office-Daten verlustfrei gespeichert werden. Gucken wir doch mal, wie so eine Webseiten-Datei von MS Word 2000 (oder Word 9, wie es sich auch nennt) aussieht:

====================================================

<html xmlns:v="urn:schemas-microsoft-com:vml"
xmlns:o="urn:schemas-microsoft-com:office:office"
xmlns:w="urn:schemas-microsoft-com:office:word"
xmlns="http://www.w3.org/TR/REC-html40">

<head>
<meta http-equiv=Content-Type content="text/html; charset=windows-1252">
<meta name=ProgId content=Word.Document>
<meta name=Generator content="Microsoft Word 9">
<meta name=Originator content="Microsoft Word 9">
<link rel=File-List href="./test-Dateien/filelist.xml">
<title>Das ist ein Absatz vom Typ Überschrift 1</title>
<!--[if gte mso 9]><xml>
<o:DocumentProperties>
  <o:Author>Stefan Muenz</o:Author>
  <o:Template>Normal</o:Template>
  <o:LastAuthor>Stefan Muenz</o:LastAuthor>
  <o:Revision>2</o:Revision>
  <o:Created>1999-06-12T08:43:00Z</o:Created>
  <o:LastSaved>1999-06-12T08:43:00Z</o:LastSaved>
  <o:Pages>1</o:Pages>
  <o:Company>-</o:Company>
  <o:Lines>1</o:Lines>
  <o:Paragraphs>1</o:Paragraphs>
  <o:Version>9.2812</o:Version>
</o:DocumentProperties>
</xml><![endif]--><!--[if gte mso 9]><xml>
<w:WordDocument>
  <w:HyphenationZone>21</w:HyphenationZone>
</w:WordDocument>
</xml><![endif]-->
<style>
<!--
/* Font Definitions */
@font-face
{font-family:"Rockwell Extra Bold";
panose-1:2 6 9 3 4 5 5 2 4 3;
mso-font-charset:0;
mso-generic-font-family:roman;
mso-font-pitch:variable;
mso-font-signature:3 0 0 0 1 0;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{mso-style-parent:"";
margin:0cm;
margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:"Times New Roman";
mso-fareast-font-family:"Times New Roman";}
h1
{mso-style-next:Standard;
margin-top:12.0pt;
margin-right:0cm;
margin-bottom:3.0pt;
margin-left:0cm;
mso-pagination:widow-orphan;
page-break-after:avoid;
mso-outline-level:1;
font-size:16.0pt;
font-family:Arial;
mso-font-kerning:16.0pt;}
@page Section1
{size:595.3pt 841.9pt;
margin:70.85pt 70.85pt 2.0cm 70.85pt;
mso-header-margin:35.4pt;
mso-footer-margin:35.4pt;
mso-paper-source:0;}
div.Section1
{page:Section1;}
-->
</style>
<!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026"/>
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
  <o:idmap v:ext="edit" data="1"/>
</o:shapelayout></xml><![endif]-->
</head>

<body lang=DE style='tab-interval:35.4pt'>

<div class=Section1>

<h1>Das ist ein Absatz vom Typ Überschrift 1</h1>

<p class=MsoNormal>Das ist ein Textabsatz in Times New Roman 12pt</p>

<p class=MsoNormal><span style='font-family:"Rockwell Extra Bold"'>Das ist ein
Textabsatz in Rockwell Extra Bold</span></p>

</div>

</body>

</html>

Wie man gut erkennen kann, wird hier ein HTML benutzt, das um office-eigene XML-Definitionen erweitert ist. Jene Tags, die nicht zu HTML gehoeren, sondern mit Hilfe von XML definiert wurden, kommen in entsprechenden Passagen vor, wie:
<xml>
<o:DocumentProperties>
....
</o:DocumentProperties>
</xml>
Ansonsten viel CSS, wie man sieht, auch die ganzen Definitionen zum Druckseitenlayout - und jetzt duerfte auch dem Letzten klar sein, warum Microsoft die CSS-Sprache schon vor einiger Zeit lizensiert hat.

Browser, die XML nicht kennen, ignorieren einfach die <xml>...</xml>-Passagen und stellen den Rest ganz normal dar. Der MSIE5 allerdings erkennt auch den Kram innerhalb der xml-Passagen und macht was draus, sofern was draus zu machen ist.

Word und die anderen Office-Programme sind dadurch in der Lage, alles, was sie koennen, ohne Verlust in HTML-Dateien abzuspeichern. Office-Dateien befreien sich dadurch von den Programmen und werden Web-gerechte Dokumente. HTML hat damit vor allem eine der letzten grossen Bastionen der herkoemmlichen Textverarbeitung erobert. Tja, Adobe, dann pennt mal schoen weiter...

viele Gruesse
  Stefan Muenz

  1. hallo stefan,

    schön und gut... ABER... soviel balast für 2 klitzekleine testsätze in unterschiedlichen schriftarten? oki... ich weiß schon, wenn du mehr geschrieben hättest, würde sich das verhältnis verändern, aber trotzdem... für meinen geschmack wird da noch eindeutig zu viel "luft" abgespeichert, da sollte M$ unbedingt noch was tun (werden sie aber nicht, wie ich sie kenne -> siehe frontpage..:) aber ein schritt in die richtige richtung ist es auf jeden fall schon mal, da muß ich dir recht geben (wobei mir im moment dokumentationen in pdf immer noch 100mal lieber sind als html-dokus (ich sag nur drucken -> siehe thread weiter unten...:)).

    gr33tz
    vac

    1. Hallo Vac

      schön und gut... ABER... soviel balast für 2 klitzekleine testsätze in unterschiedlichen schriftarten? (wobei mir im moment dokumentationen in pdf immer noch 100mal lieber sind als html-dokus

      pdf-Dateien muessen ja wohl auch ihre Formatierung irgendwo abspeichern! Sieh Dir mal ein pdf mit einem Herx-Editor an, dann wirst Du DIch wundern, was da so alles drinsteht. :-)
      Umsonst sind die Dinger ja nicht so riesig und der Nachteil ist halt, Du kannst diese Teile nur mit einem Programm ansehen. Proprietaerer geht's wohl ueberhaupt nicht.

      Gruesse
      Wilhelm

      1. Hallo Vac,

        Ein kleiner Nachtrag. Fuer diesen habe ich mal kurz den Thread-Titel geaendert, Stefan moege mir verzeihen <g>

        Spielen wir mal ein bisschen theoretische Marktwirtschaft am Beispiel Adobe mit dem Reader und Distiller.

        Adobe entwickelt ein Dokumentenformat, fuer das sich (zugegebenermassen) relativ einfach komplette (in irgendeiner Textform vorliegende) Beschreibungen erstellen lassen. In unserem Fall waere das der Distiller, der sich als simpler Drucker auf dem System meldet.

        Fuer die Leseoperation schenken sie Dir - als Kunde von diversen Firmen - den Reader. Aber warum tun Sie das?
        Wohl nicht, weil sie eine Non-Profit-Organisation sind, nein, sie wollen dadurch ihr Format auf dem Markt durchdruecken. Denn wenn der Reader kostenlos ist, werden wohl viele andere Firmen hergehen und Ihre Beschreibungen auf diesem Format erstellen. Wenn dann der Marktanteil des Formates einen bestimmten  Prozentsatz  erreicht hat, geht man einfach her und schreibt fuer eine neue Distillerversion das Format ganz leicht um, nur soweit, dass man dafuer einen neuen Reader braucht.

        Jetzt kannst Du natuerlich einwenden, dass die alten Dateien mit dem alten Reader gelesen werden koennen. Ist ja auch so richtig.
        Aber es ist natuerlich laestig, zwischen pdf1 und pdf2 zu unterscheiden, Du merkst ja erst beim Aufruf der Datei, welchen Reader Du brauchst. Also geht Adobe her und bringt den alleslesenden Reader auf den Markt, aber der ist nicht mehr kostenlos!

        Und hier beginnt das Geldverdienen, denn wen eine grosse Firma ihre Strategie auf pdf aufgebaut hat, bleibt ihr und damit auch den Kunden nichts anderes uebrig, als in den sauren Apfel zu beissen, da die Formate ja nicht von heute auf morgen wieder umgestellt werden koennen.
        Ich stufe das Verhalten von Adobe irgendwie als Termingeschaeft ein, d.h. man investiert heute fuer eine Rendite auf Basis bestimmter Kurse (Marktanteile) zu einem bestimmten Zeitraum. Bloss ist die Rechnung meines Erachtens bisher nicht ganz aufgegangen und das ist nicht das schlechteste.

        Ich will Adobe keinesfalls diskriminieren, aber es ist halt ein schoenes Beispiel. Und MS hat es ja mit WORD6, WORD95 und WORD97 vorgemacht.

        Was das ganze jetzt mit HTML zu tun hat? Nun ja, HTML kann ich mittlerweise mit zig Browsern oder Textverarbeitungen lesen, PDF nicht.

        Noch ein schoenes Wochenende
        Wilhelm

        1. hallo wilhelm,

          nur ganz kurz: du hast ja recht, was das propertiäre oder unabhängige angeht, ich schließe mich deiner meinung da auch ganz an. aber pdf-files haben halt wirklich (noch?) den vorteil der leichteren handlebarkeit - ich erwähne nur noch mal das stichwort drucken...

          natürlich sind die dateien um einiges größer als vergleichbares html oder ein textfile, siehe die html4-doku oder die css2-spezifikationen. aber es läßt sich halt (leider? *g*) leichter handhaben, ich drücke eben einfach auf drucken und das proggi bläst die 300 seiten dann der reihe nach aus dem drucker (wohl dem der auf einen guten, schnellen, duplexfähigen drucker zurückgreifen kann (wie z.b. ich ;)) -> mach das mal mit html so einfach (ja ich weiß, das geht auch, siehe den thread weiter unten (-> < http://www.teamone.de/selfaktuell/self_forum/20322.html>), aber es geht halt nicht so einfach.

          ich will damit nicht deutlich machen, daß ich ein pdf-verfechter bin, im gegenteil - ich ziehe html auch vor (ist halt einfach flexibler und vielseitiger), mir geht es einfach um die einfachere handlebarkeit.

          punkt. aus. ende. ;)

          gr33tz
          vac

          1. Hallo Vac

            punkt. aus. ende. ;)

            wenn ich jetzt ein sensibles Kerlchen waere, wuerde ich obiges persoenlich nehmen. Ich entscheide gerne selbst, wann ich nochmal Stellung nehme und wann nicht. Ich lass mir das nicht vorschreiben! Und wenn jemand eine Meinung kundtut, muss er halt auch mit Widerspruch rechnen. Das ist bei Diskussionen so ueblich.

            Aber wie gesagt, wenn.....

            Wilhelm

            1. hallo wilhelm,

              punkt. aus. ende. ;)

              wenn ich jetzt ein sensibles Kerlchen waere, wuerde ich obiges persoenlich nehmen. Ich entscheide gerne selbst, wann ich nochmal Stellung nehme und wann nicht. Ich lass mir das nicht vorschreiben! Und wenn jemand eine Meinung kundtut, muss er halt auch mit Widerspruch rechnen. Das ist bei Diskussionen so ueblich.

              sorry, daß ist wohl in die falsche kehle gerutscht... :((( ich wollte dir damit natürlich NICHT verbieten die diskussion fortzusetzen (wie käme ich auch dazu), vielmehr wollte ich damit einfach nur deutlich machen, daß es irgendwie "sinnlos" ist, daß sich zwei "streiten", die prinzip einer meinung sind (denn das sind wir! wie schon gesagt, mein vorzug der handlebarkeit bezog sich echt nur auf das drucken von html- oder pdf-files), oder siehst du das anders?

              Aber wie gesagt, wenn.....

              ja... "wenn" ;)

              gr33tz
              vac

      2. Hallo Wilhelm!

        Umsonst sind die Dinger ja nicht so riesig und der Nachteil ist halt, Du kannst diese Teile nur mit einem Programm ansehen. Proprietaerer geht's wohl ueberhaupt nicht.

        Guck mal auf <../../sfarchiv/1999_2/t03402.htm#a16304>. Dort habe ich was zum Thema 'proprietär' in bezug auf .pdf-Dateien geschrieben. Sie sind nämlich offen dokumentiert und damit eigentlich nicht proprietär. Zum anderen sind die 'Streams' innerhalb der .pdf-Dateien zumeist lzw-komprimiert und nehmen daher eigentlich sehr wenig Platz ein. Ich kenne sonst kein Dateiformat, in dem man z.B. ein 500-seitiges Buch mit vielen Grafiken usw. in 5 MB quetschen kann. Von daher wird sich .pdf meiner Ansicht nach auch noch länger halten - trotz Word 9...

        Viele Grüße

        Andreas

        1. Hallo Andreas,

          Guck mal auf <../../sfarchiv/1999_2/t03402.htm#a16304>. Dort habe ich was zum Thema 'proprietär' in bezug auf .pdf-Dateien geschrieben. Sie sind nämlich offen dokumentiert und damit eigentlich nicht proprietär. Zum anderen sind die 'Streams' innerhalb der .pdf-Dateien zumeist lzw-komprimiert und nehmen daher eigentlich sehr wenig Platz ein. Ich kenne sonst kein Dateiformat, in dem man z.B. ein 500-seitiges Buch mit vielen Grafiken usw. in 5 MB quetschen kann. Von daher wird sich .pdf meiner Ansicht nach auch noch länger halten - trotz Word 9...

          Das PDF keine Existenzberechtigung hat streite ich gar nicht ab. Wir nutzen den Distiller in unserer Firma auch und zwar fuer eine nachtraegliche originalgetreue Archivierung unserer Auftragsbestaetigungen und Kaufvertraege, welche aus unserer Datenbank nur On_Fly erzeugt werden und waehrend des Ausdruckes nicht gespeichert werden.

          Aber hier geht es doch eigentlich nur um die Moeglichkeit, aus einer Textverarbeitung oder einem Spreadsheet ein plattformunabhaengiges Dokument zu erzeugen. Und da finde ich den Ansatz von MS halt besser als PDF.

          Gruesse
          Wilhelm

    2. Hallo VAC

      schön und gut... ABER... soviel balast für 2 klitzekleine testsätze in unterschiedlichen schriftarten?

      Die gepostete Datei hab ich als htm und doc abgespeichert. Ergebnis:

      test.doc = 19456 Bytes
      test.htm = 2703 Bytes

      Ich denke, das sagt alles, oder?

      viele Gruesse
        Stefan Muenz

      1. hallo stefan,

        schön und gut... ABER... soviel balast für 2 klitzekleine testsätze in unterschiedlichen schriftarten?

        Die gepostete Datei hab ich als htm und doc abgespeichert. Ergebnis:

        test.doc = 19456 Bytes
        test.htm = 2703 Bytes

        Ich denke, das sagt alles, oder?

        ist ja gut.. ihr habt mich schon überzeugt... ich habe das ganze ja auch nicht zu einer testdatei gemacht und mir die dateigröße angeschaut. mir fiel nur einfach auf, daß erst ein riesengroßer wasserkopf (water<head>? *g*) mit formatierungen usw. kam und dann die zwei kleinen sätzchen, daß sah halt putzig aus :)

        gr33tz
        vac

        1. Hallo VAC

          ist ja gut.. ihr habt mich schon überzeugt... ich habe das ganze ja auch nicht zu einer testdatei gemacht und mir die dateigröße angeschaut. mir fiel nur einfach auf, daß erst ein riesengroßer wasserkopf (water<head>? *g*) mit formatierungen usw. kam und dann die zwei kleinen sätzchen, daß sah halt putzig aus :)

          Wenn man "Harc-Coding" gewohnt ist, ist das sicher ziemlich viel - vor allem der ganze Standard-Overhead, der erst mal in so eine Datei reinkommt. Aber guck dir mal herkoemmliche Klartextformate an, eine Postscript-Datei etwa, oder, wenn die Gelegenheit besteht, eine von FrameMaker erzeugte Mif-Datei.

          Ein netter CSS-Befehl ist mir uebrigens noch aufgefallen in dem Code:
          <body lang=DE style='tab-interval:35.4pt'>

          Ein echter Wahnsinn, Tabulatoren in HTML! Und so siehts dann unten im Code aus, wenn man mal ein paar Tabs setzt:

          <p class=MsoNormal><span
          style='mso-tab-count:1'>   </span>Text<span style='mso-tab-count:1'>            </span>Text<span
          style='mso-tab-count:1'>            </span>Text</span></p>

          Also da kommt's jetzt doch langsam raus, wie heftig die mittlerweile CSS erweitert haben. Oder ist das XSL? Denn CSS-Angaben, die mit mso (=MSOffice) beginnen, na, ich weiss nicht...

          viele Gruesse
            Stefan Muenz

  2. Hallo Stefan,

    ich frage mich wo das hinführen soll... Microsoft treibt es da schon wieder einmal zu weit! Wenn wir so weiter machen und das ganze womöglich auch noch unterstützen machen wir uns komplett von diesem Weltkonzern abhängig und er wächst sozusagen zum Monopol. Wenn das wirklich so wird, dann kommen da noch einige andere Sachen auf uns zu; denk doch mal an den geplanten Kauf des deutschen Kabelnetzes oder von Perl.

    Ich sehe darin ein riesengroßes Problem, was man nicht so hinnehmen kann!

    Grüße
    Sebastian

    1. Hallo Sebastian,

      ich frage mich wo das hinführen soll... Microsoft treibt es da schon wieder einmal zu weit! Wenn wir so weiter machen und das ganze womöglich auch noch unterstützen machen wir uns komplett von diesem Weltkonzern abhängig und er wächst sozusagen zum Monopol.

      Jetzt atme mal tief durch! Was hat denn MS so Boeses getan? Sie implementieren XML in ihre Anwendungen, warum soll das den soooo schlecht sein? Das Beispiel von Stefan wird genauso im NN3 angezeigt wie im IE5.
      Alle beklagen sich ueber die mangelnde Implementierung von XML, dann macht es einer und wieder ist es nicht recht, nur weil es von MS kommt. Das verstehe wer will, ich nicht!

      Gruesse
      Wilhelm

  3. Hallo!

    Tja... muß man wohl neidlos anerkennen, daß mit Word 9 tatsächlich ein Quantensprung vollzogen wird - man sollte dabei allerdings bedenken, daß Microsoft imho allein einen Forschungsetat von 3 Giga-Dollar pro Jahr hat - irgendwie muß da auch was bei hinten herauskommen (so'ne Art Massenwirkungsgesetz <g>). Zum einen werden dann keine versteckten Informationen (Netzwerkkarten-Id. und so) mehr übertragen, die man nicht auch problemlos selber in der Datei nachlesen könnte. Zum anderen hat jetzt jeder Prorammierer die Möglichkeit, mit einfachen Ascii-Ausgaberoutinen ein Drucklayout zu generieren, das dann wohl demnächst fast überall lesbar und mit guter Qualität ausdruckbar sein wird. Bisher waren dynamisch generierte Drucklayouts nur mit .ps- oder .pdf-Dateien in guter Qualität machbar. Also - auf jeden Fall ein weitsichtiger Schritt in die richtige Richtung.

    Bleibt abzuwarten, ob Word 9 auch stabil läuft, vor allem mit sehr großen Dokumenten - und wie sich der weitere Schritt in Richtung Microsoft-Zentralisierung auf den Softwaremarkt auswirkt. Da sehe ich noch viele Ungewißheiten...

    Viele Grüße

    Andreas

    1. Hallo Andreas

      »»  weitere Schritt in Richtung Microsoft-Zentralisierung auf den Softwaremarkt auswirkt. Da sehe ich noch viele Ungewißheiten...

      Das sehe ich eigentlich nicht so. Die Entwickler anderer Firmen sehen doch jetzt, was unterm Strich rauskommen muss, um mit den Redmondern kompatibel zu sein; Der "Weg nach Rom" ist dann deren Sache. Filterprobleme wuerden bei diesem Format der Vergangenheit angehoeren.

      Gruesse
      Wilhelm

    2. Hallo Andreas

      Zum anderen hat jetzt jeder Prorammierer die Möglichkeit, mit einfachen Ascii-Ausgaberoutinen ein Drucklayout zu generieren, das dann wohl demnächst fast überall lesbar und mit guter Qualität ausdruckbar sein wird.

      Eben - das ist eine der gewaltigsten Auswirkungen, die das Ganze haben wird. Man braucht schlichtweg kein Word und kein Excel mehr, um Daten fuer Word oder Excel zu erstellen. Wenn man den Aufbau der Dateien kennt, kann man seinen geliebten HomeSite oder was weiss ich dazu nutzen. Oder eben gleich ein Perlchen - auweia, da darf ich ja gar nicht dran denken, was da alles moeglich wird, serienbrief.pl, jahresumsatz.pl, das wird irre ...

      viele Gruesse
        Stefan Muenz

  4. Hallo,

    MS Office 2000, das ja mittlerweile auf dem Markt ist, hat jeweils 2 eigene Dateiformate: die alten, also doc, xls, ppt, und ein gemeinsames neues: naemlich htm (Datei/Speichern als/Webseite). In beiden Dateitypen koennen alle Office-Daten verlustfrei gespeichert werden.

    soweit ich mich erinnere, habe ich vor ca. einem Jahr gelesen, dass MS HTML zum Standarddateiformat machen möchte. Scheint ja nicht ganz so gekommen zu sein. Damals wie heute wundere ich mich darüber. Bisher war das Dateiformat gerade bei Microsoft ein Mittel gegen die Konkurrenz (fehlende oder fehlerhafte Filter) oder ein Zwanginstrument zum Upgrade (z.B. bei Firmen mit umfangreichen Aussenkontakten).

    Warum sollte MS dieses Machtinstrument einfach aus der Hand geben und jedem beliebigen Entwickler die Möglichkeit einräumen, ein Konkurrenzprodukt aufzusetzen, das auf dem offenen Dokumentenstandard aufsetzt?

    Gruss

    Volker

    1. Hi Volker,

      soweit ich mich erinnere, habe ich vor ca. einem Jahr gelesen, dass MS HTML zum Standarddateiformat machen möchte.

      MS meldete XML, und das ist es jetzt auch.

      Gruß,
      Martin

      1. Hallo Martin,

        MS meldete XML, und das ist es jetzt auch.

        XML oder HTML, mir ging es mehr um das Thema Standarddateiformat, und das ist es noch nicht. Die Anwendungen werden noch immer mit den Originalformaten als Standard installiert.

        Gruss
        Volker

    2. Hallo Volker,

      Bisher war das Dateiformat gerade bei Microsoft ein Mittel gegen die Konkurrenz (fehlende oder fehlerhafte Filter) oder ein Zwanginstrument zum Upgrade (z.B. bei Firmen mit umfangreichen Aussenkontakten).

      Tja, und wenn sie diesen Trumph jetzt aus der Hand geben - glaubst du wirklich, dass die das freiwillig tun? Ich glaube es nicht. Ich glaube vielmehr, dass man daran sehr schoen sehen kann, dass Microsoft eben nicht einfach nur diktieren kann, wo es lang geht (wie man so oft hoert), sondern sich ziemlich tief der Gewalt des Internets und seiner Konzepte unterwerfen muss, um nicht daran zugrunde zu gehen. Aber das tun sie halt trotz ihrer Firmengroesse so konsequent und so viel schneller als die anderen, dass sie wieder den geballten Hass der langsamer Denkenden und Handelnden auf sich ziehen werden.
      Ich bin mir jedenfalls ziemlich sicher, dass dieses Office 2000 ein gewaltiger Renner wird im Gegensatz zu den Vorlaeufer-Versionen. Aber diesmal eben nicht wegen der "Programmoberflaechen" (da hat sich ein bisserl, aber nicht gewaltig viel getan), sondern weil jetzt richtige Datenverarbeitung mit MS Office moeglich wird.

      viele Gruesse
        Stefan Muenz

      1. Hallo Stefan,

        Ich glaube vielmehr, dass man daran sehr schoen sehen

        kann, dass Microsoft eben nicht einfach nur diktieren kann, wo es lang geht (wie man so oft
        hoert), sondern sich ziemlich tief der Gewalt des Internets und seiner Konzepte unterwerfen
        muss, um nicht daran zugrunde zu gehen.

        klingt mir ein wenig sehr optimistisch. Ich denke, dass es MS beim Thema X/HTML nicht nur um die Frage geht, wie man Seiten für das Web erstellen kann. MS ist doch irgendwie nur gedrängt worden diesen Markt anzugehen. Geld kann man da wohl -nicht-noch nicht-oder nie- so viel verdienen, wie im Desktop-Bereich und seinen Randgebieten.

        Ich kenne XML nicht so gut, um zu beurteilen, inwieweit es hier Ansätze für proprietäre Lösungen gibt. Aber wie wäre es denn mit dem folgenden Szenario:

        MS implementiert X/HTML als Standarddateiformat. Der IE unterstützt alle Features. Es werden proprietäre Geschichten eingebaut, die nur von MS Produkten vernünftig umgesetzt werden. Alle anderen Hersteller weigern sich erst, sich auf diesen Weg einzulassen. Durch die zunehmende Verschmelzung von Internet und Desktop wird das MS-X/HTML-Format zum universellen Quasi-Standard. Diese Entwicklung wird forciert durch das Bedürfnis der Anwender nach einem zukunftsträchtigen Archivierungsformat (wie ich denke eines der großen Zukunftsthemen!). Endlich können DV-Entscheider sich ruhigen Gewissens für das ach so offene MS-Format entscheiden, da es alle Probleme in einem löst, ohne zu merken wohin der Zug läuft. DV-Enstcheider suchen nicht nach technisch optimalen, sondern nach bequemen Lösungen. Probleme die mit den Dokumenten in der Folgezeit auftreten werden nicht MS in die Schuhe geschoben, sondern den ach so dummen anderen Programmen (alles schon erlebt, als die große Siegesoffensive von MS auf dem Textverarbeitungsmarkt lief und z.B. WordPerfect das Genick brach). MS verkauft sich als einer der treibenden Kräfte in der Weiterentwicklung, bis keiner mehr mithalten kann. Mit einem riesigen strategischen Schachzug hat MS dann nicht nur den Desktop, sondern auch das Web erobert.

        Ist das dumm, düster oder doch vielleicht vorstellbar.

        Gruss
        Volker

        1. Hallo Volker,

          MS implementiert X/HTML als Standarddateiformat. Der IE unterstützt alle Features. Es werden proprietäre Geschichten eingebaut, die nur von MS Produkten vernünftig umgesetzt werden. Alle anderen Hersteller weigern sich erst, sich auf diesen Weg einzulassen. Durch die zunehmende Verschmelzung von Internet und Desktop wird das MS-X/HTML-Format zum universellen Quasi-Standard.

          Das duerfte das Kalkuel von denen sein, ja. Und der Grund ist XML. Durch XML ist eben die "Schranke" gefallen, die durch das ach so starre HTML gegeben war: bei XML braucht man sich nur noch an die Definitionsregeln zu halten, ansonsten kann man machen was man will. XML ist ja gerade das Prinzip der Proprietarisierung (uff<g>) der Tags. Und da gibt es eben kleine Unterschiede: was von den einen als die grosse Freiheit gefeiert wird ("endlich kann ich <MeinName> schreiben statt <h1>"), gibt den Maechtigen, wie Microsoft eben, die Moeglichkeit an die Hand, "ihre" ganz xml-legalen proprietaeren Befehle zu defacto-Standards zu machen.

          Ich gebe dir Recht, wenn du vermutest, dass MS nicht auf HTML und vor allem auf XML einschwenkt, weil die das aus den gleichen Gruenden so geil finden wie wir <g>. Die tun das deshalb, weil sie etwas erkannt haben, das noch kaum jemand erkannt hat.

          viele Gruesse
            Stefan Muenz

  5. hmm... sorry leute, aber ich finde ihr .. naja.... steht etwas offtopic... mich als (eventuellen) office - kunden interessiert in erster linie nicht ob das ding seine daten in griechisch oder html oder in türkisch speichert.... sonder mir als kunden gehts um was anderes: DAS DING SOLL LAUFEN !

    ich denke da nur an WORD97.....  versucht da mal ne datei mit 100+ seiten zu tipseln... prädikat: fast unmöglich !

    excel97..... versucht mal eine liste komplett zu formatieren... prädikat unmöglich... aufgrund mehrere bugs kann man es nicht !

    access97.......    usw usw

    ich könnte da jetzt noch gut 1000 weitere beispiele nennen die sich auch bugs nennen.... (kleines wortspiel am rande)

    also stefan was ist damit (sorry wenn ich dich nicht beim nachnahmen nenne ) ?????

    der grund warum viele firmen auf linux umnsteigen ist doch auch der das sie eben 100%ige zuverlässigkeit wollten.... da verzichtet man gerne auch auf etwas bequemlichkeit...

    ich für meinen teil kaufe es evtl eerst wenn keine 1000 bugs mehr drin sind...

    grüße tweety

    1. Hallo Tweety

      deine Antwort ist insofern tatsaechlich off-topic, als dies nicht das Thema ist. Word, Excel und die anderen haben eine Menge Bugs, das ist bekannt. SELFHTML hat zum Beispiel auch eine Menge Bugs, das ist auch bekannt. Aber wenn man darueber diskutiert, dass es moeglich ist, mit Perl eine intelligente Feldsuche fuer SELFHTML zu realisieren, dann diskutiert man in dem Moment eben nicht ueber die Bugs. Und genau so ist es jetzt und hier mit dem Office-Zeugs. OK?

      viele Gruesse
        Stefan Muenz

  6. Hallo Stefan, hallo die Anderen!

    Ich habe die Datei?? auf XML checken lassen:
    Line 8, column 17, character 'C': after AttrName= in start-tag
    Line 9, column 11, character 'P': after AttrName= in start-tag
    Line 10, column 11, character 'G': after AttrName= in start-tag
    Line 11, column 11, character 'O': after AttrName= in start-tag
    Line 12, column 10, character 'F': after AttrName= in start-tag
    Line 82, column 11, character 'D': after AttrName= in start-tag
    Line 84, column 11, character 'S': after AttrName= in start-tag
    Line 88, column 9, character 'M': after AttrName= in start-tag
    Line 88, column 69: Encountered </p> with no start-tag.
    Line 90, column 9, character 'M': after AttrName= in start-tag
    Line 91, column 44: Encountered </p> with no start-tag.
    Line 93, column 6: Encountered </div> with no start-tag.
    Line 95, column 7: Encountered </body> with no start-tag.

    Gipfel der Angeberei von MS:
    xmlns="http://www.w3.org/TR/REC-html40"
    Der HTML-Validator meint dazu lapidar:
    "Error at line 2:
       <html xmlns:v="urn:schemas-microsoft-com:vml" cannot continue because of previous errors"
    Und das in der 2. Zeile.
    CSS und XLS sind ebeso ungültig.

    Glänzender beweis dafür, wie wenig es MS sich um einen Standard schert.
    Was die Argumente betrifft, daß mit O-2000 es endlich ermöglicht wird, auf ein allgemeingültiges Dateiformat zu setzen, kann ich überhaupt nicht zustimmen.
    Propietärer wie in deinem Beispiel geht es kaum! (bitte nur all die mso- Angaben beachten!)

    Welche Systeme und Programme werden diese "Datei" denn unterstützen?

    Nich mal der IE5 kann diese angaben im vollen Umfang anzeigen. Also es wird ein IE5.5 oder 6 benötigt. Das aber MS bestimmt nicht als Einzelanwendung bringen wird, da sie bis dahin die Verschmelzung von Browser und Desktop vollgezogen haben.

    Wie wenig MS darum bemüht ist, außer der eigene Formate etwas zu unterstützen, zeigt wohl, daß in der XML-Working Group nur eine einzige Vertreter von MS mitarbeitet.

    Meines Erachtens nach, gibt es 2 Möglichkeiten für uns;

    1. Entweder wird MS mit O-2000 zum absoluten Herrscher auf dem Gebiet, oder
    2. er leitet seien eigenen 'Untergang' ein.

    zum 2.: Es ist schon zu merken, daß viele Anwender immer stärker Standars wünschen, die NICHT ein propietäres und systemabhängiges Format bedeuten.

    Grüße
    Thomas

    1. Hallo Thomas

      Ich habe die Datei?? auf XML checken lassen:

      Line 95, column 7: Encountered </body> with no start-tag.

      In der Datei steht:
      <body lang=DE style='tab-interval:35.4pt'>

      Also ich weiss nicht, ist nicht vielleicht der Validator der Angeber in diesem Fall? ;-)

      viele Gruesse
        Stefan Muenz

      1. Hallo Stefan!

        Line 95, column 7: Encountered </body> with no start-tag.

        In der Datei steht:
        <body lang=DE style='tab-interval:35.4pt'>

        Also ich weiss nicht, ist nicht vielleicht der Validator der Angeber in diesem Fall? ;-)

        Ich kann nicht beurteilen wie gut der Validator war/ist.
        Aber sollte diese Datei ein 'wohlgeformte'-XML Datei sein, müsste sie ja schon mit:
        <?xml version="1.0"?> beginnen.
        und body sollte in etwa (wenn schon so wie sie es machen) so aussehen:
        <body xml:lang="de-DE">

        Wenn die ganze XHTML sein soll müsste die Zeile: xmlns="http://www.w3.org/TR/REC-html40" so aussehen:
        xmlns="http://www.w3.org/TR/xhtml1"
        dann : "Element and attribute names must be in lower case."
        "Attribute values must always be quoted." --> lang=DE und class=...
        und eigentlich sollte man beides benützen lang="de" und xml:lang="de-DE" wobei xml: Vorrang hätte.
        Na ja, und so weiter und so fort!

        Ich weiss nicht, ob du diese Datei als *.xml unter IE5 getestet hast. Das Ergebniss spricht für sich!

        Aber in diesem Zusammenhang es ist im Grunde sinnlos über XML oder XHTML zu diskutieren, da hier genau das herausgekommen ist, was alle erwartet haben:
        eine Brühe aus MS Küche. Na dann: Malzeit!

        Grüße
        Thomas

        1. Hallo Thomas

          Aber sollte diese Datei ein 'wohlgeformte'-XML Datei sein, müsste sie ja schon mit:
          <?xml version="1.0"?> beginnen.

          Es ist ja keine XML-Datei, es ist eine HTML-Datei, siehe HTML-Spec-Bezug in der ersten Zeile. Es ist eine HTML-Datei mit "XML on the fly". So weit ich weiss ist diese Art, XML einzubinden, auch im Standard so vorgesehen.

          viele Gruesse
            Stefan Muenz

  7. Liebe Diskutanten dieses Threads

    noch eine kleine "Nachlese" zu dem Thema. Word ist also mittlerweile ein Wysiwyg-Editor fuer HTML. Gucken wir mal, wie der mit vorhandenem Code umgeht.

    Beispiel vor Aufruf mit Word:
    ---------------------------------
    <TABLE CLASS="pbox" WIDTH="100%" BGCOLOR="#F0F0FF" CELLPADDING="5" CELLSPACING="0" BORDER="0">
    <TR><TD VALIGN="top">
    <FONT FACE="Arial,Helvetica,Sans-Serif">
    <P>Ein Satz</P>
    </FONT>
    </TD></TR></TABLE>

    Gleiche Passage nach Abspeichern mit Word:
    ---------------------------------
    <table border=1 cellspacing=0 cellpadding=0 width="100%" bgcolor="#f0f0ff"
       style='width:100.0%;mso-cellspacing:0cm;background:#F0F0FF;border:none;
       mso-padding-alt:3.75pt 3.75pt 3.75pt 3.75pt'>
       <tr>
        <td valign=top style='border:none;padding:3.75pt 3.75pt 3.75pt 3.75pt'>
        <p>Ein Satz</p>
        </td>
       </tr>
      </table>

    Nun ja, also mein vorhandenen Files werde ich damit besser nicht editieren <g>.

    viele Gruesse
      Stefan Muenz

    1. Hallo Stefan!

      »»<td valign=top style='border:none;padding:3.75pt 3.75pt 3.75pt 3.75pt'>
      »»
      Stell dir vor du hättest statt:

      <P>Ein Satz</P>

      folgendes gehabt:
      <div style="width:200px;">Ein Satz</div>
      Da zeigt dir dann NS was er davon hält: Nichts.

      Wenn dann unglücklicherwiese sowas steht:
      <div style="width:300px;"><h5 style="border:solid 1px #ffd700;">Ein Satzt</h5></div>

      Schmiert NS mit einem Tempo ab, die nahe an
      Lichgeschwindigkeit kommt.
      Und das alles wegen: padding im <TD>.

      Keine Frage! Das ist ein NS Bug. Damit wollte ich nur demonstrieren, daß bestehende, funktionierende Code durch solche änderungen zum Browserkiller werden kann.

      Nun ja, also mein vorhandenen Files werde ich damit besser nicht editieren <g>.

      Das ist die einzige Lösung: schön die Finger davon lassen. =8-)

      Grüße
      Thomas

  8. Hallo!

    Ohne diesen Thread jetzt überstrapazieren zu wollen<g> - mich würde mal sehr interessieren, was Word 9 mit eingebetteten Formel-Objekten sowie den Microsoft-eigenen Grafiken so macht, wenn man das Dokument als .htm abspeichert. Werden die eingebetteten Objekte dann in eine .gif-Grafik umgewandelt oder gibt es unter xml bereits Zusätze für Vektorgrafiken?

    Viele Grüße

    Andreas

    1. Hallo Andreas

      mich würde mal sehr interessieren, was Word 9 mit eingebetteten Formel-Objekten sowie den Microsoft-eigenen Grafiken so macht, wenn man das Dokument als .htm abspeichert. Werden die eingebetteten Objekte dann in eine .gif-Grafik umgewandelt oder gibt es unter xml bereits Zusätze für Vektorgrafiken?

      Das mit den Formeln kann ich jetzt nicht sagen, damit kenne ich mich nicht aus, gibt's da irgendwo einen versteckten Formeleditor in Word?

      Bei Bildern, die im doc-Dokument fest ins Dokument eingebunden sind, macht Word im htm-Modus doch wieder referenzierte Grafiken.

      Und so sieht die in ihrer Schlichtheit wirklich ergreifende Referenz einer WMF-Grafik im HTML-Code der Word-Datei aus:

      <p class=MsoNormal><!--[if gte vml 1]><v:shapetype id="_x0000_t75" coordsize="21600,21600"
      o:spt="75" o:preferrelative="t" path="m@4@5l@4@11@9@11@9@5xe" filled="f"
      stroked="f">
      <v:stroke joinstyle="miter"/>
      <v:formulas>
        <v:f eqn="if lineDrawn pixelLineWidth 0"/>
        <v:f eqn="sum @0 1 0"/>
        <v:f eqn="sum 0 0 @1"/>
        <v:f eqn="prod @2 1 2"/>
        <v:f eqn="prod @3 21600 pixelWidth"/>
        <v:f eqn="prod @3 21600 pixelHeight"/>
        <v:f eqn="sum @0 0 1"/>
        <v:f eqn="prod @6 1 2"/>
        <v:f eqn="prod @7 21600 pixelWidth"/>
        <v:f eqn="sum @8 21600 0"/>
        <v:f eqn="prod @7 21600 pixelHeight"/>
        <v:f eqn="sum @10 21600 0"/>
      </v:formulas>
      <v:path o:extrusionok="f" gradientshapeok="t" o:connecttype="rect"/>
      <o:lock v:ext="edit" aspectratio="t"/>
      </v:shapetype><v:shape id="_x0000_i1025" type="#_x0000_t75" style='width:3in;
      height:197.25pt'>
      <v:imagedata src="./testbild-Dateien/image001.wmz" o:title="PE01832_"/>
      </v:shape><![endif]--><![if !vml]><img width=288 height=263
      src="./testbild-Dateien/image002.gif" v:shapes="_x0000_i1025"><![endif]></p>

      Es wird unterhalb des Verzeichnisses, wo man die htm hin speichert, ein Verzeichnis mit dem Namen "dateivorname-Dateien" angelegt - in meinem Beispiel "testbild-Dateien", weil die Datei "testbild.htm" heisst. Und darin befinden sich im Fall der einen Grafik:

      1. eine Datei namens "filelist.xml":
      <xml xmlns:o="urn:schemas-microsoft-com:office:office">
      <o:MainFile HRef="../testbild.htm"/>
      <o:File HRef="image001.wmz"/>
      <o:File HRef="image002.gif"/>
      <o:File HRef="filelist.xml"/>
      </xml>

      2. ein "image001.wmz (binaer)

      3. ein "image002.gif

      Ich nehme an, die wmz enthaelt die wmf-Daten in gezippter Form - so kann Word das Original wieder herstellen, wenn das Word-Dokument weiterbearbeitet wird. Das gif, das in solchen Faellen natuerlich Verlust an Grafikinformationen bedeutet, ist fuer die Browser da - in meinem Beispiel hat der automatische GIF-Konverter recht ordentlich gearbeitet. War allerdings auch ein Clipart mit nicht so vielen Farben. Tja, und in der filelist.xml kontrolliert Word den fuer sein Dokument erforderlichen Inhalt des Verzeichnisses mit den Bildern.

      Ebenso wird es wohl auch mit anderen Grafikdateitypen und Multimedia-Objekten sein.

      viele Gruesse
        Stefan Muenz