sebastian: doc -> html converter inklusiv bilderdarstellung ?

hi

kennt jemand ein php script das in der lage ist word datein (.doc) darzustellen ?

ich habe jede menge php-klassen dazu gefunden, jedoch schaffen die grad mal die textformatierung, können aber die bilder nicht darstellen was wichtig wäre.

danke für tips

sebastian

  1. Hellihello

    eher aus word heraus exportieren mit dem massiven overhead an inlinestyles und klassen.

    Dank und Gruß,

    frankx

    --
    tryin to multitain  - Globus = Planet != Welt
    1. eher aus word heraus exportieren mit dem massiven overhead an inlinestyles und klassen.

      wenn ichs als mht (webarchiv) exportier bleibt nachwievor das problem dass ich einen php-converter braucht (mht->html).

      exportier ichs direkt als html dann hab ich einen folder mit zig bildern drin die man alle extra raufladen muss. sowas wollt ich vermeiden.

      grüsse sebastian

      1. hi $name,

        exportier ichs direkt als html dann hab ich einen folder mit zig bildern drin die man alle extra raufladen muss. sowas wollt ich vermeiden.

        das läßt sich nicht vermeiden - liegt in der natur der sache.

        gruss
        shadow

        --
        Windows Error: 103 - Windows detected running on system
        1. hab ich einen folder mit zig bildern drin die man alle extra raufladen muss.

          das läßt sich nicht vermeiden - liegt in der natur der sache.

          das würd sich schon vermeiden lassen wenn man die bilder eben aus dem .doc oder .mht-file mit einem php-script extrahiert. (da sind alle bilder und die formatierung in einem einzigen file drinnen.) nur keine ahnung ob jemand schon sowas geschrieben hat, per google find ich nichts deshalb fragte ich hier ja.

          greez

          1. Lieber sebastian,

            hab ich einen folder mit zig bildern drin die man alle extra raufladen muss.

            das läßt sich nicht vermeiden - liegt in der natur der sache.

            das würd sich schon vermeiden lassen wenn man die bilder eben aus dem .doc oder .mht-file mit einem php-script extrahiert.

            du wirst bei einem HTML-Dokument immer Bilddateien extern referenzieren müssen. Ich halte es auch für keine gute Idee, jedesmal die Bilddateien on-the-fly aus dem Word-Dokument extrahieren zu wollen. Das ist sinnfrei erzeugte Rechenlast. Daher ist die Idee des Verzeichnisses mit den Bildern durchaus sinnvoll!

            (da sind alle bilder und die formatierung in einem einzigen file drinnen.)

            Schon klar, was ein Word-Dokument ist... ;-)

            nur keine ahnung ob jemand schon sowas geschrieben hat, per google find ich nichts deshalb fragte ich hier ja.

            Sicherlich nicht mit on-the-fly-Bilderzeugung.

            Liebe Grüße,

            Felix Riesterer.

            --
            ie:% br:> fl:| va:) ls:[ fo:) rl:° n4:? de:> ss:| ch:? js:) mo:} zu:)
          2. Hellihello

            das würd sich schon vermeiden lassen wenn man die bilder eben aus dem .doc oder .mht-file mit einem php-script extrahiert. (da sind alle bilder und die formatierung in einem einzigen file drinnen.) nur keine ahnung ob jemand schon sowas geschrieben hat, per google find ich nichts deshalb fragte ich hier ja.

            Du bist dir sicher, dass Du php und html in den Grundzügen/Standardmechanismen verstehst?

            Dank und Gruß,

            frankx

            --
            tryin to multitain  - Globus = Planet != Welt
            1. Du bist dir sicher, dass Du php und html in den Grundzügen/Standardmechanismen verstehst?

              würd ich sonst solche fragen stellen ?

              is für einen auftrag und die wollten nicht bild für bild nachträglich einfügen. (die doc-formatierung übernehm ich schon mit strg-V in das formular)

              grüsse

              1. Lieber sebastian,

                is für einen auftrag und die wollten nicht bild für bild nachträglich einfügen.

                Klar. Und was wollten die genau machen, wobei sie keine Bilder nachträglich einfügen wollen?

                Du schreibst immer so unkonkreten Mist! Was genau meinst Du z.B. hiermit???

                (die doc-formatierung übernehm ich schon mit strg-V in das formular)

                Was soll das für ein Formular sein??? Texteingabefelder erlauben nur das Einfügen von reiner Textinformation. Also wovon sprichst Du hier wirklich??

                So langsam macht es mir keinen Spaß mehr, Dir weiterzuhelfen, weil Du höchst unwillig die notwendigen Details von Dir gibst. Das ärgert. Und dann fragt man sich: "Ist der so blöd, oder weiß er's nicht besser? Oder scheut er sich zuzugeben, dass er als 'beruflicher' eben doch nicht alles kann, was er meint in seiner Position können zu müssen?"

                Willst Du nun geholfen bekommen, oder nicht? Dann spuck halt mal aus!!!

                Liebe Grüße,

                Felix Riesterer.

                --
                ie:% br:> fl:| va:) ls:[ fo:) rl:° n4:? de:> ss:| ch:? js:) mo:} zu:)
                1. versteh nicht ganz warum du aufbraustend wirst, freu mich aber sehr über deine hilfe.

                  Klar. Und was wollten die genau machen, wobei sie keine Bilder nachträglich einfügen wollen?

                  die wollen einfach ein längeres word-file (das auch zahlreiche bilder enthalten kann) mit einem einzigen arbeitsschritt in eine webbasierte datenbank über einen webbrowser hochladen können. die datenbank soll das file auch am browser darstellen können.

                  »»Texteingabefelder erlauben nur das Einfügen von reiner Textinformation.

                  bis jetzt hab ich es so gelöst dass ich die textarea wo der artikel gepostet wird mit dem fckeditor überblende (http://www.fckeditor.net). der kann nämlich mittels javascript word-files inklusive der formatierung (!) übernehmen wenn man sie mit strg-V oder über kontextmenü einfügt.

                  lediglich die bilder fehlen dann noch. die muss man momentan einzeln hochladen und dann in die vom fckeditor überblendete textarea einfügen.

                  »»"Ist der so blöd, oder weiß er's nicht besser? Oder scheut er sich zuzugeben, dass er als 'beruflicher' eben doch nicht alles kann, was er meint in seiner Position können zu müssen?"

                  ja wie auch immer.

                  hab das problem inzwischen aber bereits teilweise gelöst. ich versteh nachwievor nicht wie word die bilder in doc-files anlegt und wie ich drauf zugreifen kann, hab aber mal probiert word files als web-archiv (.mht) abzuspeichern. und in mht-files sind die bilder gut markiert und lediglich base64-codiert. mein testscript was das erste bild meines testarchives anzeigt schaut so aus:

                  $filename="test23.mht";  
                    
                   $fp = fopen($filename,"r");  
                   $filedata = fread($fp,1000000);  
                   fclose($fp);  
                    
                   $pos1 = strpos($filedata,"Content-Type: image/jpeg"); //bild start  
                   if ($pos1 !== false)  
                   {  
                   $pos2 = strpos($filedata,"------=_NextPart",$pos1); //bild ende  
                    
                   header("Content-Type: image/jpeg");  
                   echo base64_decode(substr($filedata,$pos1+28,$pos2-$pos1-28));  
                   }
                  

                  lieber wär mir aber wenn ich die pics direkt aus .doc-fles rausbekommen könnte.

                  nette grüsse

                  1. Hellihello

                    na, wenn du das .doc - Format knacken willst, findest du hier u.U. niemanden. Ich habe mal mit excel-spreadsheet-reader hantiert. Aber Spaß macht das nicht (;-). Vergiss nicht, dass äterer oder neuerer Word-Versionen vielliecht ein anderes Format ausspucken und MS von der Tendenz her wohl eher verhindern will, dass andere Anwendungen sich an ihren Formaten zu schaffen machen.

                    Dank und Gruß,

                    frankx

                    --
                    tryin to multitain  - Globus = Planet != Welt
                  2. Lieber sebastian,

                    versteh nicht ganz warum du aufbraustend wirst, freu mich aber sehr über deine hilfe.

                    naja, es ist halt sehr mühsam, den Leuten immer wieder die notwendigen Details aus der Nase ziehen zu müssen, bis man das ganze Bild hat, damit man endlich vernünftige Hilfen anbieten kann!

                    bis jetzt hab ich es so gelöst dass ich die textarea wo der artikel gepostet wird mit dem fckeditor überblende (http://www.fckeditor.net).

                    Siehst Du, das ist so ein absolut wichtiges Detail, das zu wissen sehr wichtig war! Ohne dieses Detail wäre es mir völlig unverständlich gewesen, wie Du vorgehen hättest wollen, ohne einen simplen Dateiupload mit anschließender (serverseitiger) Dateiauswertung zu verfahren. Dabei hätte dann ein PHP-Script das Word-Format analysieren müssen, um daraufhin dann ein HTMl-Dokument zu erzeugen, das zumindest teilweise die Formatierungen übernimmt, und die Bilddateien extrahiert und als externe Dateien verfügbar macht.

                    der kann nämlich mittels javascript word-files inklusive der formatierung (!) übernehmen wenn man sie mit strg-V oder über kontextmenü einfügt.

                    Das kann er nicht. Der Knackpunkt ist ein Feature, das die diversen Browser anbieten: einen WYSIWYG-Editiermodus. Der FCKeditor versucht nun, diesen Editiermodus browserübergreifend in der Bedienung zu vereinheitlichen. Dasselbe versucht der von mir stark bevorzugte TinyMCE.

                    lediglich die bilder fehlen dann noch. die muss man momentan einzeln hochladen und dann in die vom fckeditor überblendete textarea einfügen.

                    Es gab einmal im TinyMCE-Forum einen Thread, wo Leute auch dieses Problem hatten. Sie haben mittels eines Java-Applets die OLE-Objekte aus dem Word-Dokument (ja, so werden anscheinend die Bilder darin abgelegt, als OLE-Objekte) extrahiert und im Hintergrund hochlädt, während die Verknüpfungen im Word-Dokument entsprechend korrigiert werden. Nachzulesen ist das hier: (Thread)

                    Möge Dir dieser Forumsthread weitere Ideen liefern, um Deinem Problem Herr zu werden.

                    Liebe Grüße,

                    Felix Riesterer.

                    --
                    ie:% br:> fl:| va:) ls:[ fo:) rl:° n4:? de:> ss:| ch:? js:) mo:} zu:)
                    1. wow, danke für die präzise antwort !

                      schau mir grad den threat und den tiny-editor an, der scheint recht brauchbar zu sein :)

                      möglicherweise werd ich auch opendocumentphp verwenden, das zumindest das openoffice format handeln können soll.

                      ez components hat angeblich eine fertige word-import funktion. ez is mir aber sicher zu komplex um da im code rumzusuchen.

                      merci nochmal !