wzr: PDF "entpacken" bzw. als HTML/Text konvertieren

Hi Leute,
ich will aktuell ein PDF mit PHP auswerten. Dazu bräuchte ich das ganze in Form von Text oder HTML. Die ganzen PHP-Klassen funktionieren allerdings nur mit "klarem" pdf-Code, also welchen, ohne Komprimierung. Die Frage ist jetzt, wie "entpacke" ich die pdf zu klaren Zeichen? Oder: Gibt es irgendwelche PHP-Klassen, die auch komprimierte pdf Dateien auswerten können?

  1. ich will aktuell ein PDF mit PHP auswerten.

    1.) Das klingt, als hättest Du Dir _sehr_ viel vorgenommen. PDF erzeugen ist einfacher.
    2.) Definiere "auswerten".

    Eine komplette Umwandlung versucht pdf2html.

    (Schlechtes) Beispiel bei Stackoverflow

    Von der erzeugten HTML-Datei ausgehend könnte man sich via xml-Bibliotheken einiges vorstellen.

    Jörg Reinholz

    1. Eine komplette Umwandlung versucht pdftohtml.

      oder:

      pdftotext

      Und für die Auswertung von Meta-informationen wäre da noch

      pdfinfo

      Jörg Reinholz

      1. Eine komplette Umwandlung versucht pdftohtml.

        oder:

        pdftotext

        Und für die Auswertung von Meta-informationen wäre da noch

        pdfinfo

        Jörg Reinholz

        Danke für die Links. Mit Auswerten meine ich, dass ich eine Tabelle in einer festen Form bekomme und ich mir bestimmte Ereignisse automatisiert auslesen lassen will (nicht immer gibt es Einträge, die gebraucht werden). Das ganze soll ne cronjob Sache weden. Wegen der festen Form wäre reiner Klartext auch genügend.

        1. Das ganze soll ne cronjob Sache weden. Wegen der festen Form wäre reiner Klartext auch genügend.

          Dann wäre in einem nächsten Schritt zu prüfen, ob PHP die Programmiersprache der Wahl ist. Es gibt weitere Kandidaten.

          Alles weitere ist eine Frage der feingliedrigen Definition des Problems und, ich nenns mal "Uniformität" der PDF-Dokumente. Besser wäre "Konformität" - dann müsste es aber die Möglichkeit geben, einschränkende Vorschriften hinsichtlich derer Erzeugung zu machen.

          Wenn das PDF durch Scansoftware erzeugt wurde, dann kann es sein, dass es vermeintlichen Text als Grafik enthält, was dann zum Scheitern führen dürfte.

          Jörg Reinholz

          1. Das wäre mir am liebsten, weil das ganze Projekt bereits in PHP läuft.

            Dann wäre in einem nächsten Schritt zu prüfen, ob PHP die Programmiersprache der Wahl ist. Es gibt weitere Kandidaten.

            Alles weitere ist eine Frage der feingliedrigen Definition des Problems und, ich nenns mal "Uniformität" der PDF-Dokumente. Besser wäre "Konformität" - dann müsste es aber die Möglichkeit geben, einschränkende Vorschriften hinsichtlich derer Erzeugung zu machen.

            Bei der Erzeugung kann ich leider nicht mitreden, die Daten werden von einem Dritten bereitgestellt.

            Wenn das PDF durch Scansoftware erzeugt wurde, dann kann es sein, dass es vermeintlichen Text als Grafik enthält, was dann zum Scheitern führen dürfte.

            Das ist nicht das Problem. Mit Online-Diensten kann man das PDF Problemlos in HTML oder Text umwandeln lassen.

            So wie es bis jetzt aussieht, werde ich wohl dafür eine API schreiben, die mir die Dateien an die Online-Dienste hochläd...

            1. So wie es bis jetzt aussieht, werde ich wohl dafür eine API schreiben, die mir die Dateien an die Online-Dienste hochläd...

              Ok. Da  brauchst du Dich dann auch ums Backup nicht zu kümmern -die NSA, die Briten oder die Chinesen machen das gern für Dich.

              Jörg Reinholz

              1. So wie es bis jetzt aussieht, werde ich wohl dafür eine API schreiben, die mir die Dateien an die Online-Dienste hochläd...

                Ok. Da  brauchst du Dich dann auch ums Backup nicht zu kümmern -die NSA, die Briten oder die Chinesen machen das gern für Dich.

                Jörg Reinholz

                Ja, dass das nicht so sicher ist, ist mir bewusst. Gibt es alternative Wege, die ich besser benutzen sollte? Weil die fertigen PHP-Klassen funktionieren ja leider nicht so richtig :/

                1. Ja, dass das nicht so sicher ist, ist mir bewusst. Gibt es alternative Wege, die ich besser benutzen sollte? Weil die fertigen PHP-Klassen funktionieren ja leider nicht so richtig :/

                  Die hatte ich Dir schon gezeigt.
                  PHP kann auch Systembefehle ausführen -> exec(), system(), Backtick-Operatoren helfen.

                  Dann die Rückgaben auswerten.

                  Jörg Reinholz

                  1. Ja, dass das nicht so sicher ist, ist mir bewusst. Gibt es alternative Wege, die ich besser benutzen sollte? Weil die fertigen PHP-Klassen funktionieren ja leider nicht so richtig :/

                    Die hatte ich Dir schon gezeigt.
                    PHP kann auch Systembefehle ausführen -> exec(), system(), Backtick-Operatoren helfen.

                    Dann die Rückgaben auswerten.

                    Jörg Reinholz

                    Ah, ok, danke, wusste nicht, dass es damit geht :)