PDF "entpacken" bzw. als HTML/Text konvertieren
wzr
- php
0 Jörg Reinholz0 Jörg Reinholz0 wzr0 Jörg Reinholz- programmiertechnik
0 wzr0 Jörg Reinholz0 wzr0 Jörg Reinholz0 wzr
Hi Leute,
ich will aktuell ein PDF mit PHP auswerten. Dazu bräuchte ich das ganze in Form von Text oder HTML. Die ganzen PHP-Klassen funktionieren allerdings nur mit "klarem" pdf-Code, also welchen, ohne Komprimierung. Die Frage ist jetzt, wie "entpacke" ich die pdf zu klaren Zeichen? Oder: Gibt es irgendwelche PHP-Klassen, die auch komprimierte pdf Dateien auswerten können?
ich will aktuell ein PDF mit PHP auswerten.
1.) Das klingt, als hättest Du Dir _sehr_ viel vorgenommen. PDF erzeugen ist einfacher.
2.) Definiere "auswerten".
Eine komplette Umwandlung versucht pdf2html.
(Schlechtes) Beispiel bei Stackoverflow
Von der erzeugten HTML-Datei ausgehend könnte man sich via xml-Bibliotheken einiges vorstellen.
Jörg Reinholz
Eine komplette Umwandlung versucht pdftohtml.
oder:
Und für die Auswertung von Meta-informationen wäre da noch
Jörg Reinholz
Eine komplette Umwandlung versucht pdftohtml.
oder:
Und für die Auswertung von Meta-informationen wäre da noch
Jörg Reinholz
Danke für die Links. Mit Auswerten meine ich, dass ich eine Tabelle in einer festen Form bekomme und ich mir bestimmte Ereignisse automatisiert auslesen lassen will (nicht immer gibt es Einträge, die gebraucht werden). Das ganze soll ne cronjob Sache weden. Wegen der festen Form wäre reiner Klartext auch genügend.
Das ganze soll ne cronjob Sache weden. Wegen der festen Form wäre reiner Klartext auch genügend.
Dann wäre in einem nächsten Schritt zu prüfen, ob PHP die Programmiersprache der Wahl ist. Es gibt weitere Kandidaten.
Alles weitere ist eine Frage der feingliedrigen Definition des Problems und, ich nenns mal "Uniformität" der PDF-Dokumente. Besser wäre "Konformität" - dann müsste es aber die Möglichkeit geben, einschränkende Vorschriften hinsichtlich derer Erzeugung zu machen.
Wenn das PDF durch Scansoftware erzeugt wurde, dann kann es sein, dass es vermeintlichen Text als Grafik enthält, was dann zum Scheitern führen dürfte.
Das wäre mir am liebsten, weil das ganze Projekt bereits in PHP läuft.
Dann wäre in einem nächsten Schritt zu prüfen, ob PHP die Programmiersprache der Wahl ist. Es gibt weitere Kandidaten.
Alles weitere ist eine Frage der feingliedrigen Definition des Problems und, ich nenns mal "Uniformität" der PDF-Dokumente. Besser wäre "Konformität" - dann müsste es aber die Möglichkeit geben, einschränkende Vorschriften hinsichtlich derer Erzeugung zu machen.
Bei der Erzeugung kann ich leider nicht mitreden, die Daten werden von einem Dritten bereitgestellt.
Wenn das PDF durch Scansoftware erzeugt wurde, dann kann es sein, dass es vermeintlichen Text als Grafik enthält, was dann zum Scheitern führen dürfte.
Das ist nicht das Problem. Mit Online-Diensten kann man das PDF Problemlos in HTML oder Text umwandeln lassen.
So wie es bis jetzt aussieht, werde ich wohl dafür eine API schreiben, die mir die Dateien an die Online-Dienste hochläd...
So wie es bis jetzt aussieht, werde ich wohl dafür eine API schreiben, die mir die Dateien an die Online-Dienste hochläd...
Ok. Da brauchst du Dich dann auch ums Backup nicht zu kümmern -die NSA, die Briten oder die Chinesen machen das gern für Dich.
Jörg Reinholz
So wie es bis jetzt aussieht, werde ich wohl dafür eine API schreiben, die mir die Dateien an die Online-Dienste hochläd...
Ok. Da brauchst du Dich dann auch ums Backup nicht zu kümmern -die NSA, die Briten oder die Chinesen machen das gern für Dich.
Jörg Reinholz
Ja, dass das nicht so sicher ist, ist mir bewusst. Gibt es alternative Wege, die ich besser benutzen sollte? Weil die fertigen PHP-Klassen funktionieren ja leider nicht so richtig :/
Ja, dass das nicht so sicher ist, ist mir bewusst. Gibt es alternative Wege, die ich besser benutzen sollte? Weil die fertigen PHP-Klassen funktionieren ja leider nicht so richtig :/
Die hatte ich Dir schon gezeigt.
PHP kann auch Systembefehle ausführen -> exec(), system(), Backtick-Operatoren helfen.
Dann die Rückgaben auswerten.
Ja, dass das nicht so sicher ist, ist mir bewusst. Gibt es alternative Wege, die ich besser benutzen sollte? Weil die fertigen PHP-Klassen funktionieren ja leider nicht so richtig :/
Die hatte ich Dir schon gezeigt.
PHP kann auch Systembefehle ausführen -> exec(), system(), Backtick-Operatoren helfen.Dann die Rückgaben auswerten.
Ah, ok, danke, wusste nicht, dass es damit geht :)