Jörg Reinholz: PDF "entpacken" bzw. als HTML/Text konvertieren

Beitrag lesen

Das ganze soll ne cronjob Sache weden. Wegen der festen Form wäre reiner Klartext auch genügend.

Dann wäre in einem nächsten Schritt zu prüfen, ob PHP die Programmiersprache der Wahl ist. Es gibt weitere Kandidaten.

Alles weitere ist eine Frage der feingliedrigen Definition des Problems und, ich nenns mal "Uniformität" der PDF-Dokumente. Besser wäre "Konformität" - dann müsste es aber die Möglichkeit geben, einschränkende Vorschriften hinsichtlich derer Erzeugung zu machen.

Wenn das PDF durch Scansoftware erzeugt wurde, dann kann es sein, dass es vermeintlichen Text als Grafik enthält, was dann zum Scheitern führen dürfte.

Jörg Reinholz