suchen in PDF
Martina Stagel
- php
Hallo,
gibt es eine Möglichkeit mittels PHP Dokumente im Format PDF nach Strings zu durchsuchen? Wenn ja, wie?
Vielen Dank
Martina
Moin Moin !
Hast Du schon php.net und Google befragt?
Mein Weg wäre, die PDF-Datei(en) erstmal durch pdf2ps und dann durch ps2ascii zu jagen, beides Tools aus Ghostscript. Dann hast Du "plain text", den Du mit beliebigen Tools durchsuchen kannst.
Je nach Maschine willst Du pdf2ps und ps2ascii nicht für jede Suche erneut anwerfen, sondern zu jeder PDF-Datei einen ASCII-Auszug "daneben legen" und bei Änderungen an der PDF-Datei für eine Aktualisierung des ASCII-Auszugs sorgen.
Bei gescannten PDFs (z.B. einfach ein FAX in eine PDF-Datei gedrückt, anscheinend in Asien bei Technik-Firmen üblich) hast Du natürlich ohne OCR verloren, wie jedes andere Tool auch.
Alexander
Mein Weg wäre, die PDF-Datei(en) erstmal durch pdf2ps und dann durch ps2ascii zu jagen, beides Tools aus Ghostscript. Dann hast Du "plain text", den Du mit beliebigen Tools durchsuchen kannst.
Danke! So werd ich das machen. Woher bekommt man die Ghostscrips LIB?
Läuft die als MOD?
Vielen Grüße
Martina
Moin Moin !
Mein Weg wäre, die PDF-Datei(en) erstmal durch pdf2ps und dann durch ps2ascii zu jagen, beides Tools aus Ghostscript. Dann hast Du "plain text", den Du mit beliebigen Tools durchsuchen kannst.
Danke! So werd ich das machen. Woher bekommt man die Ghostscrips LIB?
Hab ich was von Lib gesagt?
Läuft die als MOD?
Nein, als externes Programm.
http://www.google.de/search?q=rate+mal+was+du+hier+eingeben+mu�t+um+ghostscript+zu+finden
Alexander