Moin Moin !
Hast Du schon php.net und Google befragt?
Mein Weg wäre, die PDF-Datei(en) erstmal durch pdf2ps und dann durch ps2ascii zu jagen, beides Tools aus Ghostscript. Dann hast Du "plain text", den Du mit beliebigen Tools durchsuchen kannst.
Je nach Maschine willst Du pdf2ps und ps2ascii nicht für jede Suche erneut anwerfen, sondern zu jeder PDF-Datei einen ASCII-Auszug "daneben legen" und bei Änderungen an der PDF-Datei für eine Aktualisierung des ASCII-Auszugs sorgen.
Bei gescannten PDFs (z.B. einfach ein FAX in eine PDF-Datei gedrückt, anscheinend in Asien bei Technik-Firmen üblich) hast Du natürlich ohne OCR verloren, wie jedes andere Tool auch.
Alexander
--
Nein, ich beantworte keine Fragen per eMail. Dafür ist das Forum da.
Today I will gladly share my knowledge and experience, for there are no sweeter words than "I told you so!"
Nein, ich beantworte keine Fragen per eMail. Dafür ist das Forum da.
Today I will gladly share my knowledge and experience, for there are no sweeter words than "I told you so!"