PDF-Datei mit PHP-Script nach Textinhalten durchsuchen von Stephan Huber, 29.09.2002 14:36

PDF-Datei mit PHP-Script nach Textinhalten durchsuchen

Stephan Huber 29.09.2002 14:36

Hallo Christian,

Hat sowas schon mal jemand gemacht???

Ja, vorgestern :-)

Kennt jemand die Dokumentstruktur oder ist das ganze so kompliziert das es überhaupt nicht möglich ist?

Wenn Du die PDFs selber parsen willst, dann vergiß es, das ist zu kompliziert. Alle Suchmaschinenskripte, die ich kenne, die pdfs durchsuchen, greifen auf einen externen Parser zurück, unter Unix meisten xpdf http://www.foolabs.com/xpdf/ (nicht durch die Beschreibung verwirren lassen, eigentlich dient xpdf zum Anzeigen von PDFs unter X-Windows, aber wenn man es installiert, bekommt man auch das Konvertierungsskript pdftotext).
Ich habe es mit mnogosearch gemacht, ging erstaunlich unkompliziert, Du brauchst natürlich die Rechte, um auf Deinem Server Programme zu kompilieren & installieren. Du kannst dann entweder mnogosearch über eine PHP-Extension ansprechen, oder einfach die Ausgabe des search-cgis per include oder fopen in Dein PHP-Skript einbinden.
Unter Windows geht es wohl ähnlich, indem man irgendeinen Teil der Acrobat-Software als Konverter nimmt, glaube ich.

Viele Grüße
Stephan

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Stephan Huber: PDF-Datei mit PHP-Script nach Textinhalten durchsuchen

Beitrag lesen

PDF-Datei mit PHP-Script nach Textinhalten durchsuchen

PDF-Datei mit PHP-Script nach Textinhalten durchsuchen