Hallo Christian,
Hat sowas schon mal jemand gemacht???
Ja, vorgestern :-)
Kennt jemand die Dokumentstruktur oder ist das ganze so kompliziert das es überhaupt nicht möglich ist?
Wenn Du die PDFs selber parsen willst, dann vergiß es, das ist zu kompliziert. Alle Suchmaschinenskripte, die ich kenne, die pdfs durchsuchen, greifen auf einen externen Parser zurück, unter Unix meisten xpdf http://www.foolabs.com/xpdf/ (nicht durch die Beschreibung verwirren lassen, eigentlich dient xpdf zum Anzeigen von PDFs unter X-Windows, aber wenn man es installiert, bekommt man auch das Konvertierungsskript pdftotext).
Ich habe es mit mnogosearch gemacht, ging erstaunlich unkompliziert, Du brauchst natürlich die Rechte, um auf Deinem Server Programme zu kompilieren & installieren. Du kannst dann entweder mnogosearch über eine PHP-Extension ansprechen, oder einfach die Ausgabe des search-cgis per include oder fopen in Dein PHP-Skript einbinden.
Unter Windows geht es wohl ähnlich, indem man irgendeinen Teil der Acrobat-Software als Konverter nimmt, glaube ich.
Viele Grüße
Stephan