Christian Seiler: PDF / DOC mit PHP auslesen?

Beitrag lesen

Hallo cheops,

ich soll mit php an die inhalte von pdf/doc-dateien rankommen, um deren inhalt auszulesen (indizierung des inhalts).

Dokumentation zum PDF-Format ist unter http://partners.adobe.com/asn/developer/acrosdk/docs/pdfspec.pdf zu haben; bei DOC gibt es mehrere Versuche, das zu dokumentieren, hier zu finden: http://www.wotsit.org/search.asp?s=text Allerdings wirst Du mit PDF warscheinlich viel höhere Chancen haben, dass a) jemand bereits etwas dafür in PHP geschrieben hat oder b) falls dies nicht der Fall ist, Du wenigstens mit der Dokumentation zurecht kommst. (Denn Microsoft hat das MS-Word-Format nicht veröffentlicht, alle Dokumentationen, die es gibt, sind praktisch durch Ausprobieren entstanden)

Viele Grüße,
Christian