Siechfred: Win32 Module um Text zu extrahieren aus Dokumenten

Beitrag lesen

Ich würde gerne Text aus Dokumenten wie PDF, MS Office/Open Office extrahieren.
[...]
Hat jemand Erfahrung damit und möchte die evtl mit mir teilen?

Für Excel kann ich Spreadsheet::ParseExcel bzw. Spreadsheet::WriteExcel empfehlen. Für PDF-Manipulationen gibt's die Distribution PDF::API2, die arbeitet plattformübergreifend. Den Wrapper PDF::API2::Simple findest Du unter http://theoryx5.uwinnipeg.ca/ppms/ (ich empfehle, diese URL der Repositoryliste hinzuzufügen). Für OpenOffice bietet sich die Distribution OpenOffice::OODoc an.

Zwei Hinweise zu CPAN:
Schau nach den Bewertungen und lies sie.
Sieh Dir die Ergebnisse der CPAN Testers an, dort kannst Du sehen, auf welchen Systemumgebungen die Modulinstallation gelaufen ist.

Siechfred

--
Hinter den Kulissen passiert viel mehr, als man denkt, aber meistens nicht das, was man denkt.