Ich würde gerne Text aus Dokumenten wie PDF, MS Office/Open Office extrahieren.
[...]
Hat jemand Erfahrung damit und möchte die evtl mit mir teilen?
Für Excel kann ich Spreadsheet::ParseExcel bzw. Spreadsheet::WriteExcel empfehlen. Für PDF-Manipulationen gibt's die Distribution PDF::API2, die arbeitet plattformübergreifend. Den Wrapper PDF::API2::Simple findest Du unter http://theoryx5.uwinnipeg.ca/ppms/ (ich empfehle, diese URL der Repositoryliste hinzuzufügen). Für OpenOffice bietet sich die Distribution OpenOffice::OODoc an.
Zwei Hinweise zu CPAN:
Schau nach den Bewertungen und lies sie.
Sieh Dir die Ergebnisse der CPAN Testers an, dort kannst Du sehen, auf welchen Systemumgebungen die Modulinstallation gelaufen ist.
Siechfred
--
Hinter den Kulissen passiert viel mehr, als man denkt, aber meistens nicht das, was man denkt.
Hinter den Kulissen passiert viel mehr, als man denkt, aber meistens nicht das, was man denkt.