Jörg Reinholz: Was bedeutet maschinenlesbar

Beitrag lesen

Das stimmt schon, ich sehe dennoch keinen Widerspruch zu Encoders Aussage. Klar kann man Inhalte aus PDFs extrahieren, es ist und bleibt aber eine Krücke.

Das ist doch alles eine Frage der Definition. "Maschinenlesbar" besagt doch schon als begriff, dass die Maschine nur irgendwas lesen können muss.

Nehmen wir pdftk: Da sind die "relevanten Informationen" z.B. die Seiten und deren Ausrichtung. Die -> jeweilige ganze Seite <- ist die Information.

Nehmen wir pdfinfo: Da sind die "relevanten Informationen" Title, Creator, Producer, CreationDate, ModDate, Tagged, Form, Pages, Encrypted, Page size, Page rot, Optimized, PDF-Version.

Da pdftk die Informationen erhält (und verarbeiten kann) und auch pdfinfo die Informationen anzeigen kann steht fest: PDF ist im Sinne der schon im Begriff umrissenen Definition "Ein Programm kann die Datei öffnen und Informationen extrahieren" maschinenlesbar.

pdftotext und pdftohtml gehen sogar noch weiter und liefern eine menschenlesbare Präsentation (text bzw. html) der im PDF enthaltenen Daten. Was willst man denn noch verlangen um anzuerkennen, dass PDF "maschinenlesbar" ist?

Zu verlangen, dass _beliebig_bestimmte_Informationen_ extrahiert werden können geht beim Begriff "maschinenlesbar" deutlich zu weit.

Jörg Reinholz