Mitleser: Was bedeutet maschinenlesbar

Beitrag lesen

Der Inhalt eines pdf ist für Menschen gemacht. In einer Auflistung einer Rechnung sind die einzelnen Positionen für dich gut erkennbar, aber ein Programm tut sich schwer darin eine Struktur zu finden.

Dem kann man begründet widersprechen.

Bei 99% der aktuell im Umlauf befindlichen PDF glaube ich das nicht. Falls Du auf PDF/A-Strategien hinaus wolltest, sieht die Welt vielleicht anders aus. Aber davon hast Du nichts erwähnt.

Es gibt genug Programme, die das PDF in Graphikformate oder Postskript umwandeln. Es gibt Programme, die können PDF seitenweise neu zusammensetzen und mehr. Hier mal eine liste von meinem Computer:

pdftodies [...] pdftojenes [...]
Einige davon sind lediglich Aliase bzw. Wrapper für andere mit vorbelegten Optionen bzw. ~Argumenten. An pdfinfo, besonders aber pdftohtml und pdftotext fällt sofort auf, dass diese tatsächlich Informationen aus einer PDF-Datei extrahieren (bzw. das versuchen. weil der vermeintliche Text sich als eingefügte Graphik entpuppen kann, die man wieder erst durch ein ocr-Programm "jagen" müsste).

Das stimmt schon, ich sehe dennoch keinen Widerspruch zu Encoders Aussage. Klar kann man Inhalte aus PDFs extrahieren, es ist und bleibt aber eine Krücke. Um bei seinem Beispiel "Rechnung" zu bleiben: Wenn Du bei einem PDF hieraus tatsächlich die qualifizierten Informationen extrahieren willst, müsstest Du via pdftotext/pdftohtml zunächst einmal Salat extrahieren (oder ein professionelles Tool zur Datenextraktion verwenden / eigenen Parser schreiben) und ein Script basteln, welches mit irgendeiner Heuristik die eigentlichen Daten extrahiert. Sobald der Chefdesigner der Rechnungsabteilung (LOL) nun aber auf die Idee kommt, die Rechnung noch viel hübscher zu machen, versagt die mühevoll gestrickte komplett und Du musst von vorne anfangen. Solange "Chefdesigner" aber nicht allzu großen Mist gebaut hat, wird ein Mensch die Rechnung immer noch lesen können. Genau das hat Encoder knapp aber eindeutig formuliert.

Zudem gibt es PDFs mit enthaltenen Formularen. Und um diese dem Benutzer präsentieren zu können muss ein Programm ("Maschine") ebenso wie pdfinfo, pdftohtml oder pdftotext die dafür benötigten Informationen lesen können.

Auch das stimmt an sich, widerlegt aber ebenfalls nicht Encoders Aussage.

Ich höre hier auf, denn das reicht für die Aussage "Eine PDF-Datei ist maschinenlesbar".

Auf rein technischer Ebene vielleicht, auf semantischer nicht. Zumindest nicht ohne zusätzliche Ansätze wie PDF/A.

[...]

Den Rest lasse ich so stehen, ist mir zu theoretisch :-)