Jörg Reinholz: Was bedeutet maschinenlesbar

Beitrag lesen

Der Inhalt eines pdf ist für Menschen gemacht. In einer Auflistung einer Rechnung sind die einzelnen Positionen für dich gut erkennbar, aber ein Programm tut sich schwer darin eine Struktur zu finden.

Dem kann man begründet widersprechen. Es gibt genug Programme, die das PDF in Graphikformate oder Postskript umwandeln. Es gibt Programme, die können PDF seitenweise neu zusammensetzen und mehr. Hier mal eine liste von meinem Computer:

pdf180             pdf90              pdfchain           pdfetex            pdfinfo            pdfjam-slides6up   pdfopen            pdftex             pdftoppm           pdfunite
pdf270             pdfannotextractor  pdfclose           pdfflip            pdfjam             pdfjoin            pdfpun             pdftk              pdftops
pdf2dsc            pdfatfi            pdfcrop            pdffonts           pdfjam-pocketmod   pdflatex           pdfseparate        pdftocairo         pdftosrc
pdf2ps             pdfbook            pdfdetach          pdfimages          pdfjam-slides3up   pdfnup             pdfshuffler        pdftohtml          pdftotext

Einige davon sind lediglich Aliase bzw. Wrapper für andere mit vorbelegten Optionen bzw. ~Argumenten. An pdfinfo, besonders aber pdftohtml und pdftotext fällt sofort auf, dass diese tatsächlich Informationen aus einer PDF-Datei extrahieren (bzw. das versuchen. weil der vermeintliche Text sich als eingefügte Graphik entpuppen kann, die man wieder erst durch ein ocr-Programm "jagen" müsste).

Zudem gibt es PDFs mit enthaltenen Formularen. Und um diese dem Benutzer präsentieren zu können muss ein Programm ("Maschine") ebenso wie pdfinfo, pdftohtml oder pdftotext die dafür benötigten Informationen lesen können. Ich höre hier auf, denn das reicht für die Aussage "Eine PDF-Datei ist maschinenlesbar".

"Maschinenlesbar" ist nach meiner Auffassung ohnehin jede (nicht "kaputte") Datei.

Beispiel: Ich habe eine mit gzip gepackte Textdatei. Die Maschine kann diese lesen. Der Mensch bräuchte, (wenn er denn eine in lesbaren Zeichen verfügbare Repräsentation hätte oder sich die Bytes mit einem Hexeditor anieht) eine Menge Papier und Zeit um die Information herauszuholen. Diese Datei ist also nicht "menschenlesbar".

Ich nehme diese Datei und jage diese durch "gzip -d" oder zcat und erhalte eine menschenlesbare Textdatei. (falls die Ausgangsdatei menschenlesbar war.)

"Menschenlesbar" sind also Dateien worin ein Mensch ohne "besondere" Hilfsmittel, also mit nicht mehr als einem Textanzeigeprogramm, Informationen finden kann. Von der Sache her kann es auf einem Computer "nur maschinenlesbare" und "menschen- und maschinenlesbare" Dateien geben.

An dieser Stelle endet die Abgrenzung.

Jörg Reinholz