Der Inhalt eines pdf ist für Menschen gemacht. In einer Auflistung einer Rechnung sind die einzelnen Positionen für dich gut erkennbar, aber ein Programm tut sich schwer darin eine Struktur zu finden.
Dem kann man begründet widersprechen. Es gibt genug Programme, die das PDF in Graphikformate oder Postskript umwandeln. Es gibt Programme, die können PDF seitenweise neu zusammensetzen und mehr. Hier mal eine liste von meinem Computer:
pdf180 pdf90 pdfchain pdfetex pdfinfo pdfjam-slides6up pdfopen pdftex pdftoppm pdfunite
pdf270 pdfannotextractor pdfclose pdfflip pdfjam pdfjoin pdfpun pdftk pdftops
pdf2dsc pdfatfi pdfcrop pdffonts pdfjam-pocketmod pdflatex pdfseparate pdftocairo pdftosrc
pdf2ps pdfbook pdfdetach pdfimages pdfjam-slides3up pdfnup pdfshuffler pdftohtml pdftotext
Einige davon sind lediglich Aliase bzw. Wrapper für andere mit vorbelegten Optionen bzw. ~Argumenten. An pdfinfo, besonders aber pdftohtml und pdftotext fällt sofort auf, dass diese tatsächlich Informationen aus einer PDF-Datei extrahieren (bzw. das versuchen. weil der vermeintliche Text sich als eingefügte Graphik entpuppen kann, die man wieder erst durch ein ocr-Programm "jagen" müsste).
Zudem gibt es PDFs mit enthaltenen Formularen. Und um diese dem Benutzer präsentieren zu können muss ein Programm ("Maschine") ebenso wie pdfinfo, pdftohtml oder pdftotext die dafür benötigten Informationen lesen können. Ich höre hier auf, denn das reicht für die Aussage "Eine PDF-Datei ist maschinenlesbar".
"Maschinenlesbar" ist nach meiner Auffassung ohnehin jede (nicht "kaputte") Datei.
Beispiel: Ich habe eine mit gzip gepackte Textdatei. Die Maschine kann diese lesen. Der Mensch bräuchte, (wenn er denn eine in lesbaren Zeichen verfügbare Repräsentation hätte oder sich die Bytes mit einem Hexeditor anieht) eine Menge Papier und Zeit um die Information herauszuholen. Diese Datei ist also nicht "menschenlesbar".
Ich nehme diese Datei und jage diese durch "gzip -d" oder zcat und erhalte eine menschenlesbare Textdatei. (falls die Ausgangsdatei menschenlesbar war.)
"Menschenlesbar" sind also Dateien worin ein Mensch ohne "besondere" Hilfsmittel, also mit nicht mehr als einem Textanzeigeprogramm, Informationen finden kann. Von der Sache her kann es auf einem Computer "nur maschinenlesbare" und "menschen- und maschinenlesbare" Dateien geben.
An dieser Stelle endet die Abgrenzung.
Jörg Reinholz