Jörg Reinholz: Was bedeutet maschinenlesbar

Beitrag lesen

Wenn Du es jetzt auf die reine Begrifflichkeit Maschinenlesbarkeit reduzieren möchtest, OK. Es passt nur nicht zu Deinem Widerspruch zu Encoders korrekter Aussage, dass ein Programm sich schwer tun wird, einzelne Rechnungspositionen aus einem PDF zu extrahieren.

Diese Aussage habe ich gar nicht bezweifelt - Ich muss da wohl was klarstellen:

Die von mir zitierte Gesamtaussage lautete:

(1) "Der Inhalt eines pdf ist für Menschen gemacht."
(2) "In einer Auflistung einer Rechnung sind die einzelnen Positionen für dich gut erkennbar,"
(3) "aber ein Programm tut sich schwer darin eine Struktur zu finden."

Ich zweifle hinsichtlich:

(1)
Menschen brauchen ein Programm. welches die Inhalte eines PDF anzeigt. Menschenlesbare Dateien kann man mit einem Textreader öffnen und den Inhalt mehr (z.B. ini-Datei, CSV) oder weniger einfach (z.B. XML, HTML) lesen. PDF ist also nur "maschinenlesbar".

(3)
Auch die Inhalte einer PDF-Datei sind (sonst könnten die von mir genannten Programme nicht funktionieren) durchaus strukturiert. Man muss sich nur fragen, wie man denn den Begriff "Struktur" definieren will. Allgemein ist eine Struktur jede (in der IT: umkehrbare) Art der Zusammenfügung. Ob eine Struktur in einem bestimmten Zusammenhang sinnvoll ist, ist (in der IT) immer eine Frage des Zwecks.

Zur originalen Frage von Jan

Ich bin auf der Suche nach einer leicht verständlichen Beschreibung für nicht IT-Profis, um den Unterschied zu verdeutlichen, das XML-Dokumente maschinenlesbare Daten enthalten und sich von einfachen Text oder PDF Dokumenten unterscheiden.

Ich würde es so sagen:

Aus einer, im Sinne einer definierten und bekannten Document-Type-Definition (DTD, "Formatanweisung") wohlgeformten (formal fehlerfreien) XML-Datei kann man unter Verwendung vorhandener, universeller und fehlerfreier Bibliotheken ("einbindbare Programmteile ohne bekannte Fehler") einfach vorbestimmte Informationen extrahieren ("ermitteln und darstellen") lassen.

Das wäre aber eine sehr spezielle Auslegung des Begriffs "maschinenlesbar".

Jörg Reinholz