Raketenwilli: Können Daten aus einem PDF-Dokument maschinell gelesen werden?

Beitrag lesen

Mark Aurel (übersetzt):

„Von jedem Gegenstande, der sich Deinem Nachdenken darbietet, suche Dir stets einen klaren und bestimmten Begriff zu machen, so dass Du weißt, was er er an sich und was er nach allen seinen Beziehungen ist. Damit Du ihn selbst sowohl wie seine einzelnen Momente nennen und bezeichnen kannst.“

Die Franzosen machen das kürzer:

„Qu'est-ce que c'est ça?“

Goethes goldenes Wort:

„des Pudels Kern“.

Rider:

Vom akademischen Standpunkt her fand ich es auch interessant, dass die Eingaben genau so ausgelesen werden können und nicht in irgendeiner Form kodiert vorkommen.

Das die Daten nach dem Ausfüllen und Speichern im Dokument drin sein müssen - und zwar in einer dokumentierten und auslesbaren Form - hatte ich vorausgesetzt. Sonst könnte man das PDF nicht ausfüllen, speichern und sich dann ausgefüllt anzeigen lassen. Das geht ja sogar auch dann, wenn das Original verschlüsselt ist.

Ich hatte allerdings ganz "akademisch" gehofft, dass Adobe hierfür einen (leicht isolierbaren) Container vorsieht, der dann XML, JSON oder in einer anderen, verbreiteten Form serialisierte Daten beinhaltet. Ich bin nach dem "reingeneering" ziemlich enttäuscht von dem was Adobe da spezifiert hat und vermute mal, dass Adobe das aus pekunärem Interesse so gemacht hat. Aber nachdem ich den Quelltext analysiert habe steht für mich fest:

  • Ich kann, zumindest mit einem speziellen Skript pro speziellem Formular die Daten per Batch (also ohne unmittelbaren Eingriff eines Operators) auslesen und technisch fehlerhafte oder nicht ausgefüllte Dokumente erkennen und darauf reagieren.
  • Den Weg, wie ich das genau tun würde, habe ich nun im Kopf.
  • Meine Neugier ist an der Stelle befriedigt (der Rest ist „einfaches Handwerk“) und ich weiß, dass ich Geld dafür nehmen könnte. Das „Reingeneering“ aka „Frickeln“ hat sich an der Stelle für mich gelohnt.
0 98

ausfüllbare PDF-Datei im Browser nicht ausfüllbar

Linuchs
  • sonstiges
  1. 0
    Der Martin
    • formulare
    • pdf
    1. 0
      Linuchs
      1. 2
        Der Martin
        1. -1
          Linuchs
        2. 2
          seth
  2. 2
    Felix Riesterer
    1. 0
      Der Martin
    2. 1
      JürgenB
    3. 1
      Auge
      • html
      • sonstiges
      • usability
      1. 0
        Matthias Apsel
        1. 0
          Auge
          1. 0
            Matthias Apsel
    4. 0
      encoder
      1. 1
        Auge
        1. 0
          Felix Riesterer
        2. 0
          encoder
      2. 0
        Matthias Apsel
        1. 0
          encoder
          1. 0
            Der Martin
            • formulare
            • sonstiges
            1. 0
              Matthias Apsel
              1. 0
                Der Martin
                1. 0
                  Camping_RIDER
                2. 0
                  Julius
                  • formulare
                  • pdf
                  • sonstiges
                  1. 0
                    Camping_RIDER
                  2. 0
                    Matthias Apsel
                    1. 0
                      Julius
            2. 0
              Camping_RIDER
              1. 0
                Der Martin
                1. 0
                  Camping_RIDER
    5. 0
      Camping_RIDER
      1. 0
        Felix Riesterer
        1. 0
          Camping_RIDER
          1. 0
            Der Martin
            1. 0
              Camping_RIDER
          2. 0
            Felix Riesterer
            1. 0
              Felix Riesterer
              1. 1
                Camping_RIDER
            2. 0
              Camping_RIDER
    6. 0
      klawischnigg
  3. 0
    Raketenpsychopharmakologe
  4. 0
    Raketenbildschirmbetrachter
  5. 1
    Camping_RIDER
    1. 0
      Tabellenkalk
      1. 0
        Camping_RIDER
  6. 0

    Können Daten aus einem PDF-Dokument maschinell gelesen werden?

    Linuchs
    • pdf
    • php
    1. 0
      Matthias Apsel
      • sonstiges
      1. 0
        Autor
        • datenmodell
        • pdf
        • software
        1. 0
          Matthias Apsel
          1. 0
            Autor
            1. 0
              Matthias Apsel
              1. 0
                Autor
                1. 3
                  Camping_RIDER
                  1. 0
                    Autor
                2. 0
                  Matthias Apsel
        2. 0
          Der Martin
    2. 0
      Rolf B
      1. 0
        Julius
        1. 0
          Linuchs
          1. 0
            Matthias Apsel
            • zu diesem forum
          2. 0
            Julius
            1. 0
              Linuchs
              1. 0
                Julius
                1. 1
                  Matthias Apsel
                  1. 0
                    Linuchs
                    • menschelei
                    1. 0
                      Der Martin
                  2. 0
                    Julius
    3. 0
      Autor
      • pdf
      • php
      • software
      1. 0
        Raktendatenextraktor
        1. 0
          Raketendatenextraktor
          1. 0
            Raketendatenextraktor
            1. 3
              Camping_RIDER
              1. 0
                Raketendatenextraktor
                1. 0
                  Matthias Apsel
                  1. 0
                    Raketendatenextraktor
                    1. 0
                      Camping_RIDER
                      1. 0
                        Raketenwilli
                        • sonstiges
                        1. 0
                          Camping_RIDER
                          1. 0
                            Julius
                            1. 0
                              Der Martin
                              • pdf
                              • sonstiges
                          2. 0

                            Frühkybernetische Erfahrung ...

                            Raketenhistoriker
                            1. 0
                              Der Martin
              2. -1
                Raketendatenextraktor
                • humor
                • meinung
                1. 0
                  Der Martin
                  • meinung
                  1. -1
                    Raketendatenextraktor
                2. 3
                  Camping_RIDER
                  1. 2

                    Frickeln

                    Der Martin
                    • meinung
                    • sprache
                    1. 0
                      Matthias Apsel
                    2. 0
                      klawischnigg
                      1. 0
                        Der Martin
                  2. 0
                    Raketendatenextraktor
    4. 1
      encoder
  7. 0

    TCPDF: Seitenrand muss weg!

    Linuchs
    • php
    • sonstiges
    1. 0
      Matthias Apsel
      1. 0
        Linuchs
        1. 0
          Matthias Apsel
          1. 0
            Linuchs
    2. 0

      TCPDF: Seitenrand - Problem gelöst

      Linuchs