Der Martin: Können Daten aus einem PDF-Dokument maschinell gelesen werden?

Beitrag lesen

Moin,

Google liest PDF aus und verwertet die Informationen für den Suchindex, die Bildersuche, etc.

ja, das ist selbstverständlich möglich, ein handelsüblicher PDF-Viewer tut ja auch nichts anderes. Aber der Aufwand ist relativ hoch, das macht man nicht mal eben mit 10 Zeilen PHP oder so.

Google "erkennt" ja auch Bilder, d.h. analysiert den Bildinhalt als solchen und erzeugt dann eine Beschreibung wie etwa "Zwei Menschen stehen vor einem Haus".

Unsere kleine Vereinszeitung stand jahrelang auch immer als PDF im Internet und wurde bei Google repräsentativ gelistet auf passende Suchbegriffe. Das werden die kaum manuell gemacht haben.

Nein. Und solange das PDF wirklich direkt aus Text erzeugt wird, ist das IMO immer möglich. Nur bei eingescannten Dokumenten steht man etwas im Regen; da braucht's noch OCR, um wieder etwas damit anfangen zu können.

Aber auch das ist heute nichts ungewöhnliches mehr. Nimm als Beispiel Microsoft OneNote: Da kannst du Grafiken einfügen, und OneNote macht einen OCR-Durchlauf, bevor du es überhaupt merkst, so dass das Bild mit Suchworten gefunden werden kann, die im Bild vorkommen. Oder Microsoft Exchange: Wenn ich am Arbeitsplatz mal einen Anruf verpasst habe, bekomme ich eine e-Mail mit einem mp3-Anhang und kann mir anhören, was der Anrufer auf die Mailbox gesprochen hat - im Text der Mailnachricht bekomme ich aber auch gleich ein Transscript des Anrufs!

PDF ist ein Containerformat. Dieses enthält also weitere Formate.

Ist das so? Bitte mehr Details dazu.

Es gibt auch PDF2HTML und PDF2WORD usw. als nützliche Programme.

Ja. Deren Erfolg steht und fällt aber mit der "gutmütigen" Erzeugung des PDF-Dokuments.

Live long and pros healthy,
 Martin

--
Home is where my beer is.
0 98

ausfüllbare PDF-Datei im Browser nicht ausfüllbar

Linuchs
  • sonstiges
  1. 0
    Der Martin
    • formulare
    • pdf
    1. 0
      Linuchs
      1. 2
        Der Martin
        1. -1
          Linuchs
        2. 2
          seth
  2. 2
    Felix Riesterer
    1. 0
      Der Martin
    2. 1
      JürgenB
    3. 1
      Auge
      • html
      • sonstiges
      • usability
      1. 0
        Matthias Apsel
        1. 0
          Auge
          1. 0
            Matthias Apsel
    4. 0
      encoder
      1. 1
        Auge
        1. 0
          Felix Riesterer
        2. 0
          encoder
      2. 0
        Matthias Apsel
        1. 0
          encoder
          1. 0
            Der Martin
            • formulare
            • sonstiges
            1. 0
              Matthias Apsel
              1. 0
                Der Martin
                1. 0
                  Camping_RIDER
                2. 0
                  Julius
                  • formulare
                  • pdf
                  • sonstiges
                  1. 0
                    Camping_RIDER
                  2. 0
                    Matthias Apsel
                    1. 0
                      Julius
            2. 0
              Camping_RIDER
              1. 0
                Der Martin
                1. 0
                  Camping_RIDER
    5. 0
      Camping_RIDER
      1. 0
        Felix Riesterer
        1. 0
          Camping_RIDER
          1. 0
            Der Martin
            1. 0
              Camping_RIDER
          2. 0
            Felix Riesterer
            1. 0
              Felix Riesterer
              1. 1
                Camping_RIDER
            2. 0
              Camping_RIDER
    6. 0
      klawischnigg
  3. 0
    Raketenpsychopharmakologe
  4. 0
    Raketenbildschirmbetrachter
  5. 1
    Camping_RIDER
    1. 0
      Tabellenkalk
      1. 0
        Camping_RIDER
  6. 0

    Können Daten aus einem PDF-Dokument maschinell gelesen werden?

    Linuchs
    • pdf
    • php
    1. 0
      Matthias Apsel
      • sonstiges
      1. 0
        Autor
        • datenmodell
        • pdf
        • software
        1. 0
          Matthias Apsel
          1. 0
            Autor
            1. 0
              Matthias Apsel
              1. 0
                Autor
                1. 3
                  Camping_RIDER
                  1. 0
                    Autor
                2. 0
                  Matthias Apsel
        2. 0
          Der Martin
    2. 0
      Rolf B
      1. 0
        Julius
        1. 0
          Linuchs
          1. 0
            Matthias Apsel
            • zu diesem forum
          2. 0
            Julius
            1. 0
              Linuchs
              1. 0
                Julius
                1. 1
                  Matthias Apsel
                  1. 0
                    Linuchs
                    • menschelei
                    1. 0
                      Der Martin
                  2. 0
                    Julius
    3. 0
      Autor
      • pdf
      • php
      • software
      1. 0
        Raktendatenextraktor
        1. 0
          Raketendatenextraktor
          1. 0
            Raketendatenextraktor
            1. 3
              Camping_RIDER
              1. 0
                Raketendatenextraktor
                1. 0
                  Matthias Apsel
                  1. 0
                    Raketendatenextraktor
                    1. 0
                      Camping_RIDER
                      1. 0
                        Raketenwilli
                        • sonstiges
                        1. 0
                          Camping_RIDER
                          1. 0
                            Julius
                            1. 0
                              Der Martin
                              • pdf
                              • sonstiges
                          2. 0

                            Frühkybernetische Erfahrung ...

                            Raketenhistoriker
                            1. 0
                              Der Martin
              2. -1
                Raketendatenextraktor
                • humor
                • meinung
                1. 0
                  Der Martin
                  • meinung
                  1. -1
                    Raketendatenextraktor
                2. 3
                  Camping_RIDER
                  1. 2

                    Frickeln

                    Der Martin
                    • meinung
                    • sprache
                    1. 0
                      Matthias Apsel
                    2. 0
                      klawischnigg
                      1. 0
                        Der Martin
                  2. 0
                    Raketendatenextraktor
    4. 1
      encoder
  7. 0

    TCPDF: Seitenrand muss weg!

    Linuchs
    • php
    • sonstiges
    1. 0
      Matthias Apsel
      1. 0
        Linuchs
        1. 0
          Matthias Apsel
          1. 0
            Linuchs
    2. 0

      TCPDF: Seitenrand - Problem gelöst

      Linuchs