Ferdi: Suchen in PDF-Dateien

Hi,
bisher verwende ich den textcrawler, um Textteile in allen Dokumenten eines Verzeichnisses zu suchen.
Leider ignoriert dieser PDF-Dateien.
Gibt es ein Programm, das auch PDF-Dateien durchsucht?
Schönen Gruß
Ferdi

  1. Gibt es ein Programm, das auch PDF-Dateien durchsucht?

    https://mupdf.com/docs/manual-mutool-draw.html

    1. Hi,
      es geht ja mit Adobe- oder Foxit-Reader!

      1. Vorsicht. Manche PDFs enthalten den Text als Grafik. Dann findest Du - womit auch immer - gar nichts… es sei denn Du extrahierst die Grafik und schickst diese an ein OCR-Programm. Dann brauchst Du dafür Zeit und, naja, auch ein Quentschen Glück.

        1. Hallo,

          Vorsicht. Manche PDFs enthalten den Text als Grafik.

          ja, sowas gibt's. Oder sie enhalten den Text zwar als Text, aber bei der Erzeugung wurde jedes Wort (noch extremer: jedes Zeichen) als einzelne Box positioniert. Sowas ist dann auch praktisch nicht durchsuchbar.

          Dann findest Du - womit auch immer - gar nichts… es sei denn Du extrahierst die Grafik und schickst diese an ein OCR-Programm. Dann brauchst Du dafür Zeit und, naja, auch ein Quentschen Glück.

          Ein Programm, das in dieser Disziplin überraschend gut ist, ist Microsoft OneNote.

          Einen schönen Tag noch
           Martin

          --
          Ich fürchte, ich brauche ein neues Portemonnaie. Das alte ist leer.
          1. Ein Programm, das in dieser Disziplin überraschend gut ist, ist Microsoft OneNote.

            Wenn man schon vom Teufel spricht: Genau das habe ich erst gestern auf einem älteren Smartphone installiert und getestet. Das „überraschend gut“ ist, bezüglich OCR, auch mein Eindruck (Ich habe meine Stromrechnung fotografiert, den Text erkennen lassen und sodann an mich geschickt). Was fehlt wäre eine manuelle Einstellung für die „Schwarz-Weiß-Unterscheidung“.

            1. Hallo,

              Ein Programm, das in dieser Disziplin überraschend gut ist, ist Microsoft OneNote.

              Wenn man schon vom Teufel spricht: Genau das habe ich erst gestern auf einem älteren Smartphone installiert und getestet. Das „überraschend gut“ ist, bezüglich OCR, auch mein Eindruck (Ich habe meine Stromrechnung fotografiert, den Text erkennen lassen und sodann an mich geschickt). Was fehlt wäre eine manuelle Einstellung für die „Schwarz-Weiß-Unterscheidung“.

              kann sein, dass es hier noch subtile Unterschiede zwischen der Smartphone- und der Desktopversion gibt. Ich selbst habe das aber nie ausprobiert.

              Ein Kollege von mir hat's aber mal auf die Spitze getrieben, nur zum Ausprobieren: Ein paar Sekunden Video von der Webcam, wo jemand ein Blatt Papier mit Text in die Kamera zeigt. Diesen Clip in OneNote eingefügt, und dann sollte das Programm den Text OCRisieren. Geht! Damit hast du sozusagen ein durchsuchbares Video!
              Nicht hundertprozentig, an ein paar Stellen waren "Tippfehler". Ich find's trotzdem bemerkenswert, dass das sogar aus einem Video möglich ist. Ähnlich gut, so wird behauptet, soll OneNote beim Erkennen von gesprochenem Text in einer Audio-Datei sein (oder aus der Tonspur einer Videodatei). Das kostet zwar eine Menge CPU-Leistung, aber man macht sowas ja auch nicht ständig.

              Teams ist da ähnlich gut: Bei einer Online-Videokonferenz kannst du Live-Untertitel einblenden und so mitlesen, was dein Kollege gerade vorträgt. Mit nur ein paar Sekunden Verzögerung und einer verblüffend hohen Trefferquote.

              Einen schönen Tag noch
               Martin

              --
              Ich fürchte, ich brauche ein neues Portemonnaie. Das alte ist leer.
              1. Mit Tesseract als OCR-Engine hab ich gerade eben auch recht brauchbare Ergebnisse erzielt. Jedenfalls mit der richtigem Spracheinstellung liefert das gute Ergebnisse. Auch auf dem Raspi recht schnell.

                • Mit dessen Steuerprogramm ocrmypdf (und eben der richtigen Spracheinstellung) kann ich meine Scans durchsuchbar machen. Google liebt durchsuchbare PDFs … Ein paar meiner „Lieblinge“ werden demnächst vor Begeisterung weinen.

                • Es gibt dafür weitere GUIs