Urm: PDF scannen, Seitenzahl

Hallo,

ich habe ein 12-seitiges PDF, das ich nach verschiedenen Keywords scannen und automatisiert feststellen muss, auf welcher Seite(n) sich das jeweiligeWort befindet.  Z.B. befindet sich auf den Seiten 4 und 9 des Dokumentes das Wort "Hase". Auf Seite 6 das Wort "Baum". Als Ergebnisliste bräuchte ich also etwas in der Art

Hase=> 4,9
Baum=> 6

Irgendeine Idee?

  1. Moin!

    Hilft Dir: http://www.openkm.com/ ?

    Suche weiter nach "document management system" oder "dms".

    MFFG (Mit freundlich- friedfertigem Grinsen)

    fastix

  2. Hi Urm!

    Irgendeine Idee?

    Theoretisch ist es möglich, mit PHP einen PDF-Parser zu schreiben, der das kann. Allerdings existieren inzwischen unzählige PDF-Spezifikationsversionen, was den Aufwand ziemlich hochtreibt.

    Es gibt zwar ein paar PDF-Parser-Klassen, die in PHP geschrieben sind, allerdings schaffen die es nicht, jedes Dokument zu entziffern, geschweige denn zu den Suchtermen auch noch die entsprechende Seitenzahl herauszufinden.

    Allerdings scheint sich, seit dem ich mich damit beschäftigt habe, etwas getan zu haben. Die Antworten zu einer Frage auf Stackoverflow fassen viele Möglichkeiten zusammen, die ich selbst auch noch nicht kenne.

    Vielleicht hast du Glück mit ein paar "Zusatzklassen", die über das Zendframwork kommen, oder mit externen Programmen, wie xPDF.

    Wenn du zu einem konkreten Ergebnis kommst, lass es mich wissen. Es interessiert mich sehr.

    MfG H☼psel

    --
    "Es gibt Augenblicke, in denen eine Rose wichtiger ist als ein Stück Brot."
    Rainer Maria Rilke
    Selfcode: ie:% fl:( br:> va:) ls:& fo:) rl:? n4:& ss:| de:] js:| ch:? sh:( mo:) zu:)
  3. Hallo,

    danke Euch beiden. Scheint tatsächlich nicht ganz trivial zu sein. Leider ist die PDF-Spezifikation wirklich ein Ungetüm. Falls ich was finde, was brauchbar ist, melde ich mich.

    danke!

    URM

    1. Moin!

      danke Euch beiden. Scheint tatsächlich nicht ganz trivial zu sein.

      Eigentlich ist es das:

      Scannen als TIFF, OCR über das TIFF, dann umwandeln in PDF. Lässt sich alles scripten.

      MFFG (Mit freundlich- friedfertigem Grinsen)

      fastix