PDF scannen, Seitenzahl von Hopsel, 27.08.2011 15:23

PDF scannen, Seitenzahl

Urm 26.08.2011 23:26

Hallo,

ich habe ein 12-seitiges PDF, das ich nach verschiedenen Keywords scannen und automatisiert feststellen muss, auf welcher Seite(n) sich das jeweiligeWort befindet. Z.B. befindet sich auf den Seiten 4 und 9 des Dokumentes das Wort "Hase". Auf Seite 6 das Wort "Baum". Als Ergebnisliste bräuchte ich also etwas in der Art

Hase=> 4,9
Baum=> 6

Irgendeine Idee?

Beitrag melden

– Informationen zu den Bewertungsregeln

PDF scannen, Seitenzahl
fastix® Homepage des Autors 27.08.2011 15:13

php
– Informationen zu den Bewertungsregeln
Moin!

Hilft Dir: http://www.openkm.com/ ?

Suche weiter nach "document management system" oder "dms".

MFFG (Mit freundlich- friedfertigem Grinsen)

fastix

--
Des fastix kleines CMS
Beitrag melden

–
Informationen zu den Bewertungsregeln
PDF scannen, Seitenzahl
Hopsel 27.08.2011 15:23

php
– Informationen zu den Bewertungsregeln
Hi Urm!

Irgendeine Idee?

Theoretisch ist es möglich, mit PHP einen PDF-Parser zu schreiben, der das kann. Allerdings existieren inzwischen unzählige PDF-Spezifikationsversionen, was den Aufwand ziemlich hochtreibt.

Es gibt zwar ein paar PDF-Parser-Klassen, die in PHP geschrieben sind, allerdings schaffen die es nicht, jedes Dokument zu entziffern, geschweige denn zu den Suchtermen auch noch die entsprechende Seitenzahl herauszufinden.

Allerdings scheint sich, seit dem ich mich damit beschäftigt habe, etwas getan zu haben. Die Antworten zu einer Frage auf Stackoverflow fassen viele Möglichkeiten zusammen, die ich selbst auch noch nicht kenne.

Vielleicht hast du Glück mit ein paar "Zusatzklassen", die über das Zendframwork kommen, oder mit externen Programmen, wie xPDF.

Wenn du zu einem konkreten Ergebnis kommst, lass es mich wissen. Es interessiert mich sehr.

MfG H☼psel

--
"Es gibt Augenblicke, in denen eine Rose wichtiger ist als ein Stück Brot."
Rainer Maria Rilke
Selfcode: ie:% fl:( br:> va:) ls:& fo:) rl:? n4:& ss:| de:] js:| ch:? sh:( mo:) zu:)
Beitrag melden

–
Informationen zu den Bewertungsregeln
PDF scannen, Seitenzahl
urm 27.08.2011 21:56

php
– Informationen zu den Bewertungsregeln
Hallo,

danke Euch beiden. Scheint tatsächlich nicht ganz trivial zu sein. Leider ist die PDF-Spezifikation wirklich ein Ungetüm. Falls ich was finde, was brauchbar ist, melde ich mich.

danke!

URM
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. PDF scannen, Seitenzahl
  
  fastix® Homepage des Autors 28.08.2011 12:01
  
  php
  – Informationen zu den Bewertungsregeln
  Moin!
  
  danke Euch beiden. Scheint tatsächlich nicht ganz trivial zu sein.
  
  Eigentlich ist es das:
  
  Scannen als TIFF, OCR über das TIFF, dann umwandeln in PDF. Lässt sich alles scripten.
  
  MFFG (Mit freundlich- friedfertigem Grinsen)
  
  fastix
  
  --
  Des fastix kleines CMS
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Urm: PDF scannen, Seitenzahl

PDF scannen, Seitenzahl

PDF scannen, Seitenzahl

PDF scannen, Seitenzahl

PDF scannen, Seitenzahl

PDF scannen, Seitenzahl

PDF scannen, Seitenzahl