snitch: PDF als Text auslesen - Quellcode?

Morgen zusammen,

ich muss in nächster Zeit eine Menge PDF-Dateien auslesen bzw. den Text herausfiltern und mit HTML auszeichnen.
Ich habe vollen Zugriff auf die Dokumente.

Gibt es eine Möglichkeit an den Quellcode der Datei zu kommen - evtl. mit irgendwelchen speziellen Tools?
Dann könnte man vllt. mit suchen/ersetzen das Ganze halbautomatisch machen ...

Grüße,
snitch

  1. Moin,

    Gibt es eine Möglichkeit an den Quellcode der Datei zu kommen - evtl. mit irgendwelchen speziellen Tools?

    Eine Suche nach pdf2html http://www.google.de/search?hs=DGp&hl=de&c2coff=1&client=firefox-a&rls=org.mozilla%3Ade-DE%3Aofficial&q=pdf2html&btnG=Suche&meta= fördert schon einiges zu Tage.
    Ansonsten bleibt dir ja immer noch der Acrobat(nicht der Reader)

    Gruß
    SteBu

    1. Gibt es eine Möglichkeit an den Quellcode der Datei zu kommen - evtl. mit irgendwelchen speziellen Tools?

      Eine Suche nach pdf2html http://www.google.de/search?hs=DGp&hl=de&c2coff=1&client=firefox-a&rls=org.mozilla%3Ade-DE%3Aofficial&q=pdf2html&btnG=Suche&meta= fördert schon einiges zu Tage.
      Ansonsten bleibt dir ja immer noch der Acrobat(nicht der Reader)

      hm, das geht ja einfach als ich dachte *g*
      mir hat nur das richtige Schlüsselwort gefehlt.

      ich habe mir jetzt ein Programm angeschaut und getest. Das Problem ist nun aber, ich brauche eigentlich nur den Fließtext - in einer _ordentlichen_ Struktur.
      Aber das Programm versucht mit einer Menge CSS die Seite _nachzubauen_ ...
      Ich werde da noch ein wenig googeln und im Zweifel muss ich es doch per Acrobat rauskopieren und per Hand neu auszeichnen.

      Falls noch jemand einen Tipp - her damit!
      thx

      1. Tach,

        Das Problem ist nun aber, ich brauche eigentlich nur den Fließtext - in einer _ordentlichen_ Struktur.

        so weit ich weiß, strukturiert PDF den Text nicht sondern speichert nur Informationen über das Aussehen; das wirst du selber machen müssen, da sicher kein Programm dazu in der Lage ist.

        mfg
        Woodfighter

        1. Das Problem ist nun aber, ich brauche eigentlich nur den Fließtext - in einer _ordentlichen_ Struktur.

          so weit ich weiß, strukturiert PDF den Text nicht sondern speichert nur Informationen über das Aussehen; das wirst du selber machen müssen, da sicher kein Programm dazu in der Lage ist.

          aber Text wird auch Text gespeichert und wenn über _normalem_ Text eine ausgezeichnetet Überschrift steht muss das doch durch irgendwelche Tags oder ähnliches markiert sein.
          um das zu testen, bräuchte man wie gesagt ein Programm das den Quellcode in lesbaren Text wandelt.

          1. Ahoi snitch,

            um das zu testen, bräuchte man wie gesagt ein Programm das den Quellcode in lesbaren Text wandelt.

            öffne die pdf doch mal in einem texteditor und schau dir das an, vll
            wirst du daraus schlau und kansnt ein eigenes kleines programm schreiben.

            MfG

            --
            Alle Angaben wie immer ohne Gewähr