Linuchs: Suche Programm, um Text aus mehrspaltigem PDF zu übernehmen

Moin,

ein vorhandener Fachartikel im PDF Format soll auf einer Webseite dargestellt werden.

Die Seiten sind A3 quer und ich möchte sie nach HTML umsetzen, weil die Schrift viel zu klein ist.

Leider kann ich mit meinem Linux-Programm "Dokumentenbetrachter" aufeinanderfolgende Zeilen nicht markieren, weil das Layout zweispaltig ist und beide Spalten markiert werden.

Gibt es für Linux ein Programm, das einen PDF-Bereich markieren kann und daraus den Text entnehmen?

Gruß, Linuchs

  1. Hallo

    ein vorhandener Fachartikel im PDF Format soll auf einer Webseite dargestellt werden.

    Die Seiten sind A3 quer und ich möchte sie nach HTML umsetzen, weil die Schrift viel zu klein ist.

    Leider kann ich mit meinem Linux-Programm "Dokumentenbetrachter" aufeinanderfolgende Zeilen nicht markieren, weil das Layout zweispaltig ist und beide Spalten markiert werden.

    Gibt es für Linux ein Programm, das einen PDF-Bereich markieren kann und daraus den Text entnehmen?

    Ich bin ehedem eine ähnliche Aufgabe, allerdings mit Scans (also Bildern) als Quelle, mit OCR angegangen. Da du, soweit ich mich erinnere, auch mit einem Ubuntu(-Derivat) unterwegs bist, bietet sich tesseract-ocr mit Ergänzung durch eine grafische Oberfläche an. Ich habe damals vietOCR benutzt, wobei nur sehr wenige Korrekturen nötig waren. Das wird aber wohl eher das Verdienst von tesseract-OCR gewesen sein. 😀

    Laut der Tabelle (siehe letzter Link) hat vietOCR aber keinen PDF-Import. Das hieße, den Umweg über Screenshots, je einen pro Textspalte, zu gehen. Da aber andere Oberflächen einen PDF-Import bieten, solltest du erst einmal mit denen herumprobieren.

    Tschö, Auge

    --
    Eine Kerze stand [auf dem Abort] bereit, und der Almanach des vergangenen Jahres hing an einer Schnur. Die Herausgeber kannten ihre Leser und druckten den Almanach auf weiches, dünnes Papier.
    Kleine freie Männer von Terry Pratchett
    1. Hallo Auge,

      Laut der Tabelle (siehe letzter Link) hat vietOCR aber keinen PDF-Import. Das hieße, den Umweg über Screenshots, je einen pro Textspalte, zu gehen.

      Eine Kombination aus Ghostscript und einem beliebigen Bildbearbeitungsprogramm kann sich auch als zweckmäßig erweisen.

      Auch GIMP kann PDFs importieren und dort können dann die einzelnen Spalten ausgeschnitten werden.

      Gruß
      Julius

  2. Hallo Linuchs,

    ein vorhandener Fachartikel im PDF Format soll auf einer Webseite dargestellt werden.

    Was ist denn das Portable Dokumentenformat Format? 😉

    Leider kann ich mit meinem Linux-Programm "Dokumentenbetrachter" aufeinanderfolgende Zeilen nicht markieren, weil das Layout zweispaltig ist und beide Spalten markiert werden.

    Dann ist die PDF-Datei suboptimal erstellt. Es gibt AFAIK die Möglichkeit Spalten als Spalten zu setzen, was u.a. auch der Zugänglichkeit dient.

    Gibt es für Linux ein Programm, das einen PDF-Bereich markieren kann und daraus den Text entnehmen?

    Vielleicht kann dir Scribus helfen.

    Viele Grüße
    Robert

    1. Hallo Robert,

      ein vorhandener Fachartikel im PDF Format soll auf einer Webseite dargestellt werden.

      Was ist denn das Portable Dokumentenformat Format? 😉

      Wenn schon klugscheissen, dann richtig: Portable Document Format Format oder portables Dokumentenformat Format 😝

      LG,
      CK