andreas: Tabelle aus .pdf "exportieren"

Moin!
Hab mal eine Frage, kann man eine Tabelle aus .pdf-Dokumenten exportieren? Das einzige was ich bei strg+c bekomme sind die Zeilen, aber die die Spalten sind nicht getrennt, also bei einem Datensatz wie

123|abc3|23xyz

habe ich dann nur

123abc323xyz

was mir nicht wirklich viel bringt. Leider sind das auch nicht immer gleich viele zeichen in der Spalte, daher geht das nicht ohne weiteres mit Excel oder so.

Meines Wissens geht das doch noch nichtmal mit dem Acrobat selbst, oder? Es gibt doch z.B. bei MS Access die Möglichkeit, bei bestimmten Daten einfach nach Abstand in mm die Spalten zu definieren. Natürlich versteht Access kein .pdf, aber gibts dafür vielleicht was anders?
Wie kann man das machen?
Problem ist nämlich dass wir von "früher" ein paar Daten so gespeichert hatten(als noch nicht über eine DB nachgedacht wurde, halt nur zum verschicken per mail...)
Da muß man doch irgendwie wieder dran kommen, oder? Die Vorlagen sind nämlich unauffindbar:(
Wäre sehr Dankbar für Eure Hilfe!

Grüße
  Andreas

  1. Hi,

    Da muß man doch irgendwie wieder dran kommen, oder? Die Vorlagen sind nämlich unauffindbar:(
    Wäre sehr Dankbar für Eure Hilfe!

    also da ich selbst recht viel mit dem Auslesen von .pdf-Dateien herumexperimentiere und auch schon Daten aus Tabellen rausbekommen hab, würd ich Dich einfach bitten mal eine dieser .pdf-Dateien irgendwo zum Download bereit zu stellen. Dann könnt ich`s mir mal anschauen.

    Leider kann ich Dir auf Windows-Ebene gar keinen Tipp geben, denn ich mach das immer unter Linux mit pstotext und anderen Tools.

    Viele Grüsse
    Achim

    1. Hi!
      Vielen Dank, die Datein sind sehr verschieden, ein Beispiel wäre z.B. die diese Liste eines Lieferanten der Firma:
      http://www.kw-gmbh.de/kw_upload/kw_suspensions.pdf

      Ich hab mir "pdftotext" runtergeladen, aber irgenwie verstehe ich das nicht, irgendwie kein GUI glaub ich, aber ich versuchs weiter. Was hast Du noch für Tipps?

      Grüße
       Andreas

      1. Hi,

        also ganz spontan sieht das Ergebnis von pdftotext schon mal recht brauchbar aus. Kommt natürlich auch auf Deine Anforderungen an. Der Aufruf von pdftotext ist einfach:

        du@dort:$ pdftotext datei.pdf<ENTER>

        Das erzeugt eine .txt-Datei mit dem Namen der Original-PDF. Ich hab das Ergebnis mal online gestellt:
        http://www.speedesign.de/tempfiles/kw_suspensions.txt

        Das müsste doch eigentlich mit Perl parsbar sein, oder sich auch irgendwie in Excel o.ä. einfügen lassen, oder?

        Ich hab mir "pdftotext" runtergeladen, aber irgenwie verstehe ich das nicht, irgendwie kein GUI glaub ich, aber ich versuchs weiter. Was hast Du noch für Tipps?

        Arbeitest Du mit Windows oder Linux/Unix?

        Viele Grüsse
        Achim

        1. Hi!

          also ganz spontan sieht das Ergebnis von pdftotext schon mal recht brauchbar aus. Kommt natürlich auch auf Deine Anforderungen an. Der Aufruf von pdftotext ist einfach:

          du@dort:$ pdftotext datei.pdf<ENTER>

          Ja, hatte die Readme mal gelesen, aber da ich Windows 2000 benutze frage ich mich gerade, wo ich das eingeben soll :)

          Das erzeugt eine .txt-Datei mit dem Namen der Original-PDF. Ich hab das Ergebnis mal online gestellt:
          http://www.speedesign.de/tempfiles/kw_suspensions.txt

          Danke Dir, das sihet wirklich gut aus, mit dem Adobe Acrobat konnte man etwas kompliziert auch seitenweise die Tabelle in je eine txt umwandeln(hatte ich heute Nacht rausgefunden:), aber bei ein paar mehr Seiten dauert das schon recht lange. Auf alle Fälle kann ich sowas gut in Access importieren, Excel bestimmt auch, aber ich verwende Access um die Daten in MySQL einzulesen, mit Access habe ich so Sachen schon oft gemacht, nervt mich zwar, aber für sowas ist es ganz gut finde ich.

          Das müsste doch eigentlich mit Perl parsbar sein, oder sich auch irgendwie in Excel o.ä. einfügen lassen, oder?

          Wie Du vielleicht weißt hab ich mir zwar gerade ein Buch über PERL gekauft, aber so weit bin ich dann doch noch nicht :)

          Ich hab mir "pdftotext" runtergeladen, aber irgenwie verstehe ich das nicht, irgendwie kein GUI glaub ich, aber ich versuchs weiter. Was hast Du noch für Tipps?

          Arbeitest Du mit Windows oder Linux/Unix?

          Wie gesagt, mit Windows. Linux starte ich nächte Woche einen neuen Versuch, da bekomme ich eine neue Festplatte und da,it sollte es dann auch mal laufen:)

          Grüße
            Andreas

          1. Hi,

            Ja, hatte die Readme mal gelesen, aber da ich Windows 2000 benutze frage ich mich gerade, wo ich das eingeben soll :)

            *g* gar nicht so einfach unter w2k ne eingabeaufforderung zu bekommen, gell?

            Danke Dir, das sihet wirklich gut aus, mit dem Adobe Acrobat konnte man etwas kompliziert auch seitenweise die Tabelle in je eine txt umwandeln(hatte ich heute Nacht rausgefunden:), aber bei ein paar mehr Seiten dauert das schon recht lange. Auf alle Fälle kann ich sowas gut in Access importieren, Excel bestimmt auch, aber ich verwende Access um die Daten in MySQL einzulesen, mit Access habe ich so Sachen schon oft gemacht, nervt mich zwar, aber für sowas ist es ganz gut finde ich.

            Ja, das ist wirklich ein Krampf. Leider legen es viele GUI-Tools (sowohl unter win als auch unde linux) nicht gerade auf Interoperabilität (ich liebe dieses Wort) an. Übrigens benutze ich (bzw. ich drängs unseren Kunden auf) gerne Access als MySQL-Frontend via MyODBC. Damit lassen sich very easy ganz tolle Masken für den Kunden erstellen um z.B. Webdatenbanken zu pflegen. Aber das is ja nix neues...

            Das müsste doch eigentlich mit Perl parsbar sein, oder sich auch irgendwie in Excel o.ä. einfügen lassen, oder?
            Wie Du vielleicht weißt hab ich mir zwar gerade ein Buch über PERL gekauft, aber so weit bin ich dann doch noch nicht :)

            Ach so, da war ja mal was (<archiv/2002/2/5058/> *g*). Ich merk mir das nur nicht so leicht, weil Du Dich immer nur "andreas" ohne alles nennst. Nachnamen kann ich da schon leichter unterscheiden ;-) Ausserdem bin ich Programmierer und da _muss_ man wahrscheinlich vergesslich sein *g*.

            Ich hab mir "pdftotext" runtergeladen, aber irgenwie verstehe ich das nicht, irgendwie kein GUI glaub ich, aber ich versuchs weiter. Was hast Du noch für Tipps?

            Also ich geh jetzt mal davon aus, dass pdftotext bei Dir läuft und Du soweit erst mal klar kommst.

            Wie gesagt, mit Windows. Linux starte ich nächte Woche einen neuen Versuch, da bekomme ich eine neue Festplatte und da,it sollte es dann auch mal laufen:)

            Kann ich nur empfehlen. Linux rocks ;-)

            Viele Grüsse
            Achim

            1. Hi!

              *g* gar nicht so einfach unter w2k ne eingabeaufforderung zu bekommen, gell?

              Naja, wenn ich bei WIndows damit arbeite komme ich mir immer so komisch vor, erinnert mich an die Steinzeit(DOS)

              Ja, das ist wirklich ein Krampf. Leider legen es viele GUI-Tools (sowohl unter win als auch unde linux) nicht gerade auf Interoperabilität (ich liebe dieses Wort) an. Übrigens benutze ich (bzw. ich drängs unseren Kunden auf) gerne Access als MySQL-Frontend via MyODBC. Damit lassen sich very easy ganz tolle Masken für den Kunden erstellen um z.B. Webdatenbanken zu pflegen. Aber das is ja nix neues...

              Also ich habe damit auch schon ein paar Frontends für MySQL gebastelt, aber da ich auch kein VB-Experte bin, bin ich lieber zu PHP gewechselt, das eignet sich IMHO sehr viel besser!
              Ich verwende Access nur, um MySQL mit Daten zu "füttern", denn die Import-Funktion finde ich ganz nett. Problem ist nur, dass es soooo viele unterschiedliche Formate, Datenstrukturen... gibt, und die in einer DB zu vereinheitlichen ist die Hölle, und leider sind "normale"(ungeduldige...) Benutzer nicht dazu in der Lage, da man manchmal ein bisschen nachdenken muß :)

              Ach so, da war ja mal was (<archiv/2002/2/5058/> *g*). Ich merk mir das nur nicht so leicht, weil Du Dich immer nur "andreas" ohne alles nennst. Nachnamen kann ich da schon leichter unterscheiden ;-) Ausserdem bin ich Programmierer und da _muss_ man wahrscheinlich vergesslich sein *g*.

              Ist mir auch schon aufgefallen, dass ich nicht der einzige Andreas hier bin, mal schaun was sich da machen läßt :-)

              Also ich geh jetzt mal davon aus, dass pdftotext bei Dir läuft und Du soweit erst mal klar kommst.

              Neeee, das ist wieder mal so ein Programm welches ich nicht verstehe :( Wenn ich irgendeine .exe ausführe öffnet sich kurz das dos-Fenster, schließt sich aber sofort wieder. Gibt es dafür keine Grafische Oberfläche?
              *bitte, bitte :-)))*
              OK, ich weiß, wie ich an die Eingabeaufforderung unter Win2K komme, (netstat -n... so Sachen habe ich irgendwann mal probiert) aber das sind ja alles immer Windows-Programme, kann ich da die anderen Programme genau so starten, wie in der Shell bei linux?

              Kann ich nur empfehlen. Linux rocks ;-)

              Naja, bisher hat es mich nur Zeit und Nerven gekostet, ist mal kurz gelaufen, dann wieder nicht... hatte das mal hier gepostet, aber wie gesagt, ich tu mein bestes!

              Viele Grüße
              Andreas

              1. Hi Andreas Korthaus ;-),

                Naja, wenn ich bei WIndows damit arbeite komme ich mir immer so komisch vor, erinnert mich an die Steinzeit(DOS)

                Ach, so schlimm ist das gar nicht. Und wenn Du z.B. sowas eingibst:

                c:>dir > inhalt.txt<ENTER>

                dann siehst Du vielleicht, dass auch die Shell-Ebene einige Vorteile hat. Ich erzeug mir so immer Inhaltsverzeichnisse für CD-ROMS und so (mit ">" wird die Ausgabe des Befehls in eine Datei umgeleitet).

                Also ich habe damit auch schon ein paar Frontends für MySQL gebastelt, aber da ich auch kein VB-Experte bin, bin ich lieber zu PHP gewechselt, das eignet sich IMHO sehr viel besser!

                Klar, kommt drauf an, was man eben so braucht.

                Ist mir auch schon aufgefallen, dass ich nicht der einzige Andreas hier bin, mal schaun was sich da machen läßt :-)

                Naja, Du hast schon mal ganz gut angefangen... *g*

                Neeee, das ist wieder mal so ein Programm welches ich nicht verstehe :( Wenn ich irgendeine .exe ausführe öffnet sich kurz das dos-Fenster, schließt sich aber sofort wieder. Gibt es dafür keine Grafische Oberfläche?

                AFAIK gibt es keine Oberfläche für pdftotext. Aber wenn Du die w2k Eingabeaufforderung startest, hast Du ja ein Fenster in dem Du alles machen kannst. Dann wechselst Du in das Verzeichnis mit Deinen PDF-Dateien und rufst für jede PDF

                c:\pdf-verzeichnis>pdftotext dateiname.pdf<ENTER>

                auf. Das sollte eigentlich funktionieren. Wichtig dabei ist, dass pdftotext in Deiner Pfadvariablen steht. Am besten kopierst Du dazu die pdftotext-Datei ins Windows-Verzeichnis.

                Aber eine Frage hab _ich_ mal: Ist das pdftotext, das Du Dir gezogen hast wirklich für Windows? Wo hast Du es denn her? Ok es waren zwei Fragen ;-)

                OK, ich weiß, wie ich an die Eingabeaufforderung unter Win2K komme, (netstat -n... so Sachen habe ich irgendwann mal probiert) aber das sind ja alles immer Windows-Programme, kann ich da die anderen Programme genau so starten, wie in der Shell bei linux?

                Klar. Am obigen Beispiel siehst Du ja, dass man sogar mit der Windows-Shell ein bisschen was anfangen kann. Mit Unix-Shells hat das zwar noch nicht viel zu tun, aber immerhin.

                Kann ich nur empfehlen. Linux rocks ;-)
                Naja, bisher hat es mich nur Zeit und Nerven gekostet, ist mal kurz gelaufen, dann wieder nicht... hatte das mal hier gepostet, aber wie gesagt, ich tu mein bestes!

                Viel Glück jedenfalls!

                Viele Grüsse
                Achim

                1. Hi!

                  c:>dir > inhalt.txt<ENTER>

                  Nicht schlecht :) Meine Dos-Zeit war in der 5. und 6. Klasse, danacht gab es nur noch Windows, deshalb ist das schon recht ungewohnt für mich!

                  AFAIK gibt es keine Oberfläche für pdftotext. Aber wenn Du die w2k Eingabeaufforderung startest, hast Du ja ein Fenster in dem Du alles machen kannst. Dann wechselst Du in das Verzeichnis mit Deinen PDF-Dateien und rufst für jede PDF

                  c:\pdf-verzeichnis>pdftotext dateiname.pdf<ENTER>

                  auf. Das sollte eigentlich funktionieren. Wichtig dabei ist, dass pdftotext in Deiner Pfadvariablen steht. Am besten kopierst Du dazu die pdftotext-Datei ins Windows-Verzeichnis.

                  Aber eine Frage hab _ich_ mal: Ist das pdftotext, das Du Dir gezogen hast wirklich für Windows? Wo hast Du es denn her? Ok es waren zwei Fragen ;-)

                  Nun, ich habe das hier runtergeladen: http://www.foolabs.com/xpdf/download.html
                  x86, DOS/Win32 -- pdftops, pdftotext, pdfimages, pdfinfo, and pdffonts only:
                  Win32 (built with MSVC): xpdf-1.00-win32.zip

                  war das falsch?

                  Klar. Am obigen Beispiel siehst Du ja, dass man sogar mit der Windows-Shell ein bisschen was anfangen kann. Mit Unix-Shells hat das zwar noch nicht viel zu tun, aber immerhin.

                  Aber wenn das Programm nicht im Win-Hauptverzeichnis ist(winnt\ oder winnt\system32?) habe, kann es ja nicht gehen, oder?

                  Grüße
                    Andreas

                  1. Hey!
                    Erstes mal das ich so ein Programm unter Windows benutzen kann! Vielen Dank! Ist ja wiklich nicht kompliziert! Was mich nur stört, dass ich nicht mit meinem geliebten strg+c arbeiten kann, aber egal. Ich mache das jetzt immer so, dass ich die Datei in das pdftotext Verzeichnis kopiere, dann klappts, in anderen Verzeichnissen irgendwie nicht:(

                    Aber Vielen Dank für die Hilfe!

                    Grüße
                     Andreas

                  2. Hi,

                    Nicht schlecht :) Meine Dos-Zeit war in der 5. und 6. Klasse, danacht gab es nur noch Windows, deshalb ist das schon recht ungewohnt für mich!

                    ich arbeite(te) mit DOS seit ich 9 war. Und das mit der Umleitung (und anderen Sachen) hab ich auch erst in den 1.5 Jahren in denen ich mit Linux arbeite gelernt... *wennichdasnurfrühergewussthätte*

                    Nun, ich habe das hier runtergeladen: http://www.foolabs.com/xpdf/download.html
                    x86, DOS/Win32 -- pdftops, pdftotext, pdfimages, pdfinfo, and pdffonts only:
                    Win32 (built with MSVC): xpdf-1.00-win32.zip

                    Nein, das ist goldrichtig. Ich hab nach meinem Posting nochmal gegoogelt und bin da auch drauf gestossen. Ich hab nur nicht gewusst, dass es auch eine Windows-Version gibt. Diese Tools sind nämlich ultrakrass ;-) und ich kann die auch für win gebrauchen. Insofern hat mir der Thread hier auch was gebracht ;-)

                    Aber wenn das Programm nicht im Win-Hauptverzeichnis ist(winnt\ oder winnt\system32?) habe, kann es ja nicht gehen, oder?

                    Hat nicht unbedingt was mit dem Hauptverzeichnis zu zun, sondern mit der PATH-Umgebungsvariable. Der Pfad, in dem pdftotext liegt, muss auch in dieser PATH-Variable vorkommen. Und der Windows-Pfad kommt halt drin vor...

                    Viele Grüsse
                    Achim

                2. Hi Achim,

                  AFAIK gibt es keine Oberfläche für pdftotext.
                  Aber wenn Du die w2k Eingabeaufforderung startest,
                  hast Du ja ein Fenster in dem Du alles machen
                  kannst. Dann wechselst Du in das Verzeichnis mit
                  Deinen PDF-Dateien und rufst für jede PDF
                  c:\pdf-verzeichnis>pdftotext dateiname.pdf<ENTER>
                  auf. Das sollte eigentlich funktionieren.

                  kann man Windows vielleicht sogar beibringen, pdftotext in das Exploder-Kontextmenü aufzunehmen (und mit Kommandozeilenparametern zu bestücken, daß einen Ausgabedatei mit entsprechendem Namensmuster erzeugt wird)?
                  Direkt verknüpfen mit *.pdf möchte ich ja nun nicht empfehlen ...

                  Viele Grüße
                        Michael

            2. Hi Achim,

              Ausserdem bin ich Programmierer und da _muss_ man
              wahrscheinlich vergesslich sein *g*.

              Yep - welchen Grund gäbe es sonst, Quelltexte zu kommentieren? ;-)

              Viele Grüße
                    Michael