Sämtliche Versuche, das PDF zu konvertieren, generieren noch viel mehr Datenmüll.

Ich sags mal so:

Wenn das PDF (z.B. aus LaTeX oder dvi) generiert (nicht mit einem Treiber als Grafik pder Postscript/PS gedruckt oder vom Faxserver aus einem Tiff umgewandelt wurde ) wurde, unverschlüsselt ist und Tabellen enthält, dann habe ich mit pdftotex gute Erfahrungen gemacht.

1. Versuch

pdftotext -nopgbrk -layout datei.pdf datei.layout.txt

2. Versuch

pdftotext -nopgbrk datei.pdf datei.zeilen.txt

freiwillige Angabe, für jeden sichtbar
freiwillige Angabe, für jeden sichtbar
freiwillige Angabe, für jeden sichtbar

Vorschau (Nachricht wird im Forum „SELF-Forum“ erscheinen)

  • Keine Tag-Vorschläge verfügbar
  • keine Tags vergeben

abbrechen

071

Nochmal Regex gesucht

  1. 0
    1. 0
    2. 0
      1. 0
        1. 0
          1. 0
            1. 0
              1. 0
                1. 0
                  1. 0
                    1. 0
                  2. 0
                    1. 0
                      1. 0
                        1. 0
                          1. 0
                            1. 0
                              1. 0
                                1. 0

                                  So geht es fast...

                                  1. 0

                                    Diese Zeile krieg ich nicht gematcht

                                    1. 0
                                      1. 0
                                        1. 0
                                          1. 0
                                            1. 0
                                              1. 0

                                                Lösungsalternative: pdftotext

                                          2. 0
                                            1. 0

                                              Diese Zeile krieg ich nicht gematcht - weitere Vereinfachung

                                    2. 0
                                      1. 0
                                        1. 0
                                          1. 0
                                            1. 0
                                              1. 0
                                                1. 0
                                                2. 0
                                                  1. 1
                        2. 0
                        3. 0
                          1. 0
                            1. 0
                              1. 0
                  3. 0

                    Nach Deinen Ergänzungern verbesserte Lösung

                    1. 0
                      1. 0
                        1. 0
                          1. 0

                            Tips zur Fehlersuche

                            1. 0
                              1. 0

                                Du bist nicht allein ...

                                1. 0
                  4. 0
                    1. 0
                      1. 0
              2. 0

                Vorhersehbar untauglicher Lösungsversuch

              3. 0
          2. 0
            1. 0
          3. 0
            1. 0
      2. 0
        1. 0
          1. 0
          2. 0
            1. 0
              1. 0
                1. 0
                  1. 0
            2. 0
      3. 0
        1. 0