Lösungsalternative: pdftotext
bearbeitet von ursus contionabundo> Sämtliche Versuche, das PDF zu konvertieren, generieren noch viel mehr Datenmüll.
Ich sags mal so:
Wenn das PDF **generiert** (nicht mit einem Treiber als Grafik pder Postscript/PS gedruckt oder vom Faxserver aus einem Tiff umgewandelt wurde ) wurde, unverschlüsselt ist **und Tabellen enthält**, dann habe ich mit [pdftotex](https://linux.die.net/man/1/pdftotext) gute Erfahrungen gemacht.
**1. Versuch**
~~~
pdftotext -nopgbrk -layout datei.pdf datei.layout.txt
~~~
[![](/images/d399ca1d-3f3b-4474-ad46-b0aa17eb0459.png?size=medium)](/images/d399ca1d-3f3b-4474-ad46-b0aa17eb0459.png)
**2. Versuch**
~~~
pdftotext -nopgbrk datei.pdf datei.zeilen.txt
~~~
[![](/images/4d26af03-35f3-43cd-9824-120aca7260ee.png?size=medium)](/images/4d26af03-35f3-43cd-9824-120aca7260ee.png)
Lösungsalternative: pdftotext
bearbeitet von ursus contionabundo> Sämtliche Versuche, das PDF zu konvertieren, generieren noch viel mehr Datenmüll.
Ich sags mal so:
Wenn das PDF **generiert** (nicht mit einem Treiber als Grafik gedruckt oder vom Faxserver aus einem Tiff umgewandelt wurde ) wurde **und Tabellen enthält**, dann habe ich mit [pdftotex](https://linux.die.net/man/1/pdftotext) gute Erfahrungen gemacht.
**1. Versuch**
~~~
pdftotext -nopgbrk -layout datei.pdf datei.layout.txt
~~~
[![](/images/d399ca1d-3f3b-4474-ad46-b0aa17eb0459.png?size=medium)](/images/d399ca1d-3f3b-4474-ad46-b0aa17eb0459.png)
**2. Versuch**
~~~
pdftotext -nopgbrk datei.pdf datei.zeilen.txt
~~~
[![](/images/4d26af03-35f3-43cd-9824-120aca7260ee.png?size=medium)](/images/4d26af03-35f3-43cd-9824-120aca7260ee.png)
Diese Zeile krieg ich nicht gematcht
bearbeitet von ursus contionabundo> Sämtliche Versuche, das PDF zu konvertieren, generieren noch viel mehr Datenmüll.
Ich sags mal so:
Wenn das PDF **generiert** (nicht mit einem Treiber als Grafik gedruckt oder vom Faxserver aus einem Tiff umgewandelt wurde ) wurde **und Tabellen enthält**, dann habe ich mit [pdftotex](https://linux.die.net/man/1/pdftotext) gute Erfahrungen gemacht.
**1. Versuch**
~~~
pdftotext -nopgbrk -layout datei.pdf datei.layout.txt
~~~
[![](/images/d399ca1d-3f3b-4474-ad46-b0aa17eb0459.png?size=medium)](/images/d399ca1d-3f3b-4474-ad46-b0aa17eb0459.png)
**2. Versuch**
~~~
pdftotext -nopgbrk datei.pdf datei.zeilen.txt
~~~
[![](/images/4d26af03-35f3-43cd-9824-120aca7260ee.png?size=medium)](/images/4d26af03-35f3-43cd-9824-120aca7260ee.png)
Diese Zeile krieg ich nicht gematcht
bearbeitet von ursus contionabundo> Sämtliche Versuche, das PDF zu konvertieren, generieren noch viel mehr Datenmüll.
Ich sags mal so:
Wenn das PDF **generiert** (nicht mit einem Treiber als Grafik gedruckt oder vom Faxserver aus einem Tiff umgewandelt wurde ) wurde **und Tabellen enthält**, dann habe ich mit [pdftotex](https://linux.die.net/man/1/pdftotext) gute Erfahrungen gemacht.
~~~
pdftotext -nopgbrk -layout datei.pdf datei.layout.txt
~~~
[![](/images/d399ca1d-3f3b-4474-ad46-b0aa17eb0459.png?size=medium)](/images/d399ca1d-3f3b-4474-ad46-b0aa17eb0459.png)
pdftotext -nopgbrk datei.pdf datei.zeilen.txt
~~~
[![](/images/4d26af03-35f3-43cd-9824-120aca7260ee.png?size=medium)](/images/4d26af03-35f3-43cd-9824-120aca7260ee.png)
Diese Zeile krieg ich nicht gematcht
bearbeitet von ursus contionabundo> Sämtliche Versuche, das PDF zu konvertieren, generieren noch viel mehr Datenmüll.
Ich sags mal so:
Wenn das PDF **generiert** (nicht mit einem Treiber als Grafik gedruckt oder vom Faxserver aus einem Tiff umgewandelt wurde ) wurde **und Tabellen enthält**, dann habe ich mit [pdftotex](https://linux.die.net/man/1/pdftotext) gute Erfahrungen gemacht.
~~~
pdftotext -nopgbrk -layout datei.pdf datei.layout.txt
pdftotext -nopgbrk datei.pdf datei.zeilen.txt
~~~