Aloha ;)
Das Problem ist doch nicht, dass man nicht an die Daten rankommen würde. Niemand hat behauptet, dass man an die Daten nicht irgendwie rankommt.
Das Problem ist, dass man nicht zuverlässig immer auf dem gleichen Weg an die Daten kommt, und wenn, dann nur unter weitläufigen Annahmen, die erstmal gegeben sein müssen.
Das, was du da vorschlägst, ist ein Gefrickel, um doch irgendwie an die Daten zu kommen.
Das kann man machen. Das Problem ist dadurch trotzdem nicht gelöst.
Unter diesem Aspekt wär's vermutlich sogar günstiger, gleich auf OCR zu setzen - dann kann man PDFs lesen, die gescannt sind, die mit einem Reader ausgefüllt wurden, die via Bildbearbeitung ausgefüllt wurden - und so weiter und so fort.
Sogar dieser Ansatz über OCR ist vermutlich vielversprechender, als ernsthaft zu versuchen, Daten aus PDF-Formularen auszulesen, und damit einen Produktivbetrieb anzustreben.
Grüße,
RIDER