Gunther: Inhaltsverzeichnisse aus PDF Dokumenten als HTML-Tabelle

Beitrag lesen

Hallo Jutta!

ich habe nicht besonders viel Ahnung von HTML und Co, ich kann eigentlich nur die Basics.

HTML-Kenntnisse sind so ziemlich das Letzte, was du in diesem Fall brauchst ...! ;-)

Nun zu meiner Frage:
Ich habe hier mehrere 100 PDF-Dokumente, die alle jeweils ein Inhaltsverzeichnis enthalten. Diese Inhaltsverzeichnisse möchte ich rauskopieren und in eine ganz einfache (nicht formatierte) HTML-Tabelle packen. Wenn ich die Inhaltsverzeichnisse rauskopiere, dann habe ich erstmal ja nur einen Fließtext. Z.B.

1 Einleitung ......................................... 2
2 Haupttext .......................................... 3
2.1 Mama ............................................. 7
2.2 Papa ............................................. 9
2.2.1 Opa ........................................... 11
2.2.2 Oma ........................................... 13
2.3 Tochter ......................................... 14
3 Sohn .............................................. 88
4 Fazit ............................................. 99   ;-)

Nur leider sind die echten Inhaltsverzeichnisse noch viiiiel länger als das in diesem Beispiel.

Sind sie denn immer auf einer/ der ersten Seite, oder gibt es auch da schon Unterschiede?

Ich benötige 3 Spalten, in jede Zeile soll eine neue Überschrift. Gibt es eine einfache Möglichkeit (ein Programm oder irgendwas selber programmiertes), daraus ohne mühsames Kopieren der einzelnen Überschriften, Seitenzahlen usw. eine Tabelle im HTML Format erstellen zu lassen? Z.B. irgendetwas, das erkennt, dass die Kapitelnummern in die erste Spalte gehören, die Überschriften in die zweite und die Seitenzahlen in die letzte?

Eine "einfache Möglichkeit" vermutlich nicht - ansonsten hättest du diese ja vermutlich bereits gefunden. Da, soweit ich das richtig verstanden habe, im Original keinerlei "Formatierung/Auszeichnung" vorhanden ist, die eine entsprechende Erkennung/ Verarbeitung ermöglichen würde vorhanden ist, müsste diese ja erstmal "erzeugt" werden (Stichwort "RegExp").

Ich benötige die Inhaltsverzeichnisse in dieser einfachen HTML-Form, da ich sie in eine bestehende Datenbank einpflegen möchte. Für das Inhaltsverzeichnis gibt es in dieser Datenbank ein Textfeld, das HTML sozusagen "versteht"... Damit eine Tabelle entsteht und kein Fießtext, benötige ich daher jeweils immer den Tabellen-HTML-Code.

Das ist nach meinem Dafürhalten auch wieder "suboptimal". Anstatt nur jeweils die "reine Information" in einem Feld der Tabelle abzuspeichern, umfasst diese jeweils alle Daten plus den entsprechenden HTML-Code in einem Feld, oder habe ich das falsch verstanden?

Ich hoffe, ihr versteht mein Problem und habt vielleichte eine einfache Lösung parat. Das wäre super :-)

Ich denke, dass es darauf hinauslaufen wird eine "Lösung" zu finden, bei der sich der Aufwand für die "Lösung" und der händische Anteil in einem gesunden Verhältnis zueinander befinden.

Gruß Gunther