HTML -> Klartext
Tom
- html
Hello,
ich benötige mal einen Tipp von Euch.
Die Informationsvielfalt im Internet ist ja genial, aber wenn man dann wieder alles abtippen muss, um die Daten in eine DB zu bekommen, ist es nervig.
Beispiel: http://www.calsky.com/lexikon/de/txt/l/li/liste_der_landkreise_in_deutschland.php
Ich benötige die Tabelle in einer DB
Gibt es nicht ein universelles Werkzeug, mit dessen Hilfe man HTML-Texte wieder in strukturierte Datenformen zurückverwandeln kann?
Jedes Mal was zu programmieren, kann es doch auch nicht sein. Word und Excel versagen da auch oft.
In diesem Fall konnte Word mir helfen. das klappt aber nicht immer.
Harzliche Grüße aus http://www.annerschbarrich.de
Tom
Hi,
Beispiel: http://www.calsky.com/lexikon/de/txt/l/li/liste_der_landkreise_in_deutschland.php
Ich benötige die Tabelle in einer DB
Markieren, Kopieren, OpenOffice Calc neues Spreadsheet, einfügen
klappt eigentlich bei allen Tabellen. Hängt vielleicht auch vom Browser ab - ich hab nen Gecko: Firefox
Wenn Du die Schriftformatierung loswerden willst: erst noch in einen geeigneten Texteditor (z.B. Textpad) einfügen und dort wieder rauskopieren.
Gibt es nicht ein universelles Werkzeug, mit dessen Hilfe man HTML-Texte wieder in strukturierte Datenformen zurückverwandeln kann?
Nö. Weil die Struktur in jedem HTML-Dokument anders ist.
cu,
Andreas
Hello,
Markieren, Kopieren, OpenOffice Calc neues Spreadsheet, einfügen
klappt eigentlich bei allen Tabellen. Hängt vielleicht auch vom Browser ab - ich hab nen Gecko: Firefox
Wenn Du die Schriftformatierung loswerden willst: erst noch in einen geeigneten Texteditor (z.B. Textpad) einfügen und dort wieder rauskopieren.
Den Weg über Textpad bin ich eben auch gegangen, wenn in der gesamten Tabelle (in Word) noch wieder was aus dem Internet eingefügt werden musste.
Es müsste doch möglich sein, so einen "Dokument-Grabber" zu automatisieren.
Ich habe z.B. noch dutzende von Wirtschaftsdatenbanken auszuwerten.
Innerhalb einer DB haben die ja immer wiederkehrende Strukturen, leider aber mit varianten Satzaufbauten. Aber irgendwelche Kriterien im HTML-Code könnten ja identisch sein...
Harzliche Grüße aus http://www.annerschbarrich.de
Tom
Innerhalb einer DB haben die ja immer wiederkehrende Strukturen, leider aber mit varianten Satzaufbauten. Aber irgendwelche Kriterien im HTML-Code könnten ja identisch sein...
Tom,
HTML ist nunmal dafür gemacht, Inhalte in Browserfenstern anzeigen zu lassen, und nicht dafür, Inhalte semantisch auszuzeichnen.
Gunnar
Hi,
Aber irgendwelche Kriterien im HTML-Code könnten ja identisch sein...
natürlich - als tabellarische Daten werden sie wohl in einer Tabelle stecken. Ein Programm müßte nur hingehen und die Tabellenstrukturen analysieren. Vermutlich müßte es bereits ausreichen, bei Tabellenlayouts nur die innersten Tabellen zu berücksichtgen. Die enthaltenen Zeilen und Spalten könnten dann mit den gewünschten Trennzeichen formatiert ausgegeben werden. Falls es sowas nicht schon gibt, sollte sich der Aufwand es selbst zu programmieren in Grenzen halten.
freundliche Grüße
Ingo
Jedes Mal was zu programmieren, kann es doch auch nicht sein. Word und Excel versagen da auch oft.
In diesem Fall konnte Word mir helfen. das klappt aber nicht immer.
da tabellen ja einen wiederkehrenden regelmäßigen aufbau haben, sollte es ausreichen, den quelltext durch einen parser zu jagen. dies könnte ein regex sein, welcher ggfls. angepaßt werden muß.
Hello,
da tabellen ja einen wiederkehrenden regelmäßigen aufbau haben, sollte es ausreichen, den quelltext durch einen parser zu jagen. dies könnte ein regex sein, welcher ggfls. angepaßt werden muß.
Das habe ich schon einmal probiert. Aber die Erkennung der Ausnahmeregeln ist recht kompliziert.
Die Satzaufbauten sind leider meistens variant. Natürlich sind Muster vorhanden, sonst würde man die als Mensch ja auch nicht erkennen können und die Straße als Vornamen ansehen (falls Du verstehst, was ich damit meine).
Aber manche Datensätze haben mehrere Ansprechpartner, bei einem steht dann noch die Handy-Nummer dabei, der andere ist mit Adresse, der nächste ohne angegeben usw.
Manchmal sind auch Zusatzinformationen vorhanden...
Wenn es so einfach wäre, wie Du schreibst, hätte ich es schon fertig. Da die Problemlösung aber eher an Petry erinnert, wollte ich das nicht unbedingt selbst erfinden.
Harzliche Grüße aus http://www.annerschbarrich.de
Tom
Die Satzaufbauten sind leider meistens variant. Natürlich sind Muster vorhanden, sonst würde man die als Mensch ja auch nicht erkennen können und die Straße als Vornamen ansehen (falls Du verstehst, was ich damit meine).
wenn die 'tabelle' keine TABLE TR TD /TD /TR /TABLE - HTML tabelle ist, kann man auch schlecht mit regex arbeiten.
Aber manche Datensätze haben mehrere Ansprechpartner, bei einem steht dann noch die Handy-Nummer dabei, der andere ist mit Adresse, der nächste ohne angegeben usw.
Manchmal sind auch Zusatzinformationen vorhanden...
Wenn es so einfach wäre, wie Du schreibst, hätte ich es schon fertig. Da die Problemlösung aber eher an Petry erinnert, wollte ich das nicht unbedingt selbst erfinden.
dann hilft wohl nur noch, aus den nackten daten etwas sinnvolles zu erkennnen. hierfür die menschlichen entscheidungskriterien als programmlogik einzusetzen scheint tatsächlich etwas aufwendig.