Moin!
Ich bereite gerade einen Seminarvortrag zur automatischen Strukturierung und Extrahierung von Daten aus html-Dateien vor. Gerade bschäftige ich mich mit der Extraktion von Tabellendaten.
Leider machen es Webgestalter mir nicht einfach. Es gibt fast keine Tabelle im Internet, die wie es eigentlich gedacht ist, tabellarische Informationen enthält. Missbrauch fast durchgängig.
Definiere "Mißbrauch". Und definiere zuvor vielmehr, welche Art von Tabellendaten du extrahieren willst.
Dass Tabellen zum Layout _gebraucht_ werden, ist bekannt, seit in HTML Tabellen eingeführt wurden. Du kannst dich also nicht mit Nichtwissen herausreden.
Und deine Aufgabenbeschreibung klingt auch sehr allgemein gehalten. Ich kann mir nun aber beim besten Willen nicht vorstellen, warum man eine automatische Extraktion von beliebigsten Tabellen vornehmen will. Denn selbst wenn Tabellen nur im Sinne ihrer Semantik verwendet würden, müßte dennoch das Tabellenformat irgendwie analysiert werden: Gibts überhaupt einen Tabellenkopf? Wo steht der: Oben drüber, oder links, oder rechts? Welche Daten stehen drin? Was soll man damit anfangen wollen?
All diese Fragen sagen mir, dass eine Analyse der Tabellen, die man extrahieren will, ohnehin notwendig ist. Also auch eine Analyse des zugrundeliegenden Codes.
Das, was Suchmaschinen leisten, ist dagegen recht simpel lösbar: Den Text extrahieren (alle Tags wegschmeißen), und vielleicht die semantisch wertvollen Tags wie <h1> etc. mit einer etwas besseren Relevanzbewertung des enthaltenen Textes belohnen. Da stören Layout-Tabellen absolut nicht.
Ich kann das gar nicht verstehen, denn es gibt sooo viele Möglichkeiten, seine nichttabellarische Daten im Netz zu strukturieren, nicht zuletzt mit div-Containern.
Na toll, dann hast du zwar deine Aufgabe "Finde relevante <table> in Seiten" gelöst, aber der nächste kommt bestimmt und findet das gar nicht gut mit den <div>s. Sind schließlich semantisch auch nur eine Nullinformation - genauso, wie die Tabellen-Tags heute.
Daher mein Aufruf: Baut Eure Seiten doch ein wenig standardkonform auf.
Dass Seiten nicht valide sein können, verschärft dein Problem, klar. Aber valide Seiten sind leider noch eher die Ausnahme, denn die Regel.
Nicht jeder Teeny, der weiß, was der Unterschied zwischen h1 und p ist, ist in meinen Augen gleich Webgestalter.
Das vielleicht nicht, aber er hat zumindest die Kenntnisse, semantische Informationen zu codieren, anstatt alles mit <table> und <font> zu lösen.
Vielleicht war dieser Seufzer aus einer anderen Sparte für Euch ja mal ganz interessant, vielleicht denkt der eine oder andere ja sogar um.
Hah! Wovon träumst du nachts?
- Sven Rautenberg
ss:) zu:) ls:[ fo:} de:] va:) ch:] sh:) n4:# rl:| br:< js:| ie:( fl:( mo:|