Sven Rautenberg: Aufruf: Beendet doch Missbrauch von <table>

Beitrag lesen

Moin!

Ich bereite gerade einen Seminarvortrag zur automatischen Strukturierung und Extrahierung von Daten aus html-Dateien vor. Gerade bschäftige ich mich mit der Extraktion von Tabellendaten.

Leider machen es Webgestalter mir nicht einfach. Es gibt fast keine Tabelle im Internet, die wie es eigentlich gedacht ist, tabellarische Informationen enthält. Missbrauch fast durchgängig.

Definiere "Mißbrauch". Und definiere zuvor vielmehr, welche Art von Tabellendaten du extrahieren willst.

Dass Tabellen zum Layout _gebraucht_ werden, ist bekannt, seit in HTML Tabellen eingeführt wurden. Du kannst dich also nicht mit Nichtwissen herausreden.

Und deine Aufgabenbeschreibung klingt auch sehr allgemein gehalten. Ich kann mir nun aber beim besten Willen nicht vorstellen, warum man eine automatische Extraktion von beliebigsten Tabellen vornehmen will. Denn selbst wenn Tabellen nur im Sinne ihrer Semantik verwendet würden, müßte dennoch das Tabellenformat irgendwie analysiert werden: Gibts überhaupt einen Tabellenkopf? Wo steht der: Oben drüber, oder links, oder rechts? Welche Daten stehen drin? Was soll man damit anfangen wollen?

All diese Fragen sagen mir, dass eine Analyse der Tabellen, die man extrahieren will, ohnehin notwendig ist. Also auch eine Analyse des zugrundeliegenden Codes.

Das, was Suchmaschinen leisten, ist dagegen recht simpel lösbar: Den Text extrahieren (alle Tags wegschmeißen), und vielleicht die semantisch wertvollen Tags wie <h1> etc. mit einer etwas besseren Relevanzbewertung des enthaltenen Textes belohnen. Da stören Layout-Tabellen absolut nicht.

Ich kann das gar nicht verstehen, denn es gibt sooo viele Möglichkeiten, seine nichttabellarische Daten im Netz zu strukturieren, nicht zuletzt mit div-Containern.

Na toll, dann hast du zwar deine Aufgabe "Finde relevante <table> in Seiten" gelöst, aber der nächste kommt bestimmt und findet das gar nicht gut mit den <div>s. Sind schließlich semantisch auch nur eine Nullinformation - genauso, wie die Tabellen-Tags heute.

Daher mein Aufruf: Baut Eure Seiten doch ein wenig standardkonform auf.

Dass Seiten nicht valide sein können, verschärft dein Problem, klar. Aber valide Seiten sind leider noch eher die Ausnahme, denn die Regel.

Nicht jeder Teeny, der weiß, was der Unterschied zwischen h1 und p ist, ist in meinen Augen gleich Webgestalter.

Das vielleicht nicht, aber er hat zumindest die Kenntnisse, semantische Informationen zu codieren, anstatt alles mit <table> und <font> zu lösen.

Vielleicht war dieser Seufzer aus einer anderen Sparte für Euch ja mal ganz interessant, vielleicht denkt der eine oder andere ja sogar um.

Hah! Wovon träumst du nachts?

- Sven Rautenberg

--
ss:) zu:) ls:[ fo:} de:] va:) ch:] sh:) n4:# rl:| br:< js:| ie:( fl:( mo:|
0 128

Aufruf: Beendet doch Missbrauch von <table>

Andreas
  • html
  1. 0
    fastix®
    1. 0
      Andreas
      1. 0
        Maximilian Baumgart
      2. 0
        Christian Seiler
      3. 0
        Alexander
    2. 0
      Christian Seiler
      1. 0
        fastix®
        1. 0
          Christian Seiler
          1. 0
            fastix®
            1. 0
              Cyx23
              1. 0
                fastix®
                1. 0
                  Christian Seiler
                  1. 0
                    fastix®
                    1. 0
                      Christian Seiler
  2. 0

    Aufruf: Beendet doch Missbrauch von HTML

    Cyx23
    1. 0
      Andreas
      1. 0
        Harry
        1. 0
          Dominik
      2. 0
        Alexander
    2. 0
      fastix®
      1. 0
        Christian Seiler
        1. 0
          Andreas
          1. 0
            Christian Seiler
        2. 0
          fastix®
          1. 0
            Christian Seiler
            1. 0
              fastix®
              1. 0
                Christian Seiler
                1. 0
                  fastix®
                  1. 0
                    Cyx23
                    1. 0
                      fastix®
                      1. 0
                        Cyx23
                        1. 0
                          fastix®
                          1. 0
                            Cyx23
                  2. 0
                    Christian Seiler
                    1. 0
                      Tim Tepaße
                      1. 0
                        Christian Seiler
                        1. 0
                          Tim Tepaße
                          1. 0
                            at
                    2. 0
                      fastix®
        3. 0
          molily
      2. 0
        Chräcker Heller
        1. 0
          fastix®
          1. 0
            Chräcker Heller
            1. 0
              molily
              1. 0
                at
    3. 0
      Chräcker Heller
  3. 0
    dbenzhuser
    1. 0
      08/15
      1. 0
        dbenzhuser
      2. 0
        fastix®
        1. 0
          Christian Seiler
        2. 0
          08/15
          1. 0
            fastix®
        3. 0
          dbenzhuser
          1. 0
            at
            1. 0
              dbenzhuser
              1. 0
                at
        4. 0
          Leo T.
      3. 0
        Tim Tepaße
  4. 0
    emu
    1. 0
      at
      1. 0
        emu
        1. 0
          at
  5. 0
    Heiner
    1. 0
      emu
      1. 0
        Heiner
      2. 0
        fastix®
  6. 0
    Chräcker Heller
    1. 0
      at
  7. 0
    Sven Rautenberg
    1. 0
      at
  8. 0

    Beende den Missbrauch von <table> nimm XML

    MatzeA
    1. 0
      Lars T.
      1. 0
        CurtB
        1. 0
          Wilhelm Turtschan
          1. 0
            emu
            1. 0
              Wilhelm Turtschan
              1. 0
                at
                1. 0
                  Wilhelm Turtschan
                  1. 0
                    at
                    1. 0
                      Wilhelm Turtschan
                      1. 0
                        at
                  2. 0
                    Orlando
                    1. 0
                      Wilhelm Turtschan
                      1. 0
                        Orlando
                        1. 0
                          Wilhelm Turtschan
          2. 0
            TomIRL
          3. 0
            CurtB
          4. 0
            at
        2. 0
          at
  9. 0
    molily
  10. 0
    Jan W.
  11. 0
    Alexander
  12. 0
    Stefan Muenz
    1. 0
      molily
      1. 0
        Stefan Muenz
        1. 0
          Tim Tepaße
          1. 0
            Alexander
            1. 0
              at
              1. 0
                Alexander
                1. 0
                  at
                  1. 0
                    Alexander
                2. 0
                  Michael Jendryschik
                  1. 0
                    Alexander
            2. 0
              Michael Jendryschik
              1. 0
                Tim Tepaße
              2. 0
                Alexander
                1. 0
                  Michael Jendryschik
                  1. 0
                    Alexander
                    1. 0
                      Michael Jendryschik
      2. 0
        Michael Jendryschik
    2. 0
      Tim Tepaße
      1. 0
        Stefan Muenz
        1. 0
          Tim Tepaße
    3. 0
      Michael Jendryschik
      1. 0
        Stefan Muenz
        1. 0
          erika
          1. 0
            at
            1. 0
              Stefan Muenz
              1. 0
                at
                1. 0
                  erika
                  1. 0
                    at
                    1. 0
                      erika
                      1. 0
                        at
      2. 0
        molily
  13. 0
    eddie
    1. 0
      Tim Tepaße