Gunnar Bittersmann: Logische vs. semantische Auszeichnung

Hallo,
Hier im Forum ist öfter zu lesen, man solle den Text mit HTML semantisch korrekt auszeichnen. Welche Semantik aber steckt in HTML-Elementen? Antwort: Gar keine.

Ein Beispiel: <h1>Queen Elizabeth II. schlägt Tim Berners-Lee zum Ritter</h1>

h1 zeichnet die Textpassage als Überschrift aus. Das aber ist nur die Funktion in der Struktur des Dokuments, nicht die Bedeutung dessen. Es geht daraus weder hervor, dass QE2 und Tim Berners-Lee Personen sind, noch welche Beziehung zwischen ihnen besteht. Genau das aber wäre Semantik.*

HTML zeichnet logisch aus, nicht semantisch.

Selbst hinter dem address-Element verbirgt sich nicht wirklich Semantik: Es könnte der Name des Autors, seine Postadresse, E-Mail, Telefon- oder Faxnummer drinstehen. (Oder das Element zur Darstellung in Kursivschrift missbraucht worden sein.)

Um wirklich Semantik ins Web zu bringen, bedarf es Topic Maps, RDF, OWL, ... http://www.w3.org/2001/sw/

Gunnar

* Was Bedeutung ohne Semantik bedeutet, muss noch gedeutet werden ;-)
  Fußnote aus http://www.sigs.de/publications/js/2004/01/dostal_JS_01_04.pdf--
"(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
(Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")

  1. Hallo,

    Welche Semantik aber steckt in HTML-Elementen? Antwort: Gar keine.
    h1 zeichnet die Textpassage als Überschrift aus. Das aber ist nur die Funktion in der Struktur des Dokuments, nicht die Bedeutung dessen.

    Doch, HTML kennzeichnet die Bedeutung der einzelnen Elemente in der Struktur des Dokuments und somit auch die Bedeutung des Elementinhaltes in Bezug zu anderen Elementinhalten.
    Bsp.:
    __________________________________

    bla
    ble
    bli
    bla bla bla bla bla bla bla b
    la bla bla bla bla bla bla bla
    __________________________________

    <h1>bla</h1>
    <h2>ble</h2>
    <h3>bli</h3>
    <p>bla bla bla bla bla bla bla b
    la bla bla bla bla bla bla bla</p>
    __________________________________

    <ul>
     <li>bla</li>
     <li>ble</li>
     <li>bli</li>
     <li>bla bla bla bla bla bla bla b
    la bla bla bla bla bla bla bla</li>
    </ul>
    __________________________________

    <ul>
     <li>bla</li>
     <li>ble</li>
     <li>bli</li>
    </ul>
    <p>bla bla bla bla bla bla bla b
    la bla bla bla bla bla bla bla</li>
    </p>
    __________________________________

    <ul>
     <li>bla
      <ul>
       <li>ble</li>
       <li>bli</li>
      </ul>
     </li>
     <li>bla bla bla bla bla bla bla b
    la bla bla bla bla bla bla bla</li>
    </ul>
    __________________________________

    <h1>bla</h1>
    <h2>ble</h2>
    <dl>
     <dt>bli</dt>
     <dd>bla bla bla bla bla bla bla b
    la bla bla bla bla bla bla bla</dd>
    </dl>
    __________________________________

    Du wirst zugeben, _jede_ HTML-Auszeichnung hat eine eigene Bedeutung, auch, wenn man den Textinhalt _nicht_ versteht.

    viele Grüße

    Axel

    1. Doch, HTML kennzeichnet die Bedeutung der einzelnen Elemente in der Struktur des Dokuments und somit auch die Bedeutung des Elementinhaltes in Bezug zu anderen Elementinhalten.

      Axel,
      HTML kennzeichnet die Struktur des Dokuments, nicht die Bedeutung (Semantik) von Textpassagen.

      Du kannst mit h1 einen Teaser auszeichnen und im Text was inhaltlich völlig anderes schreiben. Wo ist da irgendwelche "Bedeutung in Bezug zu anderen Elementinhalten"?

      Gunnar

      --
      "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
      (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
      1. Hallo Gunnar,

        HTML kennzeichnet die Struktur des Dokuments, nicht die Bedeutung (Semantik) von Textpassagen.
        Du kannst mit h1 einen Teaser auszeichnen und im Text was inhaltlich völlig anderes schreiben. Wo ist da irgendwelche "Bedeutung in Bezug zu anderen Elementinhalten"?

        In meinem ersten Posting habe ich dargestellt, dass _alleine_ durch HTML Bedeutung in Form von Beziehungen unterschiedlicher Elemente zueinander kommuniziert werden kann. Einmal wird ein Textabsatz, welcher zu einer Überschrift 3. Ordnung gehört, dargestellt. Ein anderes Mal handelt es sich um vier gleichwertige Aufzählungspunkte. Dann wieder sind drei Aufzählungspunkte, gefolgt von einem Textabsatz, zu sehen usw.

        Diese Zusammenhänge haben eine Bedeutung, die _unabhängig_ von der Bedeutung der Elementinhalte ist. Dass natürlich die Elementinhalte möglichst einer sprachlichen Semantik folgen sollten, wenn sie verstanden werden sollen, ist eine andere Sache. Man kann aber eben auch _ohne_ sprachliche Semantik, alleine aus bla, bli, blu und einigen HTML-Tags _mehr_ erkennen als aus bla, bli, blu alleine. Die HTML-Tags transportieren also Information, verringern also die Anzahl der Interpretationsmöglichkeiten, haben also eine Bedeutung.

        viele Grüße

        Axel

        1. Moin!

          Die HTML-Tags transportieren also Information, verringern also die Anzahl der Interpretationsmöglichkeiten, haben also eine Bedeutung.

          Aber welche?

          Die Bedeutungen "Überschrift, die ich nicht verstehe", "Textabsatz, den ich nicht verstehe" und "Aufzählung, die ich nicht verstehe" sind ein bisschen wenig, um tatsächlich von einem echten Vorteil gegenüber "Textkonglomerat, das ich nicht verstehe" sprechen zu können.

          - Sven Rautenberg

          1. Hallo,

            Die Bedeutungen "Überschrift, die ich nicht verstehe", "Textabsatz, den ich nicht verstehe" und "Aufzählung, die ich nicht verstehe" sind ein bisschen wenig, um tatsächlich von einem echten Vorteil gegenüber "Textkonglomerat, das ich nicht verstehe" sprechen zu können.

            Der Meinung bin ich nicht. "Überschrift, die ich nicht verstehe", "Textabsatz, den ich nicht verstehe" und "Aufzählung, die ich nicht verstehe" haben einen höheren Informationsgehalt als "Textkonglomerat, das ich nicht verstehe". Sie verringern die Ungewissheit von "Textkonglomerat, das ich nicht verstehe" eben durch die Informationen "Überschrift", "Textabsatz" und "Aufzählung".

            Es ging darum, ob HTML eine Semantik hat, nicht darum, wie diese im Vergleich zur sprachlichen Semantik einzustufen ist. Sicherlich ist bei Textdokumenten die Wertigkeit der sprachlichen Semantik höher.

            viele Grüße

            Axel

            1. Es ging darum, ob HTML eine Semantik hat, nicht darum, wie diese im Vergleich zur sprachlichen Semantik einzustufen ist.

              Nein Axel,
              Was du ansprichst, ist die Semntik innerhalb der Sprache HTML. Worüber ich spreche, ist die Semantik des Dokumentinhalts. Zwei völlig andere Ebenen.

              Gruß,
              Gunnar

              --
              "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
              (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
  2. Hallo Gunnar,

    h1 zeichnet die Textpassage als Überschrift aus. Das aber ist nur die
    Funktion in der Struktur des Dokuments, nicht die Bedeutung dessen. Es geht > daraus weder hervor, dass QE2 und Tim Berners-Lee Personen sind, noch welche
    Beziehung zwischen ihnen besteht. Genau das aber wäre Semantik.*

    Das heißt, wenn ich Dich richtig verstehe, Dein Hauptargument ist, daß das
    bißchen Semantik zur Textstrukturierung vernachlässigbar ist, weil nicht
    jedes Wort mit zusätzlicher »maschinenlesbarer« (1) Semantik ausgestattet
    ist?

    (1) »maschinenlesbar« ist hier mit Vorsicht zu genießen, da die Semantik
        von h1 nur eine menschliche Konvention ist, deren Umsetzung in Programmen
        nicht auf ein Verständnis sondern nur auf eine Verarbeitung darstellt.
        Wie auch anders?

    Tim

    --
    Computer werden sich eh nie durchsetzen.
    1. Das heißt, wenn ich Dich richtig verstehe, Dein Hauptargument ist, daß das
      bißchen Semantik zur Textstrukturierung vernachlässigbar ist,

      Nein, Tim. Was ich sage ist, dass Struktur und Semantik eines Dokuments was völlig anderes ist. HTML beschreibt das eine - die Struktur -, nicht jedoch das andere - die Semantik.

      Eine Analogie: Jemand liest dir einen Text auf Chinesisch* vor, macht nach jedem Satz eine kleine Pause, nach jedem Absatz eine etwas längere. Damit kennst du die Struktur des Textes, aber wieviel hast du von seiner Bedeutung (Semantik) verstanden?

      Gunnar

      * Wenn du zufällig chinesisch sprichst: Suaheli, klingonisch, elbisch, ...

      --
      "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
      (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
  3. Hi Gunnar,

    Ein Beispiel: <h1>Queen Elizabeth II. schlägt Tim Berners-Lee zum Ritter</h1>

    Die Kennzeichnung h1 fügt dem Textstück im Kontext der Seite die Bedeutung "besonders wichtig hinzu". Da diese Bedeutung im Browser aber nicht als Text angezeigt wird, setzt dieser dies durch eine bestimmte Formatierung um. Man könnte das Tag also als Aufforderung verstehen, die gekennzeichnete Textpassage in besonderer Weise zu formatieren.

    Eben dies wird von den Form-vs.-Inhalt-Adepten aber als falsches Verständnis des Tags und seiner Funktion bezeichnet. Die Formatierung sei allein Sache von CSS.

    In gewissem Maße ist das richtig: Welche Formatierung das Tag h1 tatsächlich erzeugt, hängt von vielen Faktoren ab. Nun könnte man etwas offener formulieren.

    Das Tag h1 sollte mit einer Formatierung verbunden werden, die den Text
    a) fetter und/oder größer als den von h2 usw. und p darstellt
    b) ihn alternativ auf andere Weise hervorhebt, die seine besondere Bedeutung für die Seite vermittelt.

    Eine konsequente Fortführung der völligen Trennung von Form und Inhalt kann sich damit aber nicht zufrieden geben. Hier müsste es heißen:

    Der Tag h1 kennzeichnet einen Textabschnitt "semantisch" als besonders wichtig, kann aber beliebig formatiert werden, etwa in der gleichen Farbe und Größe wie der Fließtext.

    Auf der Oberfläche der Website wäre aber dadurch die Bedeutung nicht mehr dargestellt. Die volllständige Trennung von Form und Inhalt bewirkt im Medium Internet also eine Inhaltsentleerung des Tags.

    Was dem Form-ohne-Inhalt-Ansatz m.E. fehlt ist ein Bewusstsein über den Zusammenhang von Form und Inhalt, auch in der natürlichen Sprache. Bedeutung vermittelt sich nicht nur durch die Summe lexikalischer Wortbedeutungen im Satz oder Text, sondern wird durch syntaktische Regeln, Textzusammenhänge und Ausdrucksformen gemeinsam bestimmt, im geschriebenen Text wesentlich auch durch Formate.

    Was tatsächlich Sinn der Form-und-Inhalt-Debatte sein könnte, wäre es, einen festen Zusammenhang bestimmter Formate mit bestimmten, gleichen Inhalten festzulegen. In der technischen Beschreibung einer Programmiersprache müssten Befehle, Parameter und Syntax in jeweils immer gleicher Weise dargestellt werden. Die Gleichheit bedeutet dabei nicht, dass es immer das gleiche Format sein müsste, sondern dass jedes Sprachelement typisiert werden muss und dass die Einheit dieser Typen durch einheitliche Formate darzustellen wäre.

    Nun ist es eine Illusion zu glauben, die dafür verwendbaren Formate seien beliebig, man könne etwa eine Überschrift sinnvoll dadurch kennzeichnen, dass man sie in der gleichen Farbe und Schriftart, aber kleiner formatierte als gewöhnlichen Fließtext. Erfolgreiche grafische Strukturierung von Dokumenten beruht wie jede Kommunikation auf Konventionen und Erwartungen.

    Solche Konventionen kennen wir intuitiv alle. Dennoch sind sie wissenschaftlich schwer zu erfassen. Ich nenne mal ein einfaches, altes Beispiel aus dem Bereich der Semantik der natürlichen Sprache: Man hat etwa versucht, die Trennlinie zwischen den Begriffen "Tasse" und "Becher" zu erfassen, indem man systematisch geometrische Formen erzeugt hat, die zwischen einer eindeutig (von allen muttersprachlichen Probanden) als Tasse und einer eindeutig als Becher identifizierten Form variieren. Es zeigen sich hier ein Kernbereich von Formen, die eindeutig der einen oder anderen semantischen Kategorie zugeordnet werden können, und ein diffuser Zwischenbereich, in dem muttersprachliche Probanden zu verschiedenen Urteilen kommen.

    h1 zeichnet die Textpassage als Überschrift aus. Das aber ist nur die Funktion in der Struktur des Dokuments, nicht die Bedeutung dessen. Es geht daraus weder hervor, dass QE2 und Tim Berners-Lee Personen sind, noch welche Beziehung zwischen ihnen besteht. Genau das aber wäre Semantik.*

    Nein. Auch die Bedeutung ("Dies ist eine Überschrift") gehört zur Semantik.

    HTML zeichnet logisch aus, nicht semantisch.

    Das ist ein interessanter Gedanke. Angesichts der Bedeutungsarmut der HTML-Tags gemessen an der Vielfalt der damit strukturierten Texte könnte man diesen Gedanken weiterentwickeln und ihre Strukturierungsfunktion gegenüber der semantischen Funktion hervorheben. Tatsächlich sind die Tags in diesem Sinne angewandt dennoch nicht bedeutungsleer.

    Selbst hinter dem address-Element verbirgt sich nicht wirklich Semantik: Es könnte der Name des Autors, seine Postadresse, E-Mail, Telefon- oder Faxnummer drinstehen. (Oder das Element zur Darstellung in Kursivschrift missbraucht worden sein.)

    Semantik bedeutet nicht, dass Begriffe mathematisch exakt nur einen konkreten Gegenstand bezeichnen dürfen.

    Um wirklich Semantik ins Web zu bringen, bedarf es Topic Maps, RDF, OWL, ...

    Über XML ist es möglich, Tags mit höherem Bedeutungsgehalt zu generieren. Ein Problem bleibt, dass dies erfolgreich nur in Bezug auf streng kategorisierte Inhalte, also etwa die Inhalte von Tabellen, erfolgreich umsetzbar ist. Aber auch hier zeigen sich in der Praxis Probleme: Wer schon einmal mit umfangreichen Datenbanken gearbeitet hat, weiß, dass sich die Wirklichkeit nicht immer so ohne weiteres in Tabellenform darstellen lässt, auch wenn ich immer noch davon träume, mal etwas darüber zu schreiben, in welchem Umfang die Form der Datenerfassung Einfluss auf unser Denken und unsere Wirklichkeitswahrnehmung, sogar auf die Wirklichkeit selber genommen hat.

    Viele Grüße
    Mathias Bigge

    --
    http://aktuell.de.selfhtml.org/tippstricks/index.htm
    "Jemanden zu lieben ist die Ausnahme, nicht zu lieben die Regel. Wenn man diese Regel beachtet, könnte man einen ersten Schritt ins Glück tun."
    <img src="http://www.vfz.de/vfz_daten/studenten/jpg/DSC00696.jpg" border="0" alt="">
    1. Die Kennzeichnung h1 fügt dem Textstück im Kontext der Seite die Bedeutung "besonders wichtig hinzu".

      Mathias,
      Damit weißt du, DASS das Stück Text Bedeutung hat, aber nicht, WELCHE.

      Der Tag h1 kennzeichnet einen Textabschnitt "semantisch" als besonders wichtig,

      Mir scheint, wir haben verschiedene Deutungen der Bedeutung von "Semantik".

      Viele Grüße
      Gunnar

      --
      "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
      (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
      1. Hallo,

        Damit weißt du, DASS das Stück Text Bedeutung hat, aber nicht, WELCHE.

        die Vorstellungen des semantic web und dessen Maschinenlesbarkeit zielen wohl erstmal auf einfache Beziehungen ab.
        Eine übliche traditionelle Bedeutung oder Funktion einer Überschrift kann die einer Inhaltsangabe sein.
        Draus ergibt sich die vermutete Wichtigkeit und die Beziehung zum weiteren Inhalt.

        Mir scheint, wir haben verschiedene Deutungen der Bedeutung von "Semantik".

        Warum sollte es nicht verschiedene Bedeutungen von "Semantik" geben?

        Grüsse

        Cyx23

        1. Eine übliche traditionelle Bedeutung oder Funktion einer Überschrift kann die einer Inhaltsangabe sein.

          Funktion - ja. Bedeutung - nein. Mit der Auszeichnung als Überschrift sagst du gar nichts über die Bedeutung des Textes in ihr aus.

          "Her computer would not know what to make of the information, which to its eyes would be no more intelligible than <H1>blah blah</H1> <BOLD>blah blah blah</BOLD>. As programming legend Brian Kernighan once noted, the problem with 'What You See Is What You Get' is that what you see is all you've got." [1]

          HTML ist eben nicht dazu da, semantisch auszuzeichnen, sondern die Struktur eines Dokuments darzustellen: dies ist eine Überschrift, jenes ein Absatz, dort eine Hervorhebung. WAS da hervorgehoben wird, wird mit HTML nicht ausgedrückt. Semantik wäre:

          "Use tags that say what the information is, not what it looks like. For example, label the parts of an order for a shirt not as boldface, paragraph, row and column--what HTML offers--but as price, size, quantity and color. A program can then recognize this document as a customer order and do whatever it needs to do: display it one way or display it a different way or put it through a bookkeeping system or make a new shirt show up on your doorstep tomorrow." [1]

          Das führt zum Semantic Web, wie von Tim Berners-Lee et al. in [2] beschrieben.
          Gunnar

          [1] Jon Bosak and Tim Bray: XML and the Second-Generation Web. Scientific American 1999-05. http://www.sciam.com/article.cfm?articleID=0008C786-91DB-1CD6-B4A8809EC588EEDF&sc=I100322

          [2] Tim Berners-Lee, James Hendler and Ora Lassila: The Semantic Web. Scientific American 2001-05. http://www.sciam.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21&sc=I100322

          --
          "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
          (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
          1. Hallo nochmal,

            offenbar bestehst du immer noch auf einer eigenwilligen Interpretation von "Semantic". Schon WARUM da hervorgehoben wird, wird mit HTML eben doch ausgedrückt, bei Berners-Lee ist die Rede von "semantic web language".

            Dein Zitat "Use tags that say what the information is, not what it looks like." meint hier den Unterschied zwischen "Überschrift" und "Gross".

            Logische Auszeichnung, um dir entgegenzukommen, ist hier eine Voraussetzung (oder ein Teil) von Semantik. http://www.w3.org/DesignIssues/Logic.html "The Semantic Web as a language of logic"

            Dein Zitat "'What You See Is What You Get' is that what you see is all you've got." stimmt mit meiner Auffasung (z.B. von Semiotik) überein, wonach bei Webseiten das Ergebnis als Werk betrachtet und interpretiert werden muß. Mit der Konsequenz dass natürlich Layout auch Inhalt ist (oder sein kann).

            Grüsse

            Cyx23

            1. offenbar bestehst du immer noch auf einer eigenwilligen Interpretation von "Semantic".

              Hallo,
              Meine ist wohl anders als deine. In dem Konzept "Überschrift" (h1) steckt für mich keine Semantik. Und für einen Webagenten auf der Suche nach Informationen auch nicht.

              Schon WARUM da hervorgehoben wird, wird mit HTML eben doch ausgedrückt,

              bl<em>a</em>h - Wo bitte wird ausgedrückt, warum das A hervorgehoben wird?

              bei Berners-Lee ist die Rede von "semantic web language".

              Womit er eben nicht HTML meint, sondern XML, RDF, OWL.

              Dein Zitat "Use tags that say what the information is, not what it looks like." meint hier den Unterschied zwischen "Überschrift" und "Gross".

              Nein, keineswegs. Du hast das Zitat nicht zuende gelesen, oder? Denn im nächsten Satz heißt es (ich übersetz das mal): "Benenne die Teile einer Bestellung eines Hemds nicht als fettgedruckt, Absatz, Spalte und Zeile - was HTML anbietet - sondern als Preis, Größe, Anzahl und Farbe."

              Nochmal auf der Zunge zergehen lassen: HTML bietet an: fettgedruckt, Absatz, Spalte und Zeile. Physische und logische Auszeichnung - mehr nicht. Keinerlei Hinweis, WAS das Ausgezeichnete BEDEUTET. Also keine semantische Auszeichnung.

              http://www.w3.org/DesignIssues/Logic.html "The Semantic Web as a language of logic"

              Logik heißt nicht logische Auszeichnung, sondern künstliche Intelligenz von Webagenten, Informationen im (Semantic) Web zu finden, wenn diese SEMANTISCH ausgezeichnet sind - was HTML nicht bieten kann.

              Grüße,
              Gunnar

              --
              "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
              (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
              1. Hallo,

                ich hatte allerdings den Transfer auf HTML gemacht. Das was Berners-Lee (und W3C) mit semantischem Web gemeint hat dürfte -allerdings auch mit einigen sehr allgemein gehaltenen Formulierungen- u.a. auf XML als Mittel abzielen, welche Einschränkungen sich daraus für den Sprachgebrauch von semantisch ergeben können ist mir allerdings unklar.
                "HTML semantisch korrekt auszeichnen" versus "HTML logisch korrekt auszeichnen", "HTML bedeutungsrichtig auszeichnen" != "HTML semantisch korrekt auszeichnen"? Eine Semantik der Wörter der Sprache HTML gibt es nicht, "Semantisch" ist reserviert für spachwissenschaftliche Betrachtungen? Oder ein Konflikt wie beim Programmieren, Videorekorder ja, HTML nein?
                Voraussetzungen dass die künstliche Intelligenz von Webagenten Informationen im Web findet sind Bedeutung und Kontext von Wörtern, Semantik, (und oder..) h1-Tag. Den Vorgang würde ich trotz deiner Vorbehalte wohl immer noch als "semantisch" verstehen.

                Grüsse

                Cyx23

                1. "HTML semantisch korrekt auszeichnen"

                  Mit der Formulierung kann ich leben. Sehr gut. Natürlich haben die Elemente innerhalb HTML eine Semantik. h1 BEDEUTET Überschrift.

                  Das ist aber was ganz anderes als "mit HTML den Inhalt eines Dokuments semantisch auszeichnen". Das meinte ich mit den verschiedenen Ebenen in https://forum.selfhtml.org/?t=86366&m=511029.

                  Voraussetzungen dass die künstliche Intelligenz von Webagenten Informationen im Web findet sind Bedeutung und Kontext von Wörtern, Semantik,

                  Ja.

                  (und oder..) h1-Tag.

                  Nein.

                  Gruß,
                  Gunnar

                  --
                  "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
                  (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
                  1. Hallo Gunnar,

                    "HTML semantisch korrekt auszeichnen"

                    Mit der Formulierung kann ich leben. Sehr gut. Natürlich haben die Elemente innerhalb HTML eine Semantik. h1 BEDEUTET Überschrift.

                    Das ist aber was ganz anderes als "mit HTML den Inhalt eines Dokuments semantisch auszeichnen". Das meinte ich mit den verschiedenen Ebenen in https://forum.selfhtml.org/?t=86366&m=511029.

                    das Problem kann ja noch weiter gehen, z.B. wenn auch noch der Inhalt der Überschrift auf die Anforderungen a la Semantic Web abgestimmt wird.

                    Deine strenge Sichtweise würde wohl darauf hinauslaufen dass es Massnahmen gibt die Bedeutungsebenen von HTML auf die inhaltlichen Bedeutungsebenen abzustimmen, dass diese Massnahmen den Forderungen nach einem Semantic Web folgen, die Ziele eines Semantic Web (wenn vielleicht auch in geringem Umfang) erfüllen und dann doch damit nichts zu tun haben weil die Beziehungen der Bedeutungen von HTML und dem damit ausgezeichnetem Text zu gering wären.

                    Voraussetzungen dass die künstliche Intelligenz von Webagenten Informationen im Web findet sind Bedeutung und Kontext von Wörtern, Semantik,

                    Ja.

                    (und oder..) h1-Tag.

                    Nein.

                    Der h1-Tag macht aber eben doch einen Unterschied für die künstliche Intelligenz von Webagenten Informationen zu finden, und zwar auf der Bedeutungsebene. Die Bedeutung von h1 nur als eine Frage der Seitenstruktur zu sehen scheint mir nicht ausreichend, und das Beispiel adress-Tag hattest du ja schon selbst betrachtet. Semantik wäre da nach deiner Sichtweise "Fax/Birne" oder "URI/Apfel", aber nicht "adress/Obst"?

                    Grüsse

                    Cyx23

                    1. Deine strenge Sichtweise würde wohl darauf hinauslaufen dass es Massnahmen gibt die Bedeutungsebenen von HTML auf die inhaltlichen Bedeutungsebenen abzustimmen,

                      Cyx23,
                      Nein. Keine Chance.

                      dass diese Massnahmen den Forderungen nach einem Semantic Web folgen, die Ziele eines Semantic Web (wenn vielleicht auch in geringem Umfang) erfüllen und dann doch damit nichts zu tun haben weil die Beziehungen der Bedeutungen von HTML und dem damit ausgezeichnetem Text zu gering wären.

                      HTML ist nicht dafür gedacht, ein semantisches Web zu weben. Dafür braucht man andere Mittel.

                      Gunnar

                      --
                      "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
                      (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
                      1. Hallo.

                        HTML ist nicht dafür gedacht, ein semantisches Web zu weben.

                        Yep.

                        Dafür braucht man andere Mittel.

                        Nope. Warum muss "nicht dafür gedacht" denn gleich "ungeeignet" heißen? Anwendungen wie http://www.apple.com/macosx/features/sherlock/ funktionieren doch schon heute auf genau dieser Basis.
                        MfG, at

                  2. Hallo,

                    "HTML semantisch korrekt auszeichnen"

                    Mit der Formulierung kann ich leben. Sehr gut. Natürlich haben die Elemente innerhalb HTML eine Semantik. h1 BEDEUTET Überschrift.

                    Das ist aber was ganz anderes als "mit HTML den Inhalt eines Dokuments semantisch auszeichnen".

                    Wer fordert denn das? Gefordert ist, den Inhalt des Dokumentes mit syntaktisch und semantisch korrektem HTML auszuzeichnen. Also eben _nicht_

                    <div id="Head">
                     <div class="logo"><img src="logo" alt="Logo"></div>
                     <div class="headerText">Firmenname<div>
                    </div>
                    <div id="Body">
                     <div class="headerMain">Hauptüberschrift</div>
                     <div class="paragraph">Fließtextabsatz... </div>
                     <div class="list">
                       1. Aufzählungspunkt<br>
                       2. Aufzählungspunkt<br>
                       3. Aufzählungspunkt<br>
                     </div>
                    </div>

                    und dann noch zu behaupten, man habe ja nur strikt Inhalt und Layout trennen wollen.

                    Und ich bin _immer noch_ der Meinung, dass das obige HTML durch die entsprechenden korrekten HTML-Elemente an Bedeutung gewinnen würde, also mehr Bedeutung hätte, als die DIV-Suppe da oben.

                    viele Grüße

                    Axel

                    1. "mit HTML den Inhalt eines Dokuments semantisch auszeichnen".
                      Wer fordert denn das?

                      Na eben niemand. Weil HTML eben nicht semntisch auszeichnet. Sag ich doch die ganze Zeit.

                      <div class="headerText">Firmenname</div>

                      Aber auch mit <h1>Firmenname</h1> sagst du nichts darüber, dass in der Überschrift ein Firmenname steht. Das interpretierst du (u.a. Menschen) nur so.

                      Und ich bin _immer noch_ der Meinung, dass das obige HTML durch die entsprechenden korrekten HTML-Elemente an Bedeutung gewinnen würde, also mehr Bedeutung hätte, als die DIV-Suppe da oben.

                      Der Meinung bist du; ein Webagent nicht. Für den ist
                        <div>A<br>B<br>C</div>
                      genauso bedeutungsleer wie
                        <ul>
                          <li>A</li>
                          <li>B</li>
                          <li>C</li>
                        </ul>
                      weil er nicht weiß, was A, B und C _bedeuten_. (Er weiß vielleicht, was ul und li bedeuten, aber das ist was ganz anderes. Mir geht ja gerade um die Semantik des Inhaltes.)

                      Ist die Liste A, B, C eine Aufzählung gleichartiger Objekte (rotes T-Shirt, grünes T-Shirt, blaues T-Shirt) oder verschiedener Eigenschaften eines Objekts (Farbe rot, Größe XL, Zustand schmutzig)?

                      Ein Browser muss das nicht wissen; er soll die Liste ja nur darstellen, nicht interpretieren. Das tut der Mensch, und dann bekommen A, B und C wieder ihre Bedeutung, auch ohne semantische Auszeichnung. Aufgrund menschlicher Intelligenz und Konventionen ist sie für Sender und Empfänger (im Idealfall) die gleiche.

                      Ist der Empfänger aber kein Mensch, sondern eine Maschine (Webagent), muss die Bedeutung mitgeteilt werden -- durch semantische Auszeichnung. Das kann -- und soll -- HTML nicht leisten.

                      Gunnar

                      --
                      "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
                      (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
                      1. Hallo Gunnar,

                        Der Meinung bist du; ein Webagent nicht. Für den ist
                          <div>A<br>B<br>C</div>
                        genauso bedeutungsleer wie
                          <ul>
                            <li>A</li>
                            <li>B</li>
                            <li>C</li>
                          </ul>
                        weil er nicht weiß, was A, B und C _bedeuten_. (Er weiß vielleicht, was ul und li bedeuten, aber das ist was ganz anderes. Mir geht ja gerade um die Semantik des Inhaltes.)

                        nein. Der Webagent kann schon etwas mehr "wissen", z.B. wie du selbst schreibst:

                        Ist die Liste A, B, C eine Aufzählung gleichartiger Objekte (rotes T-Shirt, grünes T-Shirt, blaues T-Shirt) oder verschiedener Eigenschaften eines Objekts (Farbe rot, Größe XL, Zustand schmutzig)?

                        Damit ist der Webagent schon besser informiert als bei <div>A<br>B<br>C</div>.

                        Ein Browser muss das nicht wissen; er soll die Liste ja nur darstellen, nicht interpretieren. Das tut der Mensch, und dann bekommen A, B und C wieder ihre Bedeutung, auch ohne semantische Auszeichnung. Aufgrund menschlicher Intelligenz und Konventionen ist sie für Sender und Empfänger (im Idealfall) die gleiche.

                        Die "semantische Auszeichnung" macht die Beziehungen eben unabhängiger von Konventionen.

                        Ist der Empfänger aber kein Mensch, sondern eine Maschine (Webagent), muss die Bedeutung mitgeteilt werden -- durch semantische Auszeichnung. Das kann -- und soll -- HTML nicht leisten.

                        Zunächst mal sind "ist nicht dafür gedacht" oder "kann -- und soll -- nicht leisten" schwache Argumente. Ein Automobil ist nicht dafür gedacht schneller als Pferdewagen zu fahren, das kann -- und soll -- die Motorisierung nicht leisten.

                        Warum soll es heute keine Suchmaschinen oder Lesesoftware  geben? Etwa weil eine andere Vorgehensweise bei HTML als die von Auszeichnungsschaltern mit <b>, also eher Objektorientiert und ggf. semantisch unterstützend <strong> usw., womöglich in einem Artikel über Sematic Web nicht genannt ist?

                        Wenn du aber meinst der Begriff "Semantic Web" müsse abgegrenzt werden, wären vielleicht eher historische Begründungen geeignet als HTML-Tags die mögliche Bedeutungsebene grundsätzlich absprechen zu wollen.

                        Grüsse

                        Cyx23

                        1. <ul>
                              <li>A</li>
                              <li>B</li>
                              <li>C</li>
                            </ul>

                          Damit ist der Webagent schon besser informiert als bei <div>A<br>B<br>C</div>.

                          Er weiß, es ist eine Liste mit drei Einträgen. Toll.
                          Er hat keinen Schimmer, _was_ in der Liste drinsteht.

                          Warum soll es heute keine Suchmaschinen oder Lesesoftware  geben?

                          Natürlich gibt es Suchmaschinen, nur sind die nicht intelligent. Sie können nur nach Zeichenfolgen suchen, haben aber keine Ahnung, was diese _bedeuten_.

                          Stell dir vor, Personen würden als solche _semantisch_ ausgezeichnet sein (vergiss HTML), dann wäre es möglich, dass "an intelligent search program can sift through all the pages of people whose name is 'Cook' (sidestepping all the pages relating to cooks, cooking, the Cook Islands and so forth)." [1]

                          Du erahnst den Unterschied, ob Frau Cook als Person oder als Listeneintrag auszeichnet ist?

                          Wenn du aber meinst der Begriff "Semantic Web" müsse abgegrenzt werden, wären vielleicht eher historische Begründungen geeignet als HTML-Tags die mögliche Bedeutungsebene grundsätzlich absprechen zu wollen.

                          HTML-Elemente haben ihre Bedeutung nur zur Beschreibung der _Struktur_ einer Webseite, aber nicht zur Beschreibung des _Inhalts_.

                          "Das WWW mit Browsern als clientseitiges Endgerät ist auf direkte Interaktion eines vernunftbegabten Akteurs mit einer Anwendung ausgerichtet. Die Bedeutung einer Web-Seite entsteht im Kopf des Akteurs. Die Seitenbeschreibungssprache -- HTML -- muss lediglich Informationen übermitteln, auf welche Art eine übermittelte Information dargestellt werden soll. Dazu muss der Browser nicht 'wissen' bzw. ableiten können, was die dargestellte Information bedeutet. Syntaktische Information, wie dies ist eine Überschrift auf dem Level 1 (<H1>) reichen aus." [2]

                          Gruß,
                          Gunnar

                          PS. Die Links dürfen durchaus als Lesetips verstanden werden.

                          [1] Tim Berners-Lee, James Hendler and Ora Lassila: The Semantic Web. Scientific American 2001-05. http://www.sciam.com/article.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21&sc=I100322

                          [2] Wolfgang Dostal und Mario Jeckle: Semantik, Odem einer Service-orientierten Architektur. Java Spektrum 1/2004. http://www.jeckle.de/semanticWebServices/intro.html

                          --
                          "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
                          (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
                          1. <ul>
                                <li>A</li>
                                <li>B</li>
                                <li>C</li>
                              </ul>

                            Damit ist der Webagent schon besser informiert als bei <div>A<br>B<br>C</div>.

                            Er weiß, es ist eine Liste mit drei Einträgen. Toll.
                            Er hat keinen Schimmer, _was_ in der Liste drinsteht.

                            @Gunnar, da (ohne Auslassungsmarkierung gekürztes Zitat, falscher Bezug zum Posting, immer keine Antworten auf bestimmte Fragen) fehlt leider einiges. Da dir die daraus entstehenden logischen Lücken offenbar als Argumentationshilfe dienen und du gleichzeitig vielen Fragen ausweichst, bleibt als Konsequenz nur auf die "Kommunikation" mit dir zu verzichten, somit bzgl. deiner Postings hier im Thread vom mir ein EOT.

                            Ansonsten:

                            Zum Thema gibt es genug Beispiele wie strong adress cite dl del ins, auch Table, wenn in einer Tabelle Apfel Birne Kirsche und Jojo untereinanderstehen, wird die Bedeutung von Jojo verändert usw. usw.. Ob und wie eine Abgrenzung zum Schlagwort "semantic web" nötig ist ist m.E. bislang nur ansatzweise diskutiert worden, vielleicht möchte sich ja noch jemand dazu äussern?

                            Grüsse

                            Cyx23

                            1. Cyx23,
                              Du willst nicht verstehen, dass HTML weder mit semantischer Auszeichnung noch mit dem Semantic Web zu tun hat? (https://forum.selfhtml.org/?t=86366&m=513019)

                              Ich beschäftige mich erst seit einem halben Jahr intinsiver mit dem Semantic Web. Wenn du meinst, alles besser zu wissen, kann ich dir nicht helfen.
                              Gunnar

                              --
                              "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
                              (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
      2. Hallo Gunnar,

        Wenn mman einen Text formatiert, so kann man das natürlich so  tun, dass es nichts mit der Bedeutung des Textes zu tun hat.
        Üblicherweise wird man ihn aber so formatieren, dass die gewünschte Aussage unterstüzt wird. So kann man allein durch die Formatierung z.b. Gewichtungen setzen. Die Formatierung enthält also selbst einen kleinen aber nicht unwesentlichen Teil der Semantik geschriebener Sprache, so wie es Betonung, Gestik usw. bei gesprochener Sprache tun.
        Dieser Teil der Semantik wird mit HTML festgelegt.

        Dies auf einer abstrakten Ebene durch Angabe der Gliederung und nicht auf einer konkreten Ebene durch Angabe der Formatierung zu tun, ist allein deshalb sinnvoll, weil das Dokument dadurch auf unterschiedlichste Weise darstellbar ist. Natürlich ist eine Darstellung nicht beliebig, aber es gibt dennoch sehr viele angemessene Darstellungen für die selbe Struktur. Deswegen verstehe ich auch Mathias' Plädoyer gegen semantische Auszeichnung nicht ganz.

        Grüße

        Daniel

      3. Hi Gunnar,

        ich habe nochmal über Deine Argumente nachgedacht.

        Der Tag h1 kennzeichnet einen Textabschnitt "semantisch" als besonders wichtig,
        Mir scheint, wir haben verschiedene Deutungen der Bedeutung von "Semantik".

        Vielleicht liegen unsere Auffassungen doch relativ nahe beieinander, auch ich halte die gegebenen HTML-Tags für ungeeignet, Texte semantisch zu strukturieren. Was mir an Deiner Argumentation nicht gefallen hat, ist vielleicht nur eine Ungenauigkeit in Deiner Argumentation: Du sprichst dem Tag <h1> jede Bedeutung ab, was ich für nachweisbar falsch halte, während Du eigentlich nur sagen willst, dass diese Bedeutung keinen qualitativ ausreichenden Bezug zum damit gekennzeichneten Inhalt hat, um einen inhaltlichen Bezug zwischen Tag und Inhalt herzustellen und damit Grundlage eines semantischen Webs zu sein. Habe ich das richtig verstanden?

        Viele Grüße
        Mathias Bigge

        1. Du sprichst dem Tag <h1> jede Bedeutung ab, was ich für nachweisbar falsch halte, während Du eigentlich nur sagen willst, dass diese Bedeutung keinen qualitativ ausreichenden Bezug zum damit gekennzeichneten Inhalt hat, um einen inhaltlichen Bezug zwischen Tag und Inhalt herzustellen und damit Grundlage eines semantischen Webs zu sein. Habe ich das richtig verstanden?

          Ja, Mathias.

          h1 hat eine Bedeutung zur Auszeichnung der Struktur einer Webseite (was HTML macht).
          h1 hat keine Bedeutung zur Auszeichnung des Inhalts einer Webseite (wofür HTML auch nicht da ist).

          Es ist IMHO richtig sagen, h1 (und nicht div) wäre das semantisch richtige Element, um eine Überschrift auszuzeichnen. Denn das bezieht sich auf die Semantik von HTML, nicht des Dokumentinhalts.

          Es ist IMHO falsch zu sagen, h1 (oder HTML allgemein) würde ein Dokument semantisch auszeichnen.

          Ich hab in diesem Thread sicher auch nicht immer die richtige Formulierung dessen gefunden, was ich ausdrücken wollte. In https://forum.selfhtml.org/?t=86366&m=512062 schrieb ich, Suchmaschinen seien nicht intelligent. Hm, sie sind schon verdammt clever, aus Millionen von Webseiten ohne semantische Auszeichnung etwas rauszuholen.

          Gruß,
          Gunnar

          --
          "(Der Student) kann sich so völlig dem hingeben, was er naiv für die Computerwissenschaft hält, also der bloßen Verfeinerung seiner Programmiertechniken, daß er sich auf diese Weise effektiv daran hindert, etwas wirklich Wesentliches zu studieren."
          (Joseph Weizenbaum in "Die Macht der Computer und die Ohnmacht der Vernunft")
  4. Hallo.

    Welche Semantik aber steckt in HTML-Elementen? Antwort: Gar keine.

    Dann fangen wir doch einfach mal bei Adam und Eva an:
    1. HTML-Elemente sind Zeichen im Sinne der Kommunikationstheorie.
    2. Die Lehre von den Zeichen innerhalb der Kommunikationslehre ist die Semiotik.
    3. Die Semiotik befasst sich mit der
    a) Syntaktik,
    b) Semantik und der
    c) Pragmatik von Zeichen.
    4. Die Semantik befasst sich mit dem Verhältnis des Zeichens zum Bezeichneten.
    5. Das Verhältnis eines Zeichens zum Bezeichneten manifestiert sich als Ikon, Index, Symbol oder Ausdrucksqualität.
    6. Ein Ikon bildet das Bezeichnete ab. Maßgeblich hierfür ist der Ikonizitätsgrad respektive sein Gegenteil, der Abstraktionsgrad.
    7. Ein Index verweist auf das Bezeichnete. Oft erfolgt dies als Folgerelation nach dem Ursache/Wirkung-Prinzip.
    8. Ein Symbol steht steht stellvertetend und ohne direkten Bezug für das Bezeichnete.
    9. Die Grundlage der Symbolbildung bilden:
    a) die Arbitrarität,
    b) die Konventionalität und
    c) die Assoziativität.
    10. Ausdrucksqualitäten bewirken Emotionen.
    Fazit: Wenn du unter Sematik ausschließlich ein Ikon oder mit viel Phantasie noch ein Index verstehst, liegt das Problem nicht auf der Ebene von HTML, sondern darin, dass du -- ich drücke es einmal vorsichtig aus: -- das Umfeld und dem Umfang der Semantik nicht vollständig überblickt hast. Das solltest du schleunigst nachholen, wenn du darüber ernsthaft diskutieren möchtest.
    MfG, at