Der Dicki: allgemeiner Satz zu einer Seite

Beitrag lesen

Hallihallo!

Das ist aber mal ein _sehr_ ehrgeiziges Projekt...
Ich denke leider, daß es nicht so einfach möglich ist, denn dafür müsste Dein "Programm" schon eine echte Intelligenz besitzen.

Die einzige Chance, die ich sehe, wäre das Auswerten von semantisch relevanten Stellen im Markup der betroffenen Seiten, also Überschriften, evtl. noch "strong"- Teile.

Aber das geht, wenn überhaupt, nur mit semantisch korrekt aufgebauten Seiten, baut also auf einer Voraussetzung auf, die nur in den allerwenigsten Fällen gegeben ist. Meist verlassen sich die Seitenersteller ja nur auf die visuelle Erfassung der Inhalte durch einen menschlichen Leser, packen also entweder Alles in eine Layout- Tabelle (ich weiß, das ist verpönt, wird aber leider immer noch praktiziert..), oder bestenfalls in eine semantisch ausdruckslose Div- Suppe.
Wenn man es also wirklich zuverlässig haben wollte, bräuchte man zur maschinellen Auswertung einer HTML- Seite also einen kompletten Renderer _und_ eine Möglichkeit, optische Eindrücke maschinell zu erfassen.

Ich halte das zwar prinzipiell für technisch möglich, aber Denjenigen würde ich gerne sehen, der wahnsinnig genug wäre, das wirklich umzusetzen.

Fazit: Es wird wohl kaum anders machbar sein, als sich auf die Meta- Angaben zu beziehen[1], oder die Inhalte manuell zu pflegen[2]

Viele liebe Grüße,
Der Dicki

[1] kann man sich eigentlich auch nicht drauf verlassen, weil zuviel Schindluder damit getrieben wird.
[2] Der Mensch übernimmt die Aufgabe, die wichtigen Inhalte zu erkennen und zusammenzufassen.