Tanja: allgemeiner Satz zu einer Seite

Hallo,
 würde gerne ein kleines Script, welches anhand der Source einer Seite einen möglichst sinnvollen Satz zusammenschnippselt aus den Texten in der Source, der die Seite in einem oder in wenigen Sätzen beschreibt.
Hat sich schonmal jemand Gedanken dazu gemacht oder gibt es irgendwelche Projekte dazu?
Es soll eben nicht so sein, dass "einfach" nur ein beliebiger Satz aus der Source herausgesucht wird und dann so übernommen wird.
Wenn es wirklich nicht anders geht, müsste halt doch wieder das hässliche Prinzip der Keywords herhalten, sodass Standardsätze wie "Dieses Seite behandelt die Themen "..."und befasst sich mit"... etc. aber das ist ja auch nicht das gelbe vom ei, oder?
Danke für Tipps, Erfahrungen, Hinweise.

  1. Hi Tanja,

    könntest Du ein Beispiel dafür posten?

    Gruß

    Hans

  2. Hallo

    würde gerne ein kleines Script, welches anhand der Source einer Seite einen möglichst sinnvollen Satz zusammenschnippselt aus den Texten in der Source, der die Seite in einem oder in wenigen Sätzen beschreibt.
    Hat sich schonmal jemand Gedanken dazu gemacht oder gibt es irgendwelche Projekte dazu?

    Lese die Datei aus, extrahiere aus dem Inhalt den Text und wähle daraus einige Sätze aus, die den Inhalt der Seite beschreiben. Dein Problem dürfte sich dann auf den letzten Punkt beschränken. Denn: Welche der Textteile beschreiben den Inhalt der ganzen Seite hinreichend?

    Es soll eben nicht so sein, dass "einfach" nur ein beliebiger Satz aus der Source herausgesucht wird und dann so übernommen wird.

    Eben, eben. Woher soll das Skript wissen, welche Textteile relevant sind? Dazu müsstest du sie, die Textteile, auf der zu indizierenden Seite markieren. Beispielsweise mit einem <span class="beschreibung">...text...</span>, nach dem/denen du im Suchskript fahndest.

    Wenn es wirklich nicht anders geht, müsste halt doch wieder das hässliche Prinzip der Keywords herhalten, sodass Standardsätze wie "Dieses Seite behandelt die Themen "..."und befasst sich mit"... etc. aber das ist ja auch nicht das gelbe vom ei, oder?

    Wäre auch eine Möglichkeit. Dann lässt du das Skript nach ~~~html

    <meta name="description" content="...text...">

      
    Tschö, Auge  
    
    -- 
    Die Musik drückt aus, was nicht gesagt werden kann und worüber es unmöglich ist zu schweigen.  
    (Victor Hugo)  
      
    [Veranstaltungsdatenbank Vdb 0.1](http://termindbase.auge8472.de/)
    
    1. hallo,
      also herausfinden, was die hauptthemen einer seite sind, würde ich dann wohl so machen, wie es die meisten suchmaschinen machen, nämlich einfach mal schaun, welche (ähnlichen/themenverwandten) wörter häufig oder hervorgehoben vorkommen, wobei title etc natürlich besonders berücksichtigt wird. google machts ja zusätzlich anhand von links; aber übertreiben muss ichs ja nun auch wieder nicht...
      auch wenn meine derzeitige hauptschwierigkeit Euch vielleicht als einfach erscheint bzw. gerade deshalb, frage ich mal nach, wie man einen kompletten satz bzw. die ganzen sätze aus einem laufenden text herausfiltert. man möge dem resultat der anwendung dann vergeben, wenn gramatikalische fehler deshalb darin auftreten, weil z.b. bilder mit alt-tags im text integriert sind. also .(.*?). wäre zwar möglich, aber ich glaube es gibt bessere algorithmen zum herausfiltern von sätzen.
      sind diese getrennt in einem array verfügbar, sollte es ein einfaches sein, diese dadurch auszuwerten, ob sie ein es oder besser noch, mehrere der haupt-keywords enthalten. habt ihr da irgendwas bzw. hat sich denn kein opensource projekt jemals mit sowas beschäftigt?

      1. Hallo

        also herausfinden, was die hauptthemen einer seite sind, würde ich dann wohl so machen, wie es die meisten suchmaschinen machen, nämlich einfach mal schaun, welche (ähnlichen/themenverwandten) wörter häufig oder hervorgehoben vorkommen, wobei title etc natürlich besonders berücksichtigt wird. google machts ja zusätzlich anhand von links; aber übertreiben muss ichs ja nun auch wieder nicht...

        Wenn du deinen Text semantisch aufbaust[1], kannst du natürlich die gewünschten Elemente herausfiltern _und_ auswerten (siehe unten). Wird aber ein nicht unerheblicher Aufwand sein.

        auch wenn meine derzeitige hauptschwierigkeit Euch vielleicht als einfach erscheint bzw. gerade deshalb, frage ich mal nach, wie man einen kompletten satz bzw. die ganzen sätze aus einem laufenden text herausfiltert. man möge dem resultat der anwendung dann vergeben, wenn gramatikalische fehler deshalb darin auftreten, weil z.b. bilder mit alt-tags im text integriert sind. also .(.*?). wäre zwar möglich, aber ich glaube es gibt bessere algorithmen zum herausfiltern von sätzen.

        Einen z.B. einleitenden Textteil als Teaser zu markieren[1] (Ein oder mehrere Absätze, oder ein Satz innerhalb eines Absatzes im <span>, mit einer Klasse) um ihn per Skript wiederzufinden und auf der Startseite auszugeben sollte möglich sein. Dies eventuell kombiniert mit der Auswertung von <title>, <h1> und <meta name="description" ...>. Wobei sich die nächte Frage ergibt:

        Sollen alle Seiten bei jedem Aufruf der Startseite neu ausgelesen werden um den Text zu extrahieren und den Link abzubilden? Oder werden die Texte in einer DB vorgehalten, aus der heraus auch die Startseite gefüttert wird.

        sind diese getrennt in einem array verfügbar, sollte es ein einfaches sein, diese dadurch auszuwerten, ob sie ein es oder besser noch, mehrere der haupt-keywords enthalten.

        Nach dem Ausfiltern von "Nebenwörtern" wie "und", "oder", "der", "die", "das" etc. pp., ja. Eine solche (Negativ)Liste muss dann aber auch erstellt und (zur Verfeinerung der Funktion) gepflegt werden.

        [1] Ich gehe hier immer davon aus, dass du Inhalte _deiner_ Seite auf deiner Startseite (als Beispiel) ausgeben willst.

        Tschö, Auge

        --
        Die Musik drückt aus, was nicht gesagt werden kann und worüber es unmöglich ist zu schweigen.
        (Victor Hugo)
        Veranstaltungsdatenbank Vdb 0.1
    2. Hi!

      Lese die Datei aus

      Lese bitte mal diesen Beitrag.

      Gruß
      Bernhard

      1. Hi!

        Lese die Datei aus

        Lese bitte mal diesen Beitrag.

        Ich muss anfügen, dass ich soeben bemerkt habe, dass du jenen Beitrag schon gelesen haben musst, da du sonst wohl nicht drauf antworten hättest können.

        Ich hätte also schreiben müssen:

        Lese bitte diesen Beitrag nochmal.

        Gruß
        Bernhard

      2. Hallo Bernhard,

        Lese bitte mal diesen Beitrag.

        Das wird nichts bringen, denn dort wurden bereits alle Korinthen geerntet.

        Grüße
         Roland

  3. Hallihallo!

    Das ist aber mal ein _sehr_ ehrgeiziges Projekt...
    Ich denke leider, daß es nicht so einfach möglich ist, denn dafür müsste Dein "Programm" schon eine echte Intelligenz besitzen.

    Die einzige Chance, die ich sehe, wäre das Auswerten von semantisch relevanten Stellen im Markup der betroffenen Seiten, also Überschriften, evtl. noch "strong"- Teile.

    Aber das geht, wenn überhaupt, nur mit semantisch korrekt aufgebauten Seiten, baut also auf einer Voraussetzung auf, die nur in den allerwenigsten Fällen gegeben ist. Meist verlassen sich die Seitenersteller ja nur auf die visuelle Erfassung der Inhalte durch einen menschlichen Leser, packen also entweder Alles in eine Layout- Tabelle (ich weiß, das ist verpönt, wird aber leider immer noch praktiziert..), oder bestenfalls in eine semantisch ausdruckslose Div- Suppe.
    Wenn man es also wirklich zuverlässig haben wollte, bräuchte man zur maschinellen Auswertung einer HTML- Seite also einen kompletten Renderer _und_ eine Möglichkeit, optische Eindrücke maschinell zu erfassen.

    Ich halte das zwar prinzipiell für technisch möglich, aber Denjenigen würde ich gerne sehen, der wahnsinnig genug wäre, das wirklich umzusetzen.

    Fazit: Es wird wohl kaum anders machbar sein, als sich auf die Meta- Angaben zu beziehen[1], oder die Inhalte manuell zu pflegen[2]

    Viele liebe Grüße,
    Der Dicki

    [1] kann man sich eigentlich auch nicht drauf verlassen, weil zuviel Schindluder damit getrieben wird.
    [2] Der Mensch übernimmt die Aufgabe, die wichtigen Inhalte zu erkennen und zusammenzufassen.

  4. Hallo,

    Wenn es wirklich nicht anders geht, müsste halt doch wieder das hässliche Prinzip der Keywords herhalten, sodass Standardsätze wie "Dieses Seite behandelt die Themen "..."und befasst sich mit"... etc. aber das ist ja auch nicht das gelbe vom ei, oder?

    Falls das auf die Startseite soll, ists nicht das gelbe. Besser ists, den Besucher direkt anzusprechen:

    Lieber Besucher, hier finden Sie dies und das...

    Und teaser verwenden um auf bestimme Themen hinzuweisen:

    http://www.google.de/search?hl=de&q=teaser&meta=

    Gruß, Rolf

  5. Hey,

    würde gerne ein kleines Script, welches anhand der Source einer Seite einen möglichst sinnvollen Satz zusammenschnippselt aus den Texten in der Source, der die Seite in einem oder in wenigen Sätzen beschreibt.
    Hat sich schonmal jemand Gedanken dazu gemacht oder gibt es irgendwelche Projekte dazu?

    ja. http://search.cpan.org/dist/Lingua-EN-Summarize Der Safaribrowser hat die Funktion schon eingebaut. http://google.com/mac?q=safari+summarize

    1. Hallo

      würde gerne ein kleines Script, welches anhand der Source einer Seite einen möglichst sinnvollen Satz zusammenschnippselt aus den Texten in der Source, der die Seite in einem oder in wenigen Sätzen beschreibt.
      Hat sich schonmal jemand Gedanken dazu gemacht oder gibt es irgendwelche Projekte dazu?
      ja. http://search.cpan.org/dist/Lingua-EN-Summarize Der Safaribrowser hat die Funktion schon eingebaut. http://google.com/mac?q=safari+summarize

      Was nützt ihr die Funktion des Safari, wenn sie offensichtlich einen serverseitigen Mechanismus sucht, relevante Auszüge ihrer, nennen wir es Artikel, auf der Startseite anzuzeigen?

      Tschö, Auge

      --
      Die Musik drückt aus, was nicht gesagt werden kann und worüber es unmöglich ist zu schweigen.
      (Victor Hugo)
      Veranstaltungsdatenbank Vdb 0.1
      1. Hey,

        Was nützt ihr die Funktion des Safari, wenn sie offensichtlich einen serverseitigen Mechanismus sucht

        diese ist mit dem ersten Link gegeben. Der zweite war eine Gratisdreingabe zweckverwandter Technologie.

        1. Hallo

          Was nützt ihr die Funktion des Safari, wenn sie offensichtlich einen serverseitigen Mechanismus sucht
          diese ist mit dem ersten Link gegeben. Der zweite war eine Gratisdreingabe zweckverwandter Technologie.

          Ahja, mit einem Punkt nach dem Link zu CPAN wäre auch mir klar geworden, dass das "Safarigedöns" erst dahinter beginnt.

          Leider falsche Sprache.

          Tschö, Auge

          --
          Die Musik drückt aus, was nicht gesagt werden kann und worüber es unmöglich ist zu schweigen.
          (Victor Hugo)
          Veranstaltungsdatenbank Vdb 0.1