Pedro: Selfsuche- Indexerzeugung?

Hallo an alle,

ich habe mal ne frage: die selfhtml-Suche enthält viele suchoptionen (autor...). Wie funktioniert die Indexierung? Muss  man die werte manuell in eine db eintragen, gibt es ein user-interface oder sogar eine automatische indiezierung?

Lässt sich das script gegebenenfalls auch downloaden?

gruß Pedro

  1. HI Pedro,

    die selfhtml-Suche enthält viele suchoptionen (autor...).
    Wie funktioniert die Indexierung?

    das Format der Indexdatei ist ganz primitiv - im Prinzip CSV, nur eben
    nicht mit Kommata getrennt, sondern mit senkrechten Strichen (in der
    Hoffnung, daß in realen Texten keine senkrechten Striche vorkommen -
    eine Design-Entscheidung aus den Gründertagen).

    Es gibt eine Reihe verschiedener Arten von Dokumenten, welche mehr oder
    weniger sinnvolle Werte für die einzelnen Felder liefern können.

    Beim Forum-Archiv ist das relativ einfach - an dem orientiert sich das
    Format der Indexdatei ja, die Postings können zu allen Feldern sinnvolle
    Werte liefern.
    Bei anderen Dokumenten, etwa den Feature-Artikeln oder SelfHTML selbst,
    ist das etwas knifliger - da wird für bestimmte Felder (Name, Datum)
    ggf. ein Wert durch den Indexer eingesetzt werden müssen.

    Muss  man die werte manuell in eine db eintragen,
    gibt es ein user-interface oder sogar eine automatische indiezierung?

    Es gibt für jedes Dokument-Format ein eigenes Perl-Skript, das manuell
    gestartet aus dem vorliegenden Datenbestand eine Indexdatei berechnet.
    Bei den Feature-Artikeln macht man diese Indexierung ja nur alle paar
    Monate mal, bei SelfHTML eher noch seltener.

    Anders ist das mit dem Forum. Eigentlich müßte jeder thread, der vom
    Schwanzabschneider ins Archiv ausgelagert wird, sofort geindext werden.
    Dieses Bindeglied zwischen beiden Produkten ist aber nie geschrieben
    worden. Deshalb läuft auf dem Server irgendwann in den frühen Morgen-
    stunden ein cron-Job, der das Auslagerungsergebnis eines Tages indext
    und die entsprechende Archiv-Indexdatei vergrößert.
    Es dauert also ggf. einen Tag, bis ein archiviertes Posting suchbar ist.
    Das sorgt hier im Forum immer mal wieder für Verwunderung ... es ist
    halt eine offene Baustelle, und keines der beiden Produkte wird weiter
    entwickelt werden, da es zu beidem seit Monaten (wenn nicht Jahren ;-)
    Nachfolgeprojekte gibt.

    Lässt sich das script gegebenenfalls auch downloaden?

    Da mußt Du Dich an die Redaktion wenden.
    Das Skript war nie als eigenständiges Produkt geplant - ursprünglich
    war es ein Teil des Forums, die Idee mit dem Indexen der übrigen
    Dokumentformate ist erst später dazu gekommen

    Ein Problem ist sicher auch die Philosophie der Treffer-Einheiten.
    Das, was die Self-Suche als Ergebnisse liefert, sind nicht etwa Links
    auf Dokumente, sondern Links auf "Kapitel" - die Treffer werden so genau
    gesetzt wie nur möglich. Dies wiederum bedeutet aber, daß jeder Indexer
    eine ganz eigene Vorstellung davon haben muß, was an einem Dokument
    ein "Artikel" ist - und dieses Wissen ist ziemlich heftig in diese
    Indexer eingebrannt.

    Die Suche ist also definitiv nicht ohne erhebliche Änderungen für be-
    liebige andere Einsatzzwecke brauchbar. Das Funktionsprinzip natürlich
    schon - aber in dieser Hinsicht ist FDSE sehr viel eher das, was Du
    haben möchtest.

    Viele Grüße
          Michael

    1. »ok,

      ich danke dir :-)

      Gruß Pedro