Frank Bergermann: Suche nach Forums-Archiv 2002 fehlt

In der Suche kann man ja auch innerhalb der Archive suchen lassen.
Die Option für dieses Jahr (2002) fehlt.

Für eine Suche von Hand ist die Beitragsanzahl schon zu groß geworden, besonders wenn man unabhängig vom Beitrags-Titel suchen möchte.

  1. Hallo Frank

    In der Suche kann man ja auch innerhalb der Archive suchen lassen.
    Die Option für dieses Jahr (2002) fehlt.

    Für eine Suche von Hand ist die Beitragsanzahl schon zu groß geworden, besonders wenn man unabhängig vom Beitrags-Titel suchen möchte.

    eine Website in der Größe und mit dem Angebot von SELFaktuell benötigt im Schnitt 2-4 professionelle Redakteure.
    Da das niemand bezahlen kann und für lau keiner 8 Stunden jeden Tag arbeitet, auch Stefan nicht, denn von irgendwas muß er leben,
    läuft hier alles nach dem großen I- Prinzip.

    Übersetzt:

    Du willst was, also mach es selbst.

    Ich beglückwünsche dich. Du bist der erste Gewinner des großen I-s in diesem Jahr.

    Du hast die Initiativstrafe für das Archiv 2002 gewonnen.

    Hände schüttel, freude strahl

    viele Grüße

    Antje

    PS: äh, indexer 2001 zu optimieren steht noch aus, machst du gleich so nebenbei mit oder?

    1. Ich weiß ja nicht, wie die Suche organisiert ist, normalerweise läuft so etwas automatisch ab. Dann müßte eine zusätzliche Zeile für das Jahr 2002 im angezeigten Formular und ebenso im cgi-Script http://selfsuche.teamone.de/cgi-bin/such.pl völlig ausreichen.

      Da dies sowieso irgendwann erfolgt, wäre jetzt, wo 2002 schon begonnen hat, der rechte Zeitpunkt.

      1. Hallo Frank, <-- Anrede

        Dann müßte eine zusätzliche Zeile für das Jahr 2002 im angezeigten Formular und ebenso im cgi-Script http://selfsuche.teamone.de/cgi-bin/such.pl völlig ausreichen.

        tja, wenn du eh schon das Kochrezept dafür hast, dann mach's doch einfach ;-)

        Nicht nur immer - rumsitzen - mitnehmen was sich grad bietet - und wenn's der Markt grad nicht hergibt unhöflich rumnölen ...

        Wie schon gesagt wurde: wenn dir etwas (evtl. nur für dich Lebenswichtiges) in diesem SelfRaum fehlt, dann steuer es doch bei ...

        Diese Community lebt von der Mitarbeit aller, wobei sich "Mitarbeit" nicht unbedingt nur auf "mal schnell ne Frage beantworten" oder auf "ich will haben" bezieht. Helfende Hände werden bei solch einem Projekt immer gebraucht, also nun mal "Licht an's Knie und mach das mit der Suche im Jahr 2002 mal eben.

        Gruß   <-- Gruß
        der_bernd

        1. Ihr seid mir Schlaumeier.

          Wenn sich der CGI-Code anzeigen ließe, hätte ich das längst getan und die 2 Zeilen geändert.
          Darauf hat aber nur der Betreiber Zugriff, alle anderen bekommen nur HTML angezeigt.

          Spamt gefälligst nicht das Forum mit abfälligem Müll.

          1. Die nachstehend eindeutig identifizierte Lebensform

            Name                 : Frank_______________
            Vorname              : Bergmann____________

            ist hiermit für den Zeitraum von

            [_]  6 Monaten
                    [_] 12 Monaten
                    [_] 24 Monaten
                    [x] unbefristet

            davon befreit, etwas zu merken, d.h. wesentliche
            Verhaltensänderungen bei der Interaktion mit denkenden Wesen zu
            zeigen. Die Einstufung der o.a. Person nach dem amtlichen Index
            für Merkbefreiungen liegt bei dem Äquivalent von

            [_] einem Mensaessen vom Vortag
                    [_] drei Hartkeksen in löslichem Kaffee
                    [_] einer Kiste Schwarzbrot in Dosen
                    [x] einem Quadratmeterstück Torfmoos während einer
                        sechswöchigen Sommerdürre
                    [_] einem Container erodiertem Sandstein
                        (Streusandqualität)

            Die ausgesprochene Merkbefreiung erlischt mit dem Ablauf des

            [_] __.__.19__
                    [_] __.__.20__
                    [x] der vollständigen Erosion der körperlichen
                        Bestandteile der o.a. Lebensform

            und gilt, sofern die o.a. Lebensform durch das nachstehende
            Kennzeichen als merkbefreit zu identifizieren ist:

            [x] eine rote Plastiknase
                    [_] olives Stoffstück mit weißem Rand, auf der Schulter
                        zu tragen
                    [_] die Lebensform ist durch den Gesichtsausdruck
                        zweifelsfrei als unbefristet merkbefreit zu
                        erkennen.

            Die o.a. Lebensform ist durch den Erwerb dieses
            Merkbefreiungsscheins automatisch für die folgenden Tätigkeiten
            qualifiziert:

            [_] Markierungshütchen bei Abmarkierungsarbeiten auf
                        Bundesautobahnen
                    [_] Garderobenständer und Regenschirmständer in
                        Restaurants bis zu, aber nicht eingeschlossen, 3
                        Sterne
                    [_] Regelstab in Schwerwasserreaktoren
                    [_] Markierungsstab für das Fahrwasser im Nationalpark
                        Wattenmeer
                    [_] Landschaftsmerkmal/Orientierungshilfe in der Wüste
                        Gobi
                    [x] dem grossen I

            Die Merkbefreiung für die o.a. Lebensform wurde in einem
            öffentlichen Merkbefreiungsverfahren ausgesprochen und ist nach
            Ablauf der Einspruchsfrist von 17 Sekunden rechtskräftig.

            Datum         Unterschrift  Dienstsiegel

            Stirnabdruck des Merkbefreiten

            Diese Merkfreiung wurde elektronisch erstellt und ist deswegen
            nicht unterschrieben.

            PS. Nicht böse sein :-)

            1. Verhaltensänderungen bei der Interaktion mit denkenden Wesen zu
              zeigen.

              Mit anderen Worten: allen nach dem Mund reden, Ja-Sager-Tum, ... :-)


              Insgesamt: :-)

              1. Hallo, zusammen!

                Mit anderen Worten: allen nach dem Mund reden, Ja-Sager-Tum, ... :-)

                Da haben wir ihn, den Elch! Seine Merkmale:

                1.) Schön
                2.) Stark
                3.) Mutig

                Seine Gesetze:

                § 1 Seine Kritik wird gehört
                § 2 Seine Kritik ist berechtigt
                § 3 Wenn das nicht der Fall sein sollte, sind alle anderen Jasager, Weicheier und Warmduscher.

                Und so sieht er aus:

                [img:http://members.tripod.com/Astrid2412/img/bp_rotflmao.jpg]

                File Griese,

                Stonie

                1. Ähhh, so sieht er aus:

                  <img src="http://members.tripod.com/Astrid2412/img/bp_rotflmao.jpg" border=0 alt="">

                  Stefan Einspender ist schuld! *GRINS*

                  File Griese,

                  Stonie

          2. Hallo Frank,

            Ihr seid mir Schlaumeier.

            wenn Du damit meinst, dass viele der Leute hier im Forum sich sehr
            gut auf versch. Gebieten auskennen, dann hast Du da sicher recht
            und danke für das Kompliment.

            Wenn sich der CGI-Code anzeigen ließe, hätte ich das längst getan und die 2 Zeilen geändert.

            [ ] Du hast </?m=12308&t=2171> gelesen und verstanden.

            Spamt gefälligst nicht das Forum mit abfälligem Müll.

            es ist nicht Dein Forum, es ist nicht das Forum, es ist UNSER Forum.
            So, wenn Du Dich jetzt ausgegrenzt fühlst, dann verschwinde.

            Hier noch etwas, was wirklich für Dich ganz persönlich gilt,
            hoffentlich verstehst Du es:

            <img src="/images/12.gif" width=320 height=240 border=0 alt="ZU DIESEM FORUM">

            Viele Grüße,
            Stefan

            1. [ ] Du hast </?m=12308&t=2171> gelesen und verstanden.

              Beantwortung erfolgt entsprechend der zeitlicher Reihenfolge.

              1. [ ] Du hast </?m=12308&t=2171> gelesen und verstanden.

                Beantwortung erfolgt entsprechend der zeitlicher Reihenfolge.

                Ist klar, vermutlich hast Du mindestens 19 Minuten gebraucht um
                Deine Gedanken in Worte zu fassen und Deinen Müll hier abzuladen.

                EOT

          3. Liebe Gemeinde,

            Kraft des mir verliehenen Amtes!

            Vorwurf:

            <img src="/images/10.gif" width=224 height=119 border=0 alt="??!%${">

            Verstoß gegen:

            <img src="/images/11.gif" width=419 height=273 border=0 alt="Die elf Gebote des SELF-Forums">

            Strafe:

            http://www.bitwelt.de validieren

            Androhung bei Wiederholung:

            http://validator.w3.org/check?uri=http://www.bitwelt.de/

            Fazit:

            <img src="/images/01.gif" width=419 height=119 border=0 alt="Für dein Problem gibt es nur eine Lösung: SELFmade von Selbermachen.">

            LG Orlando

            *rotfl* -> </?m=12317&t=2171>

            1. Hallo,

              na ich habe erst letzte Woche als Schöffe bei Richter Orlando ange-
              fangen, da kann sowas schonmal passieren:

              http://validator.w3.org/check?uri=http://www.bitwelt.de/

              Entschuldigung, kommt nicht wieder vor ;-)

              http://validator.w3.org/check?uri=http%3A%2F%2Fwww.bitwelt.de%2F

              Da wäre noch die Sache in Stonie's Posting, tut mir auch schrecklich
              leid, der kleine Fehler ;-)

              Viele Grüße,
              Stefan

              1. Hi,

                http://validator.w3.org/check?uri=http%3A%2F%2Fwww.bitwelt.de%2F

                Der "Validierer" bemeckert (außer den Original-Meta-Tags und des Original-Menüs, die aus mehreren Gründen unverändert bleiben sollen) die Reihenfolge der HTML-Tags in den JavaScript-Strings, obwohl diese Zeilen ausdrücklich per HTML-Kommentar ausgenommen wurden. Also ziemlich sinnlos.

                Weiterhin werden die Frame-Angaben bemeckert, da nicht der DocType "Frameset" gesetzt ist. Sollte im Original-Menü ggf. geändert werden, liegt nicht in meiner Macht, sondern in Ansgars.

                Da der Live-Anteil des Menüs aus JavaScript besteht und der Validierer damit nicht zurechkommt, ist sein Einsatz dafür leider sinnlos.

                Ansonsten sind die Seiten IE + NS4 + NS6 + Opera5 getestet, obwohl bei der Monopolstellung IE praktisch ausreichen würde (dies will ich aber niemals fördern).
                Nur das Frontpage-Animations-js muß noch auf NS6 aktualisiert werden, aber da es nur Effekte betrifft, hat dies keinen Vorrang.

                Viele Grüße

                Frank

                1. http://validator.w3.org/check?uri=http%3A%2F%2Fwww.bitwelt.de%2F

                  Der "Validierer" bemeckert (außer den Original-Meta-Tags und des Original-Menüs, die aus mehreren Gründen unverändert bleiben sollen) die Reihenfolge der HTML-Tags in den JavaScript-Strings, obwohl diese Zeilen ausdrücklich per HTML-Kommentar ausgenommen wurden. Also ziemlich sinnlos.

                  Daß du die Fehler nicht verstehst, dafür kann der "Validierer" nichts.

                  http://www.w3.org/TR/html401/appendix/notes.html#h-B.3.2

                  Da der Live-Anteil des Menüs aus JavaScript besteht und der Validierer damit nicht zurechkommt, ist sein Einsatz dafür leider sinnlos.

                  Machst du immer andere für deine Fehler verantwortlich?

                  1. http://www.w3.org/TR/html401/appendix/notes.html#h-B.3.2

                    Dort geht es um Scripts, die nicht per <!-- ... //--> auskommentiert wurden. Klar, daß dort z. B. alle HTML-Endtags </...> geschrieben werden sollen, um nicht direkt als HTML interpretiert zu werden. Aber bei komplett per <!-- ... //--> auskommentierten Scripts ist das überflüssig. Der Validierer darf den Inhalt von Kommentaren nicht anmeckern. Innerhalb von Scripts vergißt er dies leider...

                    Machst du immer andere für deine Fehler verantwortlich?

                    ("Du" und "Deine" wird großgeschrieben..., ist aber nicht mein Fehler ;-) )

                    1. Machst du immer andere für deine Fehler verantwortlich?

                      ("Du" und "Deine" wird großgeschrieben..., ist aber nicht mein Fehler ;-) )

                      http://www.ids-mannheim.de/grammis/reform/d3-5.html

                      Orlando

                    2. Hallo,

                      Dort geht es um Scripts, die nicht per <!-- ... //--> auskommentiert
                      wurden. Klar, daß dort z. B. alle HTML-Endtags </...> geschrieben
                      werden sollen, um nicht direkt als HTML interpretiert zu werden.
                      Aber bei komplett per <!-- ... //--> auskommentierten Scripts ist
                      das überflüssig. Der Validierer darf den Inhalt von Kommentaren
                      nicht anmeckern. Innerhalb von Scripts vergißt er dies leider...

                      Du hast auch andere Fehler auf der Seite. Ausserdem beendest du den
                      Kommentar fruehzeitig -- mach bitte nicht den Validator fuer deine
                      Fehler verantwortlich. Innerhalb von Kommentaren darf die Zeichenfolge
                      '-->' nicht vorkommen. Dazu kommt, dass dein HTML nicht mit dem
                      Doctype uebereinstimmt: <meta ... /> ist XHTML, nicht HTML 4.0
                      Transitional. Ausserdem bekomme ich im Mozilla hinter dem WebWasher
                      nur eine leere, gelbe Seite zu sehen.

                      Fazit: du hast noch sehr, sehr viel zu lernen.

                      Gruesse,
                       CK

      2. hallo ;-)

        Ich weiß ja nicht, wie die Suche organisiert ist,

        hm, ich weiß es ansatzweise.

        normalerweise läuft so etwas automatisch ab.

        Richtig, und in dieser Hinsicht ist das Forum und alle dazugehörigen Scripts einschließlich der Suche völlig normal.

        Dann müßte eine zusätzliche Zeile für das Jahr 2002 im angezeigten Formular und ebenso im cgi-Script http://selfsuche.teamone.de/cgi-bin/such.pl völlig ausreichen.

        Das ist allerdings eine katastrophale Fehleinschätzung. Es gibt zwar in der Tat "ein" Suchscript, aber es gibt leider nicht nur "eine" Datei, die dann auch durchsucht werden müßte und es gibt deutlich mehr als eine Zeile Code, die entsprechend justiert werden muß. Das ist ein ziemliches Konglomerat aus ganz verschiedenen Codezeilen, die zu ganz verschiedenen Zeitpunkten und Bedingungen "aktiviert" werden. Wenns dich interessiert, kannst du dir bei sourceforge die Quelldateien und -codes des Forums holen, den korrekten link dazu findest du, wenn du mal im Archiv für November (oder wars erst im Dezember ?) 2001 nach einem Thread mit dem Titel "Open Source" suchst.

        Da dies sowieso irgendwann erfolgt, wäre jetzt, wo 2002 schon begonnen hat, der rechte Zeitpunkt.

        Menno, das Neue Jahr ist noch keine zwei Wochen alt, und soooo viele postings sind aus der Forumshauptdatei noch gar nicht unten rausgetropft und im Archiv gelandet.

        Deine Frage ist, wie alle Fragen, im Kern durchaus berechtigt und gehört auch hierher ins Forum  -  bloß kommt sie halt bissel reichlich früh. Daher sind auch die anderen Antworten vielleicht etweas harsch ausgefallen. Aber, wie Antje schon sagte: diejenigen, die das "umsetzen" bzw. realisieren, machen das nicht im Rahmen eines Arbeitsvertrages und kriegen in der Regel nicht einmal im Forum selbst wenigstens nen Dankeschön zu lesen.

        Grüße aus Berlin

        Christoph S.

  2. Sup!

    Das ist wirklich empörend, Frank! Die Versäumnisse von Herrn Münz und seinen unfähigen Bütteln und Steigbügelhaltern sind nicht mehr weiter hinnehmbar! Das unverzeihliche Fehlen der am 8ten Januar 2002 bereits mehr als nur zwingend notwendig gewordenen Archivsuche für 2002 ist ein Affront gegen alle Benutzer dieses Forums, für dessen Benutzung wir schliesslich genug gezahlt haben! Weiter, diese 8 Tage überschreitenden Verzögerungen bei der Bereitstellung dieses billigen Standard-Services sollten wir uns von dieser Truppe unengagierter Dampfplauderer und selbsternannter Götter des Webdesign nicht bieten lassen! Die eklatante Inkompetenz und die Schnecken zur Unehre gereichende Langsamkeit bei der Erkennung und Beseitigung schwerwiegender Mängel der hier waltenden "Admins" ist bezeichnend und erschütternd!

    Endlich spricht das mal jemand an, wagt jemand, seine Stimmer wider die Mißstände zu erheben! Wir müssen ein Exempel statuieren! Laß' uns ein Zeichen setzen, indem wir diesem Scheissforum den Rücken kehren!

    Geh' schon mal vor, ich komme dann nach.

    SUPER-Bio

  3. Hi Frank,

    In der Suche kann man ja auch innerhalb der Archive suchen lassen.
    Die Option für dieses Jahr (2002) fehlt.

    ich bin zwar im Detail wahrscheinlich nicht auf dem aktuellen Stand des
    Servers, aber ein paar Sachen glaube ich dazu doch erzählen zu können.

    Die Suchmaschine des Self-Portals sucht nicht direkt in den Archiv-
    Einträgen, genauso wenig wie sie direkt in SELFHTML 8.0 sucht.
    Statt dessen sucht sie in für ihre eigenen Zwecke speziell erzeugten
    Indexdateien (deren Größe im Such-Formular ja auch angezeigt wird).
    Diese müssen also erst mal irgendwie hergestellt werden, bevor man in
    ihnen suchen kann; anschließend ist noch ein Eintrag in einer Parameter-
    datei fällig, und dann hat das Such-Skript eine zusätzliche Datenquelle.

    Bei SELFHTML 8.0 war das relativ einfach. Zu SELFHTML 7.0 existierte
    ein Indexer-Programm, welches die entsprechende Indexdatei erstellte
    (und dabei jedes Dokument von SELFHTML 8.0 entsprechend zu einem Thread
    des Archivs behandelte, insbesondere jeden mit <h1> markierten Absatz
    entsprechend eines Postings - die Zieladressen der Suchmaschine sind
    ja nicht Dokumente, sondern Link-Targets!). Dieses Programm wurde
    gemäß der Formatänderungen der SELFHTML-8.0-Dokumente angepaßt und ein-
    mal laufen gelassen, und schon war SELFHTML 8.0 durchsuchbar.

    Für das Archiv müßte ebenfalls ein Mechanismus her, der solche Index-
    Einträge erstellen würde.
    Allerdings befindet sich das Archiv in ständigem Fluß - jede Sekunde
    kann durch den automatischen Archivierungsmechanismus der Forum-Software
    ein neuer Thread (oder gar mehrere) dorthin übernommen werden.
    Man müßte also entweder periodisch einen Indexer über das Archiv (oder
    einen entsprechenden Teil desselben) laufen und die entsprechende
    Indexdatei immer wieder neu bilden lassen, oder - eleganter - der Forum-
    Software beibringen, als Seiteneffekt des Archivierens auch gleich die
    entsprechenden Indexeinträge zu erzeugen und der Indexdatei hinzuzufügen.
    Bei der bis zum Jahre 2000 eingesetzten Forum-Software war letzteres
    die verwendete Realisierungsmethode (das Archiv wurde von Stefan Münz
    an ein bestehendes Matt-Wright-Forum-Skript "dran programmiert", und
    die Suche ebenfalls).

    Dies ist aber nicht beliebig einfach. Denn die Indexdateien sind - was
    das Forum-Archiv angeht - ganz bewußt in umgekehrter historischer Reihen-
    folge sortiert, damit im Falle des vorzeitigen Erreichens des Treffer-
    Limits jeweils die neuesten und nicht die ältesten Treffer angezeigt
    werden. Diese Sortierung wurde für die alten Jahrgänge manuell (UNIX-sort)
    erzeugt - für inkrementell einfließende neue Daten wäre noch ein entspre-
    chender Mechanismus zu erfinden, falls dieses Feature weiter unterstützt
    werden sollte.
    Seit knapp einem Jahr gibt es meines Wissens keine automatische Forums-
    Indexierung mehr. Der (abgeschlossene) Jahrgang 2001 ist nur bis zum
    28. November indexiert:
    http://selfsuche.teamone.de/cgi-bin/such.pl?suchausdruck=29.11.2001&feld=alle&index_4=on&hits=1
    http://selfsuche.teamone.de/cgi-bin/such.pl?suchausdruck=30.11.2001&feld=alle&index_4=on&hits=1
    Neuere Indexdaten sind wohl dem Festplatten-Crash zum Opfer gefallen; die
    letzte vorhandene Woche des 2001er-Archiv ist allerdings nicht geindext.
    Außerdem sind die Einträge seit August ans Ende der Indexdatei gehängt
    worden:
    http://selfsuche.teamone.de/cgi-bin/such.pl?suchausdruck='+'&feld=alle&index_4=on&hits=20.
    Beides ist vermutlich das Ergebnis eines in unregelmäßigen Abständen
    manuell gestarteten Indexer-Programms. Dies könnte man für den kompletten
    Jahrgang 2001 noch mal wiederholen, um auch die erste Dezemberwoche des
    Archivs noch durchsuchbar zu machen - und mit ihm könnte man auch weiterhin
    ab und zu mal einen weiteren Teil des angelaufenen Archivs indexen.
    Ganz auf dem aktuellen Stand wird die Suche in diese Modus natürlich nie
    sein; die 8 Tage, nach denen Dir das Fehlen der 2002er-Indexdatei aufge-
    fallen ist, könnten durchaus ein realistischer Abstand zwischen zwei
    Indexerläufen sein.
    Es sei denn, jemand realisiert ein Betriebskonzept, welches es ermöglicht,
    diesen Indexerlauf zuverlässig automatisch in betriebsarmen Zeiten (nachts)
    durchzuführen und nach erfolgreicher Verarbeitung die zuvor verwendete
    Indexdatei auszutauschen. Ob dies ohne explizite Synchronisation gegenüber
    der Forum-Software (welche ggf. mitten während des Indexerlaufes den
    Inhalt des Archivs ändert, falls sie nicht abgeschaltet wurde) gewagt
    werden darf, ist natürlich eine andere Frage ...

    Der Ansatz einer inkrementellen Indexierung wäre insofern der mächtigere,
    als er sogar erlauben würde, bereits beim Eintragen eines Postings dessen
    Inhalt zu indexen - an welcher Stelle der Forums-Software eine Änderung
    gemacht werden muß, ist ja vielleicht nicht kriegsentscheidend.
    In diesem Falle könnte nämlich sogar der aktuelle Forum-Inhalt durchsucht
    werden - was vielleicht wenigstens teilweise verhindern könnte, daß die-
    selbe Frage in kurzer Zeit mehrfach gestellt wird ... ;-)
    In ferner Zukunft wäre vielleicht denkbar, ein eingetipptes Posting erst
    mal mit einer Stoppwortliste von sprachlichem Ballast zu befreien, mit
    den übrig bleibenden Worten eine Suche im aktuellen Forum durchzuführen
    und neben der Preview-Version des Postings (vor dem endgültigen Eintragen)
    gleich eine Liste von Links mit themenverwandten Seiten des Self-Universums
    anzubieten - moderne Browser versuchen ja auch, zu erraten, was der DAU
    an der Tastatur eigentlich meinte ... <eg>

    Zu bedenken ist aber insbesondere, daß die derzeit eingesetzte Form der
    Self-Suche nach meiner Einschätzung keine lange Zukunft hat.
    Es wird seit einiger Zeit an einer neuen Realisierungsform der Suche
    gearbeitet, die auf einer grundsätzlich anderen Form der Datenspeicherung
    basieren soll (mySQL-Datenbank) und demzufolge für Stichwortsuchvorgänge
    signifikant schneller sein wird (logarithmischer Aufwand, verglichen mit
    dem "full table scan" der ektuellen Lösung). Dafür muß für die vom bishe-
    rigen Skript relativ leicht zu realisierende Phrasensuche eine separate
    Nachverarbeitung realisiert werden - und ob die zusätzlichen existierenden
    Optionen wie die Verwendung regulärer Ausdrücke usw. sich so elegant in
    SQL umsetzen lassen (oder ob diese Suchmaschine erst mal weniger Bedienungs-
    komfort bekommen wird), wird auch erst herauszufinden sein.
    Auf jeden Fall ist das ein Haufen Arbeit für die dort aktiven Entwickler.

    Da diese Realisierung allerdings offenbar noch etwas davon entfernt ist,
    einsatzbereit zu sein, bin ich nicht sicher, ob für sie bereits entspre-
    chende Betriebskonzepte und Datenformate endgültig definiert sind.
    Dies jedoch wäre eine Voraussetzung dafür, daß die Generierung von
    "Indexeinträgen" oder was auch immer durch die Forums-Software in einer
    zu der entsprechenden Schnittstelle kompatiblen Form erledigt werden kann
    (vielleicht schreibt ja am Ende die Forum-Software aus Performance-Gründen
    den Indexeintrag gleich selbst direkt in die mySQL-Datenbank, wer weiß?).

    Unter diesen Randbedingungen ist es fraglich, ob man momentan noch eine
    Lösung in die Forum-Software einbauen sollte, welche das 'alte' Format
    der Indexdateien unterstützt (und sich dabei auch noch mit dem Sortie-
    rungsproblem herumschlagen will, was unter mySQL keines mehr sein wird,
    weil es in SQL mit 'ORDER BY' für die Treffer erschlagen wird).
    Das Hauptproblem scheint mir aber zu sein, die entsprechende Erweiterung
    in die Forum-Software einzubauen (nach der Spezifikation der entsprechenden
    Schnittstelle). Denn die zeitlichen Ressourcen der Forum-Programmierer sind
    nun mal endlich.

    Die Suche im Archiv des Forums ist nach meiner Einschätzung eine ziemlich
    große und relativ komplexe Baustelle, weil das Ziel der nächsten Stufe ein
    ziemlich hohes ist (auch ohne Durchsuchbarkeit des Forums selbst).
    Insofern solltest Du nicht _zu_ optimistisch sein mit Deinen Erwartungen.
    (Ich lasse mich natürlich gerne positiv überraschen ...)

    Vielleicht schreiben die Entwickler der nächsten Suchfunktion auch noch
    ein paar Zeilen hierzu?

    Viele Grüße
          Michael

    1. Hi Michael,

      aha, und meinen Dank für die Infos.

      Also: Suche nicht live, sondern per Index, der nach der Erstellung zeitlich rückwärts sortiert wird (neueste oben).

      Grund für das Umgehen der Live-Suche ist wahrscheinlich der erhöhte Ressourcenverbrauch, da das Selfforum viel frequentiert ist und wohl keinen eigenen Server hat (keine Ahnung ob dem so ist).

      Den Intervall im Wochenrhythmus fände ich auch gut, natürlich vorausgesetzt, daß sich der Ablauf automatisieren läßt (Stapeldatei/Cron Job).

      Wenn dazu das Forum runtergefahren werden müßte, würde ich einen monatlichen Intervall bevorzugen (und einen entsprechenden Hinweis auf die Suche-Seite). Denn für ein wöchentlichen runterfahren ist das Forum zu gut besucht.

      Viele Grüße
         Frank

      1. Hi Frank,

        Also: Suche nicht live, sondern per Index, der nach der Erstellung
        zeitlich rückwärts sortiert wird (neueste oben).

        Für das Archiv letzteres ja - bei den anderen (kleinen) Indexdateien ist
        das nicht der Fall (die SELFHTML-Seiten sind schließlich alle gleich alt).

        Bei jeder Anforderung bis zu 118,79 MB Indexdaten zu durchsuchen bringt
        halt doch etwas Last auf die Maschine - und gerade bei zu vielen Treffern,
        wo offensichtlich die Anfrage zu ungenau gestellt war, möchte ich lieber
        so früh wie möglich abbrechen und dem Benutzer die Möglichkeit geben,
        seine Anforderung zu verfeinern.

        Grund für das Umgehen der Live-Suche ist wahrscheinlich der erhöhte
        Ressourcenverbrauch

        Den effektiven Inhalt zu extrahieren, HTML-Tags zu entfernen etc. braucht
        man halt dann nur einmal zu machen und nicht immer wieder.

        Außerdem sind diese Indexdateien spaltenorientiert - wenn Du nur im
        Autorenfeld suchen willst, dann geht das schneller, als wenn Du das
        gesamte Posting prüfen mußt.
        (Eingelesen wird immer alles, verglichen nur das Notwendige.)

        Auf dem vorherigen Server-PC war die Suche schrecklich langsam (ca. 15-20
        CPU-Sekunden; auf der aktuell betriebenen Maschine ist sie rasend schnell
        (vor allem dank schneller SCSI-Platten, offensichtlich gut cachendem BSD,
        hinreichend viel RAM und guter Systemkonfiguration durch CK1).

        da das Selfforum viel frequentiert ist und wohl keinen eigenen Server
        hat

        http://aktuell.de.selfhtml.org/news.htm,
        und darin suchen nach '21.11.2001' bzw. '02.11.2001' (die News haben
        leider keine targets ...).

        Wenn dazu das Forum runtergefahren werden müßte, würde ich einen
        monatlichen Intervall bevorzugen (und einen entsprechenden Hinweis
        auf die Suche-Seite). Denn für ein wöchentlichen runterfahren ist
        das Forum zu gut besucht.

        Meines Wissens wird das Forum sogar täglich 'heruntergefahren', wenn
        auch nur für wenige Sekunden - irgendwann nachts werden nämlich die
        Apache-Logs gerollt. Du kannst Dir sicher vorstellen, wie unhandlich
        die bei dem vorliegenden Traffic ansonsten würden - und außerdem soll
        ja auch http://webalizer.teamone.de/ tagesaktuell sein, und das
        wird eben irgendwann in den frühen Morgenstunden aktualisiert. (Und ja,
        das ist cron-basiert.)

        Wenn das Indexen der täglichen Archiv-Einträge auch nur ein paar Sekunden
        dauert (sofern man dieses Tagesdelta erkennen kann -> Infrastruktur!),
        dann kann man das in derselben Umschaltpause gleich mit erledigen.
        Nur: Dafür muß eben jemand eine entsprechende Steuerung schreiben und
        sorgfältig austesten - und Du hast ja angesichts des Plattencrashs (und
        des Schadens von einem Monat Forum-Historie) gesehen, wie schwierig es
        ist, dem Server erst mal eine zuverlässige Datensicherung zu geben.

        Also: Eins nach dem anderen.

        Viele Grüße
              Michael

    2. Hoi Michael,

      Bei SELFHTML 8.0 war das relativ einfach. Zu SELFHTML 7.0
      existierte ein Indexer-Programm, welches die entsprechende
      Indexdatei erstellte (und dabei jedes Dokument von SELFHTML 8.0
      entsprechend zu einem Thread des Archivs behandelte, insbesondere
      jeden mit <h1> markierten Absatz entsprechend eines
      Postings - die Zieladressen der Suchmaschine sind ja nicht
      Dokumente, sondern Link-Targets!). Dieses Programm wurde
      gemäß der Formatänderungen der SELFHTML-8.0-Dokumente angepaßt
      und einmal laufen gelassen, und schon war SELFHTML 8.0
      durchsuchbar.

      Jo, genau.

      Für das Archiv müßte ebenfalls ein Mechanismus her, der solche
      Index-Einträge erstellen würde.

      Der existiert schon.

      Allerdings befindet sich das Archiv in ständigem Fluß - jede
      Sekunde kann durch den automatischen Archivierungsmechanismus
      der Forum-Software ein neuer Thread (oder gar mehrere) dorthin
      übernommen werden.
      Man müßte also entweder periodisch einen Indexer über das Archiv
      (oder einen entsprechenden Teil desselben) laufen und die
      entsprechende Indexdatei immer wieder neu bilden lassen,

      Das wird so momentan gemacht.

      oder - eleganter - der Forum- Software beibringen, als
      Seiteneffekt des Archivierens auch gleich die entsprechenden
      Indexeinträge zu erzeugen und der Indexdatei hinzuzufügen.

      Im Idealfall soll das bei der neuen Suche passieren. Aber da muessen
      wir noch sehen, was passiert ;-)

      Dies ist aber nicht beliebig einfach. Denn die Indexdateien
      sind - was das Forum-Archiv angeht - ganz bewußt in umgekehrter
      historischer Reihen-folge sortiert, damit im Falle des
      vorzeitigen Erreichens des Treffer-Limits jeweils die neuesten
      und nicht die ältesten Treffer angezeigt werden. Diese
      Sortierung wurde für die alten Jahrgänge manuell (UNIX-sort)
      erzeugt - für inkrementell einfließende neue Daten wäre noch ein
      entsprechender Mechanismus zu erfinden, falls dieses Feature
      weiter unterstützt werden sollte.

      Der aktuelle Indexer muss nur einen Parameter aendern. Dazu bin ich
      schlicht und ergreifend noch nicht gekommen.

      Außerdem sind die Einträge seit August ans Ende der Indexdatei
      gehängt worden:

      S. O.

      Beides ist vermutlich das Ergebnis eines in unregelmäßigen
      Abständen manuell gestarteten Indexer-Programms.

      Nee. Das Ergebnis eines Cronjobs.

      Dies könnte man für den kompletten Jahrgang 2001 noch mal
      wiederholen, um auch die erste Dezemberwoche des
      Archivs noch durchsuchbar zu machen - und mit ihm könnte man auch
      weiterhin ab und zu mal einen weiteren Teil des angelaufenen
      Archivs indexen.

      Ja. Das Problem hierbei ist nur, dass der Indexer in seiner aktuellen
      Form aus irgendwelchen unerfindlichen Gruenden einen Memory Leek hat,
      sobald er das besagte Datum erreicht -- aber auch erst da!
      Ich weiss nicht, ob das ein Fehler in Perl, im Modul oder im
      XML-Parser ist, auch wenn ich das letztere vermute -- Andy hatte
      mal ein aehnliches Problem.

      Ganz auf dem aktuellen Stand wird die Suche in diese Modus
      natürlich nie sein; die 8 Tage, nach denen Dir das Fehlen der
      2002er-Indexdatei aufgefallen ist, könnten durchaus ein
      realistischer Abstand zwischen zwei Indexerläufen sein.

      Nein, das Archiv 2002 habe ich noch nicht eingebunden. Und ich weiss
      auch nicht, ob ich mir die Muehe noch machen sollte oder ob ich erst
      den Indexer umschreibe.

      Der Ansatz einer inkrementellen Indexierung wäre insofern der
      mächtigere, als er sogar erlauben würde, bereits beim Eintragen
      eines Postings dessen Inhalt zu indexen - an welcher Stelle der
      Forums-Software eine Änderung gemacht werden muß, ist ja
      vielleicht nicht kriegsentscheidend.

      Auch das ist uU etwas, was die neue Suche machen soll. Aber das
      genaue Konzept habe ich gerade nicht zur Hand.

      In diesem Falle könnte nämlich sogar der aktuelle Forum-Inhalt
      durchsucht werden - was vielleicht wenigstens teilweise
      verhindern könnte, daß dieselbe Frage in kurzer Zeit mehrfach
      gestellt wird ... ;-)

      Wers glaubt... ;-)

      In ferner Zukunft wäre vielleicht denkbar, ein eingetipptes
      Posting erst mal mit einer Stoppwortliste von sprachlichem
      Ballast zu befreien, mit den übrig bleibenden Worten eine Suche
      im aktuellen Forum durchzuführen und neben der Preview-Version
      des Postings (vor dem endgültigen Eintragen) gleich eine Liste
      von Links mit themenverwandten Seiten des Self-Universums
      anzubieten - moderne Browser versuchen ja auch, zu erraten, was
      der DAU an der Tastatur eigentlich meinte ... <eg>

      Die Stoppwort-Liste ist bei der neuen Suche eh mit drin.

      Zu bedenken ist aber insbesondere, daß die derzeit eingesetzte
      Form der Self-Suche nach meiner Einschätzung keine lange Zukunft
      hat. Es wird seit einiger Zeit an einer neuen Realisierungsform
      der Suche gearbeitet, die auf einer grundsätzlich anderen Form
      der Datenspeicherung basieren soll (mySQL-Datenbank) und
      demzufolge für Stichwortsuchvorgänge signifikant schneller sein
      wird (logarithmischer Aufwand, verglichen mit dem "full table
      scan" der ektuellen Lösung). Dafür muß für die vom bishe-
      rigen Skript relativ leicht zu realisierende Phrasensuche eine
      separate Nachverarbeitung realisiert werden - und ob die
      zusätzlichen existierenden Optionen wie die Verwendung regulärer
      Ausdrücke usw. sich so elegant in SQL umsetzen lassen (oder ob
      diese Suchmaschine erst mal weniger Bedienungs-
      komfort bekommen wird), wird auch erst herauszufinden sein.

      Nein, RegExe werden nicht mehr mit dabei sein. Aus zwei einfachen
      Gruenden:

      1. MySQL unterstuetzt keine richtigen RegExe, nur *teilweise*
           POSIX-RegExe

      2. Bei einem RegEx muss in *jedem* Fall eine Volltext-Suche gemacht
           werden. Beispiel: Suchbegriff ist folgender RegEx:

      "[[:alpha:]]\s+[[:alpha:]]"

      Tja, nun *kann* der RegEx nur auf 2 Worte matchen. Das Ergebnis
         waere, dass keine Results aus der DB zurueck kommen und wir wieder
         eine komplette Volltext-Suche machen muessten.

      Auf jeden Fall ist das ein Haufen Arbeit für die dort aktiven
      Entwickler.

      Ja.

      Da diese Realisierung allerdings offenbar noch etwas davon
      entfernt ist, einsatzbereit zu sein, bin ich nicht sicher, ob
      für sie bereits entsprechende Betriebskonzepte und Datenformate
      endgültig definiert sind.

      Sie sind.

      Dies jedoch wäre eine Voraussetzung dafür, daß die Generierung von
      "Indexeinträgen" oder was auch immer durch die Forums-Software in
      einer zu der entsprechenden Schnittstelle kompatiblen Form
      erledigt werden kann

      In der Tat.

      Unter diesen Randbedingungen ist es fraglich, ob man momentan
      noch eine Lösung in die Forum-Software einbauen sollte, welche
      das 'alte' Format der Indexdateien unterstützt (und sich dabei
      auch noch mit dem Sortierungsproblem herumschlagen will, was
      unter mySQL keines mehr sein wird, weil es in SQL mit 'ORDER BY'
      für die Treffer erschlagen wird).

      Nein, wird definitiv nicht gemacht, weil nicht sinnvoll (IMHO).

      Die Suche im Archiv des Forums ist nach meiner Einschätzung eine
      ziemlich große und relativ komplexe Baustelle, weil das Ziel der
      nächsten Stufe ein ziemlich hohes ist (auch ohne Durchsuchbarkeit
      des Forums selbst).

      Ja, das ist richtig.

      Vielleicht schreiben die Entwickler der nächsten Suchfunktion
      auch noch ein paar Zeilen hierzu?

      Das ist hiermit geschehen ;-) Zumindest einer der Entwickler. Ich
      hoffe nur, ich habe hier keinen Unfug erzaehlt. Wenn doch, moege man
      mich berichtigen.

      Gruesse,
       CK

      1. Hi Christian,

        Man müßte also entweder periodisch einen Indexer über das Archiv
        (oder einen entsprechenden Teil desselben) laufen und die
        entsprechende Indexdatei immer wieder neu bilden lassen,
        Das wird so momentan gemacht.

        Fein. (Täglich beim Rollen?)

        Dies ist aber nicht beliebig einfach. Denn die Indexdateien
        sind - was das Forum-Archiv angeht - ganz bewußt in umgekehrter
        historischer Reihen-folge sortiert, damit im Falle des
        vorzeitigen Erreichens des Treffer-Limits jeweils die neuesten
        und nicht die ältesten Treffer angezeigt werden. Diese
        Sortierung wurde für die alten Jahrgänge manuell (UNIX-sort)
        erzeugt - für inkrementell einfließende neue Daten wäre noch ein
        entsprechender Mechanismus zu erfinden, falls dieses Feature
        weiter unterstützt werden sollte.
        Der aktuelle Indexer muss nur einen Parameter aendern. Dazu bin ich
        schlicht und ergreifend noch nicht gekommen.

        Wie invertiert der die Reihenfolge einer ggf. 40 MB großen Datei? (Bzw. wie fügt er vorne ein?)

        Ja. Das Problem hierbei ist nur, dass der Indexer in seiner aktuellen
        Form aus irgendwelchen unerfindlichen Gruenden einen Memory Leek hat,

        Geht das nicht auch irgendwie inkrementell (monatsweise etc.)? (Mehrere Teil-Indexdateien manuell per 'cat' zusammenmischen ist ja nicht das Problem.)

        Der Ansatz einer inkrementellen Indexierung wäre insofern der
        mächtigere, als er sogar erlauben würde, bereits beim Eintragen
        eines Postings dessen Inhalt zu indexen - an welcher Stelle der
        Forums-Software eine Änderung gemacht werden muß, ist ja
        vielleicht nicht kriegsentscheidend.
        Auch das ist uU etwas, was die neue Suche machen soll. Aber das
        genaue Konzept habe ich gerade nicht zur Hand.

        Das Spannende daran wäre, daß der Archiver dann diese Cache-Indexdatei (oder was auch immer) beim Archivieren auch wieder reduzieren müßte. Ich denke, da kommt auf den Forum-Programmierer mehr Arbeit zu als auf den Suche-Programmierer ...

        1. Bei einem RegEx muss in *jedem* Fall eine Volltext-Suche gemacht
             werden. Beispiel: Suchbegriff ist folgender RegEx:
                         "[[:alpha:]]\s+[[:alpha:]]"
             Tja, nun *kann* der RegEx nur auf 2 Worte matchen. Das Ergebnis
             waere, dass keine Results aus der DB zurueck kommen und wir wieder
             eine komplette Volltext-Suche machen muessten.

        Wenn [[:alpha:]] erkennbar keine wildcard enthält, dann kannst Du immer noch eine Präfixsuche unter Verwendung des Indexbaums durchführen und dann die sehr viel kleinerer Treffermenge volltextdurchsuchen. (Genau wie bei LIKE mit wildcard rechts.)

        Da diese Realisierung allerdings offenbar noch etwas davon
        entfernt ist, einsatzbereit zu sein, bin ich nicht sicher, ob
        für sie bereits entsprechende Betriebskonzepte und Datenformate
        endgültig definiert sind.
        Sie sind.

        Gibt es eine API der Suche, welche von den Forum-Skripten aufgerufen werden müßte?

        Viele Grüße
              Michael

        1. Hi Michael

          1. Bei einem RegEx muss in *jedem* Fall eine Volltext-Suche gemacht
               werden. Beispiel: Suchbegriff ist folgender RegEx:
                           "[[:alpha:]]\s+[[:alpha:]]"
               Tja, nun *kann* der RegEx nur auf 2 Worte matchen. Das Ergebnis
               waere, dass keine Results aus der DB zurueck kommen und wir wieder
               eine komplette Volltext-Suche machen muessten.

          Wenn [[:alpha:]] erkennbar keine wildcard enthält, dann kannst Du immer noch eine Präfixsuche unter Verwendung des Indexbaums durchführen und dann die sehr viel kleinerer Treffermenge volltextdurchsuchen. (Genau wie bei LIKE mit wildcard rechts.)

          Die RegExpen werden zum Suchen nur sehr wenig gebraucht, dementsprechend tief ist da natürlich auch die Priorität für dieses Feature.

          Aber du hast recht, mit einem Parser für RegExpen wäre sogar noch mehr möglich damit auch mehrere Worte identifiziert werden können, nur, wo hört der gerechtfertigte Aufwand auf für ein so selten gebrauchtes Feature?

          Da diese Realisierung allerdings offenbar noch etwas davon
          entfernt ist, einsatzbereit zu sein, bin ich nicht sicher, ob
          für sie bereits entsprechende Betriebskonzepte und Datenformate
          endgültig definiert sind.
          Sie sind.

          So ganz endgültig stehen da vorallem die Datenformate noch nicht, sie
          machen allerdings fortschritte.

          Gibt es eine API der Suche, welche von den Forum-Skripten aufgerufen werden müßte?

          Zur neuen Suche gibt es so etwas noch nicht.

          Gruss Daniela

          1. Hi Daniela,

            Die RegExpen werden zum Suchen nur sehr wenig gebraucht,

            ist das eine gefühlsmäßige Aussage, oder gibt es tatsächlich ein Skript, welches z. B. das access_log liest und die verwendeten Such-Anfragen analysiert?

            dementsprechend tief ist da natürlich auch die Priorität für dieses Feature.

            Klar. Kompatibilität ist nicht 'heilig'.

            Gibt es eine API der Suche, welche von den Forum-Skripten aufgerufen werden müßte?
            Zur neuen Suche gibt es so etwas noch nicht.

            Ab diesem Moment könnte die Forum-Entwicklung parallel zur Entwicklung der neuen Suche voran getrieben werden - insofern wäre das vielleicht ein lohnender Zwischenschritt.

            Viele Grüße
                  Michael

            1. Hoi Michael,

              Gibt es eine API der Suche, welche von den Forum-Skripten aufgerufen werden müßte?
              Zur neuen Suche gibt es so etwas noch nicht.

              Ab diesem Moment könnte die Forum-Entwicklung parallel zur Entwicklung
              der neuen Suche voran getrieben werden - insofern wäre das vielleicht
              ein lohnender Zwischenschritt.

              Nicht wirklich. Denn die Suche muss nicht die API bereit stellen, sondern
              das Forum -- in Form eines generellen Plugin-Konzepts. Was ich bisher
              gehoert habe, sind die Drafts bereits draussen und es soll in V. 1.0
              implementiert sein.

              Gruesse,
               CK

  4. In der Suche kann man ja auch innerhalb der Archive suchen lassen.
    Die Option für dieses Jahr (2002) fehlt.

    Für eine Suche von Hand ist die Beitragsanzahl schon zu groß geworden, besonders wenn man unabhängig vom Beitrags-Titel suchen möchte.

  5. Hallo Frank,

    In der Suche kann man ja auch innerhalb der Archive suchen lassen.
    Die Option für dieses Jahr (2002) fehlt.

    Michael hat ja schon alles zur derzeitigen Suche geschrieben. Diese Suche ist ein "gewachsenes Gebilde", das nicht so einfach zu pflegen ist, weil es nicht vollautomatisiert arbeitet. Klar koennte man mit einigen weiteren cron-Jobs noch ein bischen mehr machen, aber das lohnt kaum noch. Denn die Suche wird derzeit neu entwickelt, wie ebenfalls schon berichtet wurde. Dass solche Sachen dauern, liegt - wie auch schon gesagt wurde - daran, dass das hier kein kapitalgeborenes Projekt ist, und dass hier kein finanziertes Team hockt, wo alle den ganzen Tag ueber schoene Dinge fuer SELFHTML programmieren koennen, sondern eine Reihe Freiwilliger, die auch mal Klausuren, beruflichen Stress, private Krisen usw. haben und sich nicht dauernd um das Projekt kuemmern koennen. Deshalb entstehen all diese Dinge langsam hier, und nicht, wie bei den vorfinanzierten "Portalen" (die dann aber meistens auch ebenso schnell wieder verschwinden, wenn sich die Finanzierung nicht rechnet) auf einen Schlag.
    Mit der Suche werden wir dieses Jahr hoffentlich durchkommen und eine feine Loesung haben. Bis dahin bleibt eben alles noch so wie es ist. Das Archiv 2002 wird sicher auch "demnaechst mal irgendwann" (*g) durchsuchbar sein.

    viele Gruesse
      Stefan Muenz

    1. Hallo Stefan Muenz,

      Das Archiv 2002 wird sicher auch "demnaechst mal irgendwann" (*g) durchsuchbar sein.

      Lob und herzlichen Dank an alle Beteiligten, daß es jetzt schon geklappt hat. Superspitzenmäßig!

      Ich ahnte ja nicht, daß

      • Umstellungen stattgefunden haben, die eine Neuanpassung der bisher ja einwandfrei funktionierenden Suche erforderten
      • ein sachlicher Hinweis (so ähnlich wie zu toten Links üblich) eine derart emotionale und umfangreiche Diskussion auslösen kann
      • trotz allen geschilderten Problemen die Suche "Archiv 2002" so schnell an's Laufen gebracht werden konnte (nochmals Lob und Dank an alle Beteiligten)

      Viele Grüße

      Frank