Hi Michael,
- ... welches die Monats-Unterteilung irgendwie versteht (aus Performance-
gründen würde ich eine statische Tabelle nehmen und nicht den Archivbaum
parsen) und selbst wiederum eine HTTP-redirection auf den tatsächlichen
URL ausgibt.
Da man eh eine Indexdatei für die Archivtopologie aufbauen müßte, könnt
mans da gleich miterschlagen.
Eher die Frage, wie man es mit vernüftigem Wartungsaufwand hin bekommt.
(Das CGI-Skript könnte beispielsweise seine Konfigurationstabelle selbst
warten, wenn ein Zugriff auf einen Archiv-Monat kommt, der in dieser
Tabelle noch nicht vorhanden ist - der erste, der diesen Zugriff macht,
'bezahlt' für alle Nachfolger mit. Das Skript muß dann natürlich Schreib-
zugriffe gegen sich selbst synchronisieren.)
Mit Wartung meinste jetzt das updaten der Indexdatei.
Hmm rekapitulieren, wenn folgende Probleme auf einen Streich erledigt werden sollen:
1. Broken Links zu mittlerweile archivierten Postings!
2. Suche der Links auf archivierte Postings.
3. Suche der Links auf Selfhtml-Kapitel.
brauchen wir Indexdateien mit folgenden infos:
m=message (=posting)
t=thread
für Postings:
m-id | t-id | t-startdatum | liste refernzierender m
für Selfhtml:
URL-inklusive Anchor in V8| Alias in V<8| liste referenzierender m
(wobei letzteres auch in JS-lesbarem -Format vorliegen sollte, um
offline funktionieren zu können)
so wie ich das sehe gibts 3 Ansätze:
1. Das Forumsskript trägt Links in die Indexdatei ein
2. Erst beim archivieren werden Links in die Indexdatei eingetragen
3. In Intervallen wird mit der Archivsuche die Indexdatei
aktualisiert.
(jedesmal müssen die Links dabei normiert werden)
Schritt 3 ist m.E. zuerst zu realisieren, weil die Suche zum eine
fast alles bereits erschlägt und zwotens sowieso die alten Postings
im Archiv verarbeitet werden muessen. Innerhalb der Updateintervalle
gibts dann aber Lücken! Die Entscheidung ob 1. oder 2. würd ich
aufschieben.
Eine Suche nach dem String /selfhtml/ in allen Archiven ergab rund
2000 Treffer in <4 sec.
/archiv/ waren insgesamt nur 500 Treffer.
<träum>Delux waere noch wenn dann so ein Graph der Linkbeziehungen
gezeichnet würde, am besten interaktiv wie diese "Matrizen" bei
wissen.de ;-) </träum>
Mit welcher Wahrscheinlichkeit würde dieser Graph denn planar bzw. sinnvoll
in 2D darstellbar?
Sinnvolle Darstellung wird da
1. durch Begrenzung auf enge Nachbarn erreicht (Anzahl regelbar) und
2. durch interaktives Verschieben der Knoten durch den User.
Realisiert mit Javaaplet, mehr weiß ich leider auch nicht.
z.B.! Allerdings wuerde ich aus Performancegruenden dafuer eigene
Indexdateien generieren. Es reichen doch zwei Spalten
Referenzierter Link | Liste der referenzierenden Postings
Ja, aber bei inkompatiblem Indexformat mußt Du ein eigenes Zugriffs-Skript
schreiben. Bei kompatiblem nicht.
Insofern würde ich dann ggf. zwar separate Indexdateien erzeugen wollen,
aber nicht benötigte Spalten leer lassen.
Macht Sinn, aber war nicht eh ne neue Suche in der mache?
Also wenn ich das autark am SELFteam vorbei realisieren wollte, würd ich deine
Suchmaschine mit entsprechenden REgExp füttern, auf "Ausführliche Trefferanzeige"
gehen und basta. (das hab ich aber nicht vor)
Keinen site grabber auf den jeweiligen Archiv-Monat?
Hmm du meinst den ganzen Monat runterladen? (In 90% der Fälle
sind die Links im zitierten Bereich gehighlighted) Da nur ein Bruchteil
der Postings überhaupt links enthalten, reicht es nur diese nach der Suche
anzufordern!(In 90% der Fälle sind die Links eh im Zitatbereich
der Suchergebnisses vorhanden, d.h. hier hätte man schon ein gutes suboptimales
Ergebnis)
Wann soll diese Information jeweils aktualisiert werden?
Da das Archiv in Monatsquanten strukturiert ist würde ich Monatsschritte
vorschlagen!
Das ist natürlich sehr viel seltener als das Ideal, einen Beitrag im Moment
seiner Archivierung bereits voll durchsuchbar zu haben.
Es ist doch eh angekündigt das die neue Forumssuche aktuelle Postings
miterfasst, spricht dafür gleich Variante 1 der Indexgenerierung mitzuerschlagen.
Jetzt im Ernst: mehrdeutige Adressierungen müssen beim durchsuchen
auf ein Standardformat normiert und so abgelegt werden.
Erst beim Durchsuchen? Nicht vielleicht schon beim Archivieren?
Kaputte referenzen sind doch schon zu hauf archiviert. Wenn die
wenigsten dank Indexdatei sauber umgeleitet werden, hätte man das
Problem wenigstens abgedeckt.
Ich fänds am saubersten wenns nur eine normierte/transparente Adressierung
gäbe:
sowas wie http://forum.de.selfhtml.org/?m=20449
muß ausreichen um das Teil zu finden egal ob archiviert oder nicht.
Das Ideal das das Archiv runtergeladen werden kann ist doch bereits aufgegeben worden, oder?
(Wer weiß ob das Archiv in Zukunft noch in Monatsschritten abgelegt werden kann?)
Viele Grüße
Rolf