Hi Christoph,
Aber Geschwindigkeit war auch weniger das Argument, als Konsistenz der Schnittstelle. Bis jetzt ist das ein ziemliches Durcheinander. (Wovon ein Großteil auf die kaputten alten Archive entfällt)
Deshalb hatte ich mir gedacht: wenn schon eine DB da ist, warum da überall patchen, verlinken, rumpusseln, wenn es evt einfacher wäre, _alles_ in die DB zu packen.
wenn es Dir nur um die (wünschenswerte) Normalisierung des Datenbestandes geht, ist eine Normalisierung auf das bestehende Datenformat (XML) nicht schlechter (sondern eher besser) als eine Normalisierung auf ein neu zu erfindendes Datenformat, an welches sämtliche bestehende Software erst mal angepaßt werden müßte.
Und das Problem der Normalisierung besteht sicherlich nicht darin, HTML syntaktisch nach XML zu konvertieren, sondern - wie Du wissen solltest - die jeweils unterschiedlichen Semantiken aufeinander abzubilden ... was insofern besonders lästig ist, daß Informationen, für die im heutigen XML-Format ggf. Platz (und Bedarf!) wäre, im HTML-Format noch fehlten. Selbst wenn das Forum also syntaktisch normalisiert wäre, würde es semantisch immer noch unterschiedliche Qualitäten aufweisen ... was lästig ist, wenn man sich bei der Implementierung z. B. intelligenter Zugriffsverfahren auf eine einheitliche Qualität verlassen möchte.
Ach, ich glaube ich schließe mich so langsam aber sicher der Meinung des Kollegen Rautenberg an: das ist alles einfach zuviel Aufwand für zuwenig Erlös.
Ich auch. Deshalb wäre mein erstes Ziel bei einer solchen Aktion, unter vollständiger Beibehaltung der bestehenden Software eine "Qualitäts-View" über das Archiv zu legen, die aus nichts anderem bestehen würde als aus einer Teilmengenbildung. Jede darüber hinausgehende redaktionelle Verschlagwortung etc. birgt erhebliche zusätzliche Probleme in sich, die eher im organisatorischen Bereich liegen als in der entsprechenden Software-Umsetzung.
Der bestehende (derzeit einmal täglich nachts laufende) Archiv-Indexer würde in einer entsprechenden Variante darauf angepaßt werden müssen, diese "Mengendefinition" (die aus einer simplen Liste von Posting- bzw. Thread-IDs bestehen könnte - die Suche "denkt" in Postings, nicht in Threads) zu lesen, die entsprechenden Postings aus dem Forum zu fischen und zu indexen und eine Indexdatei im bekannten, such.pl-kompatiblen Format zu erstellen ... dies wäre in wenigen Stunden zu realisieren, inklusive der Einbettung dieser neuen Indexdatei in das Such-Formular.
Viele Grüße
Michael
T'Pol: I apologize if I acted inappropriately.
V'Lar: Not at all. In fact, your bluntness made me reconsider some of my positions. Much as it has now.
(sh:| fo:} ch:] rl:( br:^ n4:( ie:% mo:) va:| de:/ zu:| fl:( ss:) ls:~ js:|)
=> http://www.peter.in-berlin.de/projekte/selfcode/?code=sh%3A|+fo%3A}+ch%3A]+rl%3A(+br%3A^+n4%3A(+ie%3A%25+mo%3A)+va%3A|+de%3A%2F+zu%3A|+fl%3A(+ss%3A)+ls%3A~+js%3A|
Auch diese Signatur wird an korrekt konfigurierte Browser gzip-komprimiert übertragen.