Hi,
mit etwas Verspätung mir fesselt grad ein Virus in der horizontalen.
Aber da ich mich da jetzt eh durchwühlen mußte:
das wollte ich nicht! :(
hat mit unserem Problem und Deinem Vorschlag nur sehr am Rande etwas zu tun.
Stimmt. Ich versuche auch den möglichen Background zum ct-Artikel zu finden (den ich wg Bettruhe auch noch nicht lesen konnte).
Ich hatte auch nen sehr interessanten Link zu dem Thema den ich jetzt nicht mehr finde ... ahh wozu gibts CTRL-H ... moment ... et voila ... http://blog.csdn.net/jiangtao/archive/2004/04/08/270.aspx
Ich denke der Zusammenhang zu unserem Problem ist, dass im Allgemeinen keine ganzen Wörter gesucht werden, sondern auch submatches!
Der Gag ist, die BWT sortiert die Buchstaben eines Textes so um dass bestimmte Ordnungstrukturen erhalten bleiben, die eine sehr schnelle Suche von Teilstrings erlaubt. Und nebenbei läßt sich BWTransformierter Text bis fast ans theoretische Optimum komprimieren.
In wie weit das aber zu meiner Hash-in-Hash-Lösung kombinierbar ist, die IMHO die beste Performance bei Ganzwörtern liefern sollte, weiß ich noch nicht.
Das ist aufgrund des riesigen Alphabets der Silbenschrift nötig sowie günstiger bei DNA-Sequenzen (da gibt es keine Wörter im eigentlichem Sinne wenn auch das Alphabet dafür recht kurz ist.)
Gings in dem Artikel nur um ostasiatische Texte? :(
Selbst wenn wir den Aufwand nicht scheuten kämen wir im Deutschen wohl nicht unter rund 1,7 Bit/Zeichen (sieht man auch bei Übersetzungen vom Englischem in's Deutsche: die sind in der Regel runde 10% länger.)
naja dass ist kein Argument gegen eine bessere Kompression im Deutschen insbesondere weil die englische Orthographie viel unregelmäßiger ist als unsere und das größte Vokabular nach dem Chinesischen beinhaltet.
habe die Ehre...
rolf