Hi,
mit etwas Verspätung mir fesselt grad ein Virus in der horizontalen.
Ähm ... Deine sexuellen Präferenzen interessieren mich jetzt eher weni... achso, krank isser, dann mal Gesundheit!
*LOL*
Ich warne davor eine dieser Viren-Schlampen näher kennen zulernen, die versuchen einen doch nur auszunutzen ;)
Mir fehlen für xpdf die richtigen Fonts (nein, ich
hmm ich dachte da ne HTML-Seite gesehen zu haben...
leider nur noch theoretisch von Belang, da es nicht mehr wichtig ist, die Leistung eines Einzelnen optimal einzusetzen, sondern die Aufgabe optimal zu verteilen.
Es ist zwar durchaus von Belang für den Selfserver hier - ist ja im Grunde nur eine einzelne Maschine und Verteilungoptimierung lohnt nur für Knotenmengen >> eine Handvoll - aber der Vorgang ist sehr komplex und müßte von Grund auf gebastelt werden. Lohnt das?
Ich denke es lohnt sich generell sich mit dem Ansatz zu beschäftigen, ob sich das für den Selfserver auswirkt
weiß ich nicht, ist das unser Schwerpunkt oder eher die Theorie?
Ich denke der Zusammenhang zu unserem Problem ist, dass im Allgemeinen keine ganzen Wörter gesucht werden, sondern auch submatches!
Ja, das ergibt sich natürlich schon zwingend.
eben.
Der Gag ist, die BWT sortiert die Buchstaben eines Textes so um dass bestimmte Ordnungstrukturen erhalten bleiben, die eine sehr schnelle Suche von Teilstrings erlaubt. Und nebenbei läßt sich BWTransformierter Text bis fast ans theoretische Optimum komprimieren.
Dabei geht aber, und das macht die Zusammenfassung auf Deinem Link oben nochmal besonders deutlich, der Ort verloren.
AFAIK, kannst du die Länge des BWTransformierten Intervalls einstellen, je länger umso besser die Kompression.
Hingegen nur ganze Postings oder Threads zu nehmen würde zwar die Kompression herabsetzen, dafür aber aussagefähige Treffer liefern.
Mmh ... Heisenberg in der Informationstheorie? ;-)
Natürlich! Ganz ohne Ironie!
Meines Wissens ist das Vokabular der Chinesen nicht überdurchschnittlich groß?
Hmmm ... Hörensagen ... kann jetzt keinen Beleg dafür finden, insbesondere, weil die Definition von Chinesisch wg der viele Einzelsprachen und Dialekte schwammig ist.
Hingegen beim Englischen ...
"English is noted for the vast size of its active vocabulary and its fluidity. English easily accepts technical terms into common usage and imports new words which often come into common usage" http://en.wikipedia.org/wiki/English_language#Vocabulary
Die englische Orthographie ist auch nicht sonderlich unregelmäßig. Sie enstand aus zwei unterschiedlichen Stämmen, deshalb sieht das mitunter merkwürdig aus, ist aber recht logisch geblieben.
HA!
"English spelling is often considered to be one of the most difficult to learn of any language that uses an alphabet" http://en.wikipedia.org/wiki/English_language#Writing_system
Das kann man vom Deutschen nicht gerade behaupten, das ist ein aus allen Ecken und Enden zusammengewürfelter Mischmasch. Das war auch ein Grund zur Erfindung des Hochdeutschen gewesen.
Deutsch wird schon sehr phonetisch geschrieben, z.B. Spanisch ist in der Beziehung schon nahe am Optimum.
http://forum.de.selfhtml.org/archiv/2004/8/t86714/#m516043
Ich glaube du sprichst aber hier eher von den Problemen der Rechtschreibung (Groß/Klein, getrennt/zusammen, ß/ss) die das Englische nicht hat, das macht sich aber IMHO bei einer Kompression kaum bemerkbar.
Eher Nachteilig könnte die von dir erwähnten 10% längeren Texte sein, da IMHO im deutschen präziser/pedantischer gesprochen wird, wo dem Engländer der Kontext bereits zur Klärung aussreicht.
Und wenn sich damals nicht mal zwei Leute verkracht hätten würden wir heute französisch quasseln ;-)
Hä? Meinst du jetzt Karl den Kahlen und Anverwandte? Oder Friedrich II und Voltaire?
Gewagte Thesen! :)
Tschau
rolf