Hallo Christian,
Über die Implementierung habe ich mir jetzt einfach noch keine Gedanken gemacht.
Natürlich kann man da durch einige vorausberechnete Daten etwas erreichen.
Man kann schonmal für jedes Dokument den TF-IDF-Vektor berechnen.
Dann kann man nur noch die Distanz zwischen den Vektoren berechnen und danach sortieren.
Das Problem ist, dass man die Distanz zu jedem Dokument berechnen muss, man durchläuft also die komplette Tabelle. Vermutlich ist es geschickt, nur Dokumente zu auszuwählen die eines (der wichtigen) Wörter des Queries mindestens einmal enthalten. Dann hat man schonmal Dokumente weg, die ohnehin viel zu schlecht bewertet würden.
Grüße
Daniel