Hi Daniela
Erst Sourcen ansehen, dann meckern.
Ich meckerte nicht, ich interpretierte nur folgendes von Christian:
Ich weiss nicht, was du mit zweistufig meinst,
Das wird genau so gemacht in der neuen Suche.
Aha, läuft Stufe 2 direkt auf den Archivdateien oder auch in der DB?
Ich bin davon ausgegangen dass ihr analog zu Textzeilen pro Stichwort ein Array mit Referenzen zu Postings ablegt.
Nein, das würde einen zusätzlichen Join bedeuten, zudem müsste eine Referenz bei uns wohl 8 Byte gross sein. Es bedeutet also speicherplatzmässig kaum Gewinn.
verstehe ich nicht, verstehe wohl auch zu wenig von DBs ...
Du legst also lauter Paare (wort,posting) ab???
Ein Hasharray kann erst recht nicht zwischen Gross- und Kleinschreibung unterscheiden.
Deswegen ja Stichwörter nur in klein und casesensitiv in der 2. Stufe abklären. (hei ich soll deine sourcen lesen und du ließt nicht meine Postings? ;)
Dazu kommt noch, das eine Hashtabelle um effizient zu sein eigentlich komplett im Speicher gehalten werden muss.
IMHO machbar.
Tschau
Rolf
PS: Kann man das Konzept (nicht die sourcen) irgendwo nachlesen,
... zum schlauer werden nicht zum meckern.