Andreas Korthaus: stopword-list zum SELFForum

Beitrag lesen

Hallo nochmal!

OK, eine gute Idee war es, die Daten direkt beim schreiben zu optimieren. Aber damit komme ich auch nicht so weit, vermutlich ließe sich der Datenbestand um 20% reduzieren, aber der große Wurf wäre das auch nicht. Und mit einem eigenen Index, ich habe eine Tabelle mit einem Datensatz pro Wort(aggregiert) pro Posting. Das sind schonmal 12 Mio Datensätze. Da dei meisten Wörte nicht  nur in einem Postig vorkommen, habe ich keine unique Spalte, also auch keinen Primärschlüssel, d.h. ich müßte einen normalen Index drüber legen, was schonmal schlechter ist. Außerdem müßte ich noch die Posting_ID zu jedem Datensatz speichern, was bei 12 Mio Datensätzen das Volumen der Tabelle auf über 1 GB heben dürfte. Aber ich weiß es nicht, vielleicht ist das auch der bessere Weg, ich versuche es mal, auf alle Fälle hätte ich dann mehr Möglichkeiten, nur so ein Tabelle wird niemals in meinen RAM passen ;-)

Also das mit dem eigenen Index ist denke ich keine so gute Idee, zumindest nicht so wie ich es gemacht habe, dauert auch zu lange.

Aber vielleicht ja so:

Tabelle wort_index:

  • id (primary)
  • wort-string (index)

Tabelle posting_index:
posting_id (primary)
wort_id

Tabelle wort_anzahl
wort_id
anzahl

So, das vernünftig mit Joins verknüpft, könnte das funktionieren? Wie sollten die Indexe hier aussehen?

Grüße
Andreas