Rouven: Textanalyse -> Wohin mit den Daten?

Hallo,

ich bin's mal wieder mit einer dieser "wer hat schon Erfahrungen mit"-Fragen. Heutiges Thema: Textanalysesystem.
Folgendes tut meine Anwendung im Moment: Sie lädt aus Datei/Web/Eingabe einen Text der, sagen wir für's erste, 300 Wörter enthält. Nun geht die Anwendung hin und ermittelt für jedes dieser 300 Wörter Ähnlichkeiten unter den, sagen wir, 500 Wörtern in der Datenbank. Gehen wir nun davon aus, dass wir im Schnitt 3-4 Treffer haben. Nun soll die Anwendung all dieser Wörter ausgeben, zusammen mit den jeweiligen Treffern und der "Umgebung" des Wortes - Beispiel:
Satz: The quick brown fox jumps over the lazy dog.
Wort: brown
Ähnlichkeit: brow, browse, browser

Anzeigen:
brown
[]brow    []browse0
[]browser []<eingabefeld>
The quick brown fox jumps

--> [] sind Radio-Buttons

Wenn ich das mache, dann wird der Quelltext/die Maske allerdings SEHR unübersichtlich. Nun habe ich mir gedacht ich führe eine Art "Blättern" ein, also immer nur die Bearbeitung von 30-50 Wörtern pro Seite. Dann kriegt der Browser das noch aufgebaut.
Folgende Probleme sehe ich dabei aber:

  1. Ich will den zu analysierenden Text nicht in der Datenbank haben bis er fertig analysiert ist, d.h. ich muss die Wörter per Session oder Formular abarbeiten.
  2. Diese Radio-Buttons von oben sind eigentlich sinnloser Datenmüll für das abzuschickende Formular - Beim Anklicken wird das angeklickte Element per JavaScript (Intranet) schon woanders hingeschrieben, ich verwende die Radios nur zur Visualisierung.
  3. Beim Blättern müsste ich die Änderungen der aktuellen Seite in die Session oder ein Formular setzen und verschicken.

Kann mir also jemand Tipps geben, wie ich
a) die Datenmenge reduzieren
b) die Daten effizient puffern
c) das Blättern implementieren
kann.

Danke!

Bei Rückfragen wegen Unklarheit versuche ich es erneut!

MfG
Rouven

--

-------------------
ss:) zu:) ls:& fo:) de:< va:{ ch:? sh:) n4:( rl:? br:$ js:| ie:) fl:(
  1. Hallo,

    Kann mir also jemand Tipps geben, wie ich
    a) die Datenmenge reduzieren
    b) die Daten effizient puffern
    c) das Blättern implementieren
    kann.

    zur Darstellung kann ich jetzt nicht viel sagen, aber zum Algorithmus, wie es effizienter gehen kann! Beschäftige Dich mal mit dem Soundex-Algorithmus. Wir verwenden das (google macht es auch so) für unsere Suchmaschine http://www.w3sitesearch.de

    Gruß
    Reiner

    1. Danke,

      aber die Algorithmen zur Wortähnlichkeit habe ich schon eingeplant - Das ist ja gerade das Ziel der ganzen Sache. Ich suche jetzt nach einer übersichtlichen Darstellung, nicht für die Suche sondern für das Einspeisen der Texte.

      MfG
      Rouven

      --

      -------------------
      ss:) zu:) ls:& fo:) de:< va:{ ch:? sh:) n4:( rl:? br:$ js:| ie:) fl:(