Textanalyse -> Wohin mit den Daten?
Rouven
- php
Hallo,
ich bin's mal wieder mit einer dieser "wer hat schon Erfahrungen mit"-Fragen. Heutiges Thema: Textanalysesystem.
Folgendes tut meine Anwendung im Moment: Sie lädt aus Datei/Web/Eingabe einen Text der, sagen wir für's erste, 300 Wörter enthält. Nun geht die Anwendung hin und ermittelt für jedes dieser 300 Wörter Ähnlichkeiten unter den, sagen wir, 500 Wörtern in der Datenbank. Gehen wir nun davon aus, dass wir im Schnitt 3-4 Treffer haben. Nun soll die Anwendung all dieser Wörter ausgeben, zusammen mit den jeweiligen Treffern und der "Umgebung" des Wortes - Beispiel:
Satz: The quick brown fox jumps over the lazy dog.
Wort: brown
Ähnlichkeit: brow, browse, browser
Anzeigen:
brown
[]brow []browse0
[]browser []<eingabefeld>
The quick brown fox jumps
--> [] sind Radio-Buttons
Wenn ich das mache, dann wird der Quelltext/die Maske allerdings SEHR unübersichtlich. Nun habe ich mir gedacht ich führe eine Art "Blättern" ein, also immer nur die Bearbeitung von 30-50 Wörtern pro Seite. Dann kriegt der Browser das noch aufgebaut.
Folgende Probleme sehe ich dabei aber:
Kann mir also jemand Tipps geben, wie ich
a) die Datenmenge reduzieren
b) die Daten effizient puffern
c) das Blättern implementieren
kann.
Danke!
Bei Rückfragen wegen Unklarheit versuche ich es erneut!
MfG
Rouven
Hallo,
Kann mir also jemand Tipps geben, wie ich
a) die Datenmenge reduzieren
b) die Daten effizient puffern
c) das Blättern implementieren
kann.
zur Darstellung kann ich jetzt nicht viel sagen, aber zum Algorithmus, wie es effizienter gehen kann! Beschäftige Dich mal mit dem Soundex-Algorithmus. Wir verwenden das (google macht es auch so) für unsere Suchmaschine http://www.w3sitesearch.de
Gruß
Reiner
Danke,
aber die Algorithmen zur Wortähnlichkeit habe ich schon eingeplant - Das ist ja gerade das Ziel der ganzen Sache. Ich suche jetzt nach einer übersichtlichen Darstellung, nicht für die Suche sondern für das Einspeisen der Texte.
MfG
Rouven