Hi,
ich möchte meine bisherige Suchfunktionen komplett überarbeiten
und eine Suche über eine Indexierung der Inhalte beschleunigen.
Nach Möglichkeit ohne Mysql oder sonst eine DB.
Gegebenheiten:
ca. 50.000 html Files
ca. 6.000 pdf Files
ca. 4.000 txtfiles
ca. 3.000 Videos /mpeg/flv
ca. 1.000 flash/swf
ca. 200.000 Bilder
ca. 2.000 mp3
* und alle beziehen sich widerum aufeinander.
Wie stelle ich das nun am Besten an?
Zuerst dachte ich alle Files mit Textinhalten(txt,csv,html,pdf,...)
durchlaufen lassen und gewöhnliche Worte wie "das,der,die,auch,..."
ignorieren den Rest in eine Indexdatei mit Bezug auf den Pfad.
Aber bei der Masse kann ich gleich wieder die Dateien normal
durchlaufen lassen.
Ich habe mal angeschaut wie andere das machen und festgestellt,
dass die meissten das nach dem umgekehrten Prinzip machen.
Das bedeutet Wort/Phrase normal suchen und Ergebnis als Pfadangabe
speichern. Ist das wirklich die einzig gute Möglichkeit?
Wie machen die Grossen(zb. Google) das?
Wie müsste so eine Indexdatei aufgebaut sein um gut zu sein?
...und vor allem, wie macht Ihr das?
Gibt doch bestimmt einige hier mit Erfahrung in dieser Hinsicht.
Jonas