Jonas: Suchmaschine Indexierung aber wie?

Hi,
ich möchte meine bisherige Suchfunktionen komplett überarbeiten
und eine Suche über eine Indexierung der Inhalte beschleunigen.

Nach Möglichkeit ohne Mysql oder sonst eine DB.

Gegebenheiten:

ca.  50.000 html Files
ca.   6.000 pdf Files
ca.   4.000 txtfiles
ca.   3.000 Videos /mpeg/flv
ca.   1.000 flash/swf
ca. 200.000 Bilder
ca.   2.000 mp3

* und alle beziehen sich widerum aufeinander.

Wie stelle ich das nun am Besten an?

Zuerst dachte ich alle Files mit Textinhalten(txt,csv,html,pdf,...)
durchlaufen lassen und gewöhnliche Worte wie "das,der,die,auch,..."
ignorieren den Rest in eine Indexdatei mit Bezug auf den Pfad.
Aber bei der Masse kann ich gleich wieder die Dateien normal
durchlaufen lassen.

Ich habe mal angeschaut wie andere das machen und festgestellt,
dass die meissten das nach dem umgekehrten Prinzip machen.

Das bedeutet Wort/Phrase normal suchen und Ergebnis als Pfadangabe
speichern. Ist das wirklich die einzig gute Möglichkeit?

Wie machen die Grossen(zb. Google) das?

Wie müsste so eine Indexdatei aufgebaut sein um gut zu sein?

...und vor allem, wie macht Ihr das?
Gibt doch bestimmt einige hier mit Erfahrung in dieser Hinsicht.

Jonas

  1. Hi,

    nutze doch einfach die Google Suchmaschine um die Daten zu finden, du kannst sie einfach in deine Homepage implementieren, und damit sogar noch Geld verdienen:

    Beispiel siehe Tatort Link (oben rechts auf suche: Tatort)

    1. Hi,

      nutze doch einfach die Google Suchmaschine um die Daten zu finden, du kannst sie einfach in deine Homepage implementieren, und damit sogar noch Geld verdienen:

      Na das werde ich schön bleiben lassen. Gibt genug Verrückte
      die ihre privaten Daten freiwillige Google und Konsorten überlassen,
      aber fällt mir im Traum nicht ein.

      Also nochmal es handelt sich um ein rein privates Archiv.

      Aber das konntest du nicht wissen daher trotzdem danke.

      Jonas

      1. Ohne Datenbank wüsste ich sonst keine Lösung

  2. Hallo,

    Ich würde mir eine Art Tabelle erstellen. Zum Erstellen des Suchindex werden dann relevante Wörter asus den Textdateien in die Tabelle eingetragen und der Fundort vermerkt. Dabei sollte die Tabelle alphabetisch sortiert angelegt werden.

    Die Tabelle würde dann vielleicht vereinfach so aussehen:

    Abend /bild5.jpg,/doc1.doc,/index.htm
    [...]
    Clown /clown.jpg
    [...]
    Zebra /zoo.gif,/zoo.htm,/ausflug.htm

    Wenn jemand sucht musst du dann nur noch ne binäre suche in der Tabelle durchführen, was ganz recht gehen sollte.

    Problem ist nur der Aufwand der Erstellung und der Speicherplatz für die index-tabelle.

    Jonathan

    --
    Selfcode: ie:( fl:{ br:> va:) ls:& fo:) rl:? ss:} de:> js:| ch:? mo:} zu:)