Text Datenbank system
entropie
- software
0 mipu0 htdig
Joerg0 entropie
0 entropie
Hallo Forum,
Mittlerweile hat sich auf meinen Rechnern eine Recht grosse anzahl dokumente angesammelt. Sowohl HTML (ganze bücher, howtos, dokus) als auch eine Menge PDFs. Ich bin vor kurzen in eine WG gezogen, dadurch hat sich die grösse dieser Sammlung verdreifacht.
Grob über den Daumen gepeilt würde ich den umfang mal auf 30 GB schätzen.
Ich suche nun nach irgendeiner OpenSource lösung um diese daten strukturiert unterzubringen. Wie das genau funktieren soll ist mir nicht ganz klar.
Zur zeit habe ich eine Apache VHost (Linux als OS) der auf das doc verzeichniss zeigt.
Per script generiere ich die ordnerstruktur des docverzeichnisses, alle ordner die mit einem ``!'' beginnen werden "geöffnet" (rekursiv gelisted).
Somit kann ich per WWW auf die kompletten dokus zugreifen.
Das ist ziemlich dirty ;)
Volltextsuche ist auf diesen Weg nichtmöglich, und auch ansonsten gefällt mir das alles nicht so recht.
Wenn es keine Existierendes Scripts gibt (was ich nicht glaube), code ichs auch selber. die suche auf http://sf.net] hat mir nicht wirklich geholfen.
Irgendwelche Ideen?
Also bonus würde ich wollen PDF dateien zb auch als XML oder HTML output zu bekommen... Träume ich? ;)
Mfg entropie
Moin,
für eine Volltextsuche schau dir mal im OpenSource-Sektor htdig an.
Im MS-Sekktor kannst du mit dem Indexserver und geeigneten Plugins sogar PDF-Dateien durchsuchen.
Evtl. erspart dir eine brauchbare Volltextsuche ja eine strukturierte Ablage :)
gruß mipu
Hi,
für eine Volltextsuche schau dir mal im OpenSource-Sektor htdig an.
Dem kann ich nur zustimmen. Der erste Start ist zwar nicht ganz einfach, aber das Ding "kann" viel. Und plugins fuer PS, PDF, DOC (igitt!) etc gibt es da natuerlich auch :-)
Gruss,
Hi,
Tach
für eine Volltextsuche schau dir mal im OpenSource-Sektor htdig an.
Dem kann ich nur zustimmen. Der erste Start ist zwar nicht ganz einfach, aber das Ding "kann" viel. Und plugins fuer PS, PDF, DOC (igitt!) etc gibt es da natuerlich auch :-)
Das sieht wirklich schon sehr gut aus, ich werde das mal emergen ;)
Gruss,
- Joerg
Mfg entropie
Moin,
Tach
für eine Volltextsuche schau dir mal im OpenSource-Sektor htdig an.
Hm wäre eine option, allerdings glaube ich nicht das ich PDF dateien indizieren kann. Trodzdem werde ich mir das näher ansehenen. Zur not verwalte ich PDFs und plain/html files getrennt.
Im MS-Sekktor kannst du mit dem Indexserver und geeigneten Plugins sogar PDF-Dateien durchsuchen.
M$ steht definitiv nicht zur debatte für mich.
Evtl. erspart dir eine brauchbare Volltextsuche ja eine strukturierte Ablage :)
Das ist ein ansatz den ich ursprünglich auch verfolgt habe. Einfacher gesagt als getan. Wenn ich in irgendeiner Mailinglist eine lösung für ein problem finde, will ich das speichern.
Dazu noch 4 internetbegeisterte mitbewohner, die zwar gerne strukturierte docs haben wollen, aber keines falls selber hand anlegen wollen.
Die speichern dann das zeug irgendwo, und dort bleibt es dann auch...
(Sehr schlecht!)
gruß mipu
Mfg entropie