Stephan Huber: Indexserver für Linux

Beitrag lesen

Hallo Christian,

ht://dig ist Dir ein Begriff? http://www.htdig.org/ Das kann zumindest Text- und HTML-Dateien. XML kommt vielleicht noch. Andere Software kenne ich jetzt nicht, aber es kann sein, dass Du eine bekommst, die auch XML, PDF und RTF macht. Word kannst Du vmtl. vergessen, denn die einzigen, die das Word-Format richtig kennen, sind die Programm(ier|verunstalt)er bei Microsoft.

ht://dig (und auch andere) unterstützt externe Parser, d.h. man gibt Dateiendungen/mime-Typen an, die das jeweilige Format extern verarbeiten, und die gibt es für pdf, rtf, und sogar für Word (der externe Parser muß ja auch nur den Text indizieren, nicht z.B. irgendwelche wilden Formatierungen, das ist wohl nicht so schwer). XML kann man eigentlich problemlos mit den html-Parser machen, wenn man wirklich nur eine Volltextsuche haben will, denn die Information, in welchem XML-Tag der Text stand, geht damit natürlich verloren, aber das ist bei allen anderen Formaten ja eigentlich nicht anders.

Viele Grüße
Stephan