Hi Andreas,
ich habe mal vor längerer Zeit im Fach Germanistik ein Tool zur Textanalyse gebastelt, damals mit Clipper (inkrementeller Tokenizer war schon mitgeliefert). Da ging's unter anderem darum, die verschiedenen grammatischen Formen eines Wortes zusammenfassen. Da müsstest Du doch eine riesige Menge Müll habe. Vielleicht suchst Du mal, ob es im Bereich Computerlinguistik oder Systemlinguistik inzwischen was Interessantes gibt. Bei IBM gibt's ein System zu kaufen *g*
Ein paar Probleme der Lexikonbearbeitung kannst Du bei einem Projekt der Uni Erlangen nachschauen, die sich schon länger damit beschäftigen, es wird aber auch der Umfang der Arbeit deutlich, sozusagen automatisiert ein Lexikon/ einen Index zu erstellen.
http://www.linguistik.uni-erlangen.de/tree/pdf/magister/maddin.pdf
Einige Leute, die sich mit dem Thema beschäftigen findest Du unter
http://www.ifi.unizh.ch/CL/CLBuch/kontakt.html
Vielleicht wäre auch ein interessanter Ansatz für Dein Projekt, eine Positivliste zu erzeugen, etwa aus Stichwortverzeichnissen zu SelfHTML und dergleichen, und auf der Basis eine schnelle Suche zu entwickeln. Die Frage ist, wie oft man den Index erneuern und erweitern muss, um möglichst viel zu erfassen.
Die Code-Beispiele rauszufiltern finde ich auch interessant; ein Teil müsste durch die Größer-/Kleiner Zeichen zu erfassen sein. Da die Codeausschnitte an beliebiger Stelle geschnitten sein können, erwischt man sicher nicht alles aber doch einiges.
Aber das alles ist ein wenig aus dem hohlen Bauch geschrieben, sicher hast Du diese Probleme schon bedacht....
Viele Grüße
Mathias Bigge