Hi
Ich vermute dieser Zuwachs hängt im Wesentlichen mit Typos zusammen.
Beispiel:
Suche nach "Arhciv" liefert 5 Treffer. http://suche.de.selfhtml.org/cgi-bin/such.pl?suchausdruck=Arhciv&wort=on&feld=alle&index_1=on&index_2=on&index_3=on&index_4=on&index_5=on&index_6=on&index_7=on&index_8=on&index_9=on&index_10=on&index_11=on&hits=100
nach "Arciv" liefert 8 Treffer
http://suche.de.selfhtml.org/cgi-bin/such.pl?suchausdruck=Arciv&wort=on&feld=alle&index_1=on&index_2=on&index_3=on&index_4=on&index_5=on&index_6=on&index_7=on&index_8=on&index_9=on&index_10=on&index_11=on&hits=alle
"Archiv" liefert aber weit über 9999 (maximum Hits)
Ein Kriterium zur Typoerkennung wäre also das relative Verhältnis der Wörter.
Wäre interessant zu überprüfen ob der Anteil der Typos an neuen Wörtern im Laufe der Zeit zunimmt, ich denke ja.
Kannst du mir mit dem deinem Skript eine Liste der neuen Wörter der Threads eines Tages in 1999 und in 2004 generieren?
Tschau
Rolf