Rolf B: PHP Ausführung über Console beschleunigen

Beitrag lesen

Hallo rekneh,

ich bitte um Entschuldigung für die schnelle Schließung. Und danke an Gunnar für die Reaktion.

Um alle Falsch-Schreibungen eines Wortes zu finden, ist ein brute-force Ansatz nach meiner Meinung nicht hilfreich. Um eine "meinten Sie"-Unterstützung zu bauen, muss man anders vorgehen. Man braucht ein Wort und muss dann in einem Referenzwörterbuch nach Begriffen suchen, die diesem Wort "ähnlich" sind. Dazu ist eine Wortdistanz-Logik erforderlich. Sowas ist sprachspezifisch und auch nicht einfach zu programmieren.

Wichtiges Werkzeug ist hier zum einen die Levenshtein-Distanz, die zwischen dem eingegebenen Wort und dem Begriff im Wörterbuch zu bestimmen ist. Das ist aber nicht performant für alle Wörterbucheinträge machbar. Eine Vorab-Auswahl der Kandidaten könnte der Soundex Algorithmus liefern. Und natürlich fängst Du nur an zu suchen, wenn das eingegebene Wort nicht als "korrekt" im Wörterbuch steht. Was natürlich nicht wasserdicht ist; wenn im Wörterbuch "Seite" drinsteht und Du "Seite" tippst, aber die Gitarren-Saite meinst, dann hilft alles nichts.

Und wenn dein System dann herausgefunden hat, dass "Fohrumm" eine Falschschreibung von "Forum" ist, dann kann man DAS auch als "bekannte Falschschreibung" speichern und so das Gesamtsystem beschleunigen. Ich nehme an, dass Google genau so was macht. Und wenn "Seite" als Falschschreibung von "Saite" in dieser Liste steht, dann könnte sogar bei Eingabe von "Seite" ein Popup "meinten Sie vielleicht..." kommen.

Rolf

--
sumpsi - posui - clusi