Texter mit x: Volltextsuche mit Tippfehlertoleranz

Beitrag lesen

Nach welchen Suchbegriffen muss ich da ixquicken? "site search" oder "Volltextsuche" führen nicht zu Treffern, die Features wie similar_text() oder levenshtein() beinhalten.

Ich habe eine Liste mit den plain-text-Inhalten jeder URL, über die ich eine Liste von Strings "matchen" lassen möchte und frage mich, ob es da nicht schon etwas fertiges gibt.

Die Ähnlichkeit von zwei strings bringt doch nichts. Denn entweder müßte man man für jeden gespeicherten string eine Ähnlichkeit zu jedem möglichen Suchstring ablegen oder bei jeder Suche alle gespeicherten Strings mit dem Suchbegriff auf Ähnlichkeit prüfen.

Oder hast Du letzteres vor?

Wer kann mir Hinweise geben?

Ich habe vor ein paar Jahren lange gesucht und nichts brauchbares gefunden, nicht brauchbar im Sinne von nicht praktikabel. (quasi für einen Chatbot) Bis auf "N-Gramm" habe ich mich in dem Zusammenhang auch mit allen Stichworten die hier gefallen sind beschäftigt.

In der Hoffnung, keinen schlechten Hinweis zu geben, helfe ich vielleicht wenigstens eine nicht erfolgversprechende Suche früher abzubrechen.

Ich bin mir aber insgesamt nicht sicher, ob ich deine Aufgabe richtig verstanden habe. Hast Du wirklich zwei Listen*, also keine Unbekannten? Zerlegst Du die Strings in Wörter und willst auch ähnliche Wörter matchen? Müssen Tippfehler berücksichtigt werden (wo Du doch Kontrolle über die strings hast)?

Beschreibe doch noch mal was Du unter welchen Voraussetzungen vergleichen willst. Was soll inwiefern als ähnlich erkannt werden? Wortebene, Buchstabenebene oder beides?

*Willst Du etwa bestimmte Wörter (Liste 2) in Texten automatisch auf passende Artikel (Liste 1) verlinken? Hört sich so an.