Top10 der Wörter eines String von suit, 16.04.2010 11:36

Beitrag lesen

Top10 der Wörter eines String

suit Homepage des Autors 16.04.2010 11:36

+1 Informationen zu den Bewertungsregeln

str_word_count() ist nett, aber völlig unbrauchbar, wenn es um das zählen von Wörtern in Sprachen mit "komplexen Zeichensätzen" geht. Es ist etwas schwierig in "charlist" mehrere 10.000 Zeichen aufzunehmen ;)

Da ist es wesentlich hilfreicher, einen String per PCRE mit mittels Unicode Properties zu zerlegen.

/\p{L}+/u ist als Suchmuster z.B. geeignet, ohne Unicode-Support ist /\w+/ eine option, die afaik auch mehr abdeckt als ein "nacktes" str_word_count().

Aber könnte man mit PHP auch die Wiederholungen innerhalb eines String ermitteln? um quasi eine Top10 (oder besser TopX) der am häufigsten vorkommenden Wörter zu erhalten?

Ja.

Eine Suchfunktion kommt hier ja nicht in Frage, da ein Suchbergriff ja vorher nicht definiert werden kann.

array_count_values() ist die von dir gesuchte Version, die kurz Beschreibung in der Liste der Array-Funktionen sagt "Zählt die Werte eines Arrays", da hättest du beim durchsehen dieser auch dahinterkommen können.

Beitrag melden

+1 Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

suit: Top10 der Wörter eines String

Beitrag lesen

Top10 der Wörter eines String

Top10 der Wörter eines String

Worthäufigkeit in aus einem Fließtext bestimmen

Logische Probleme durch andere Programmiersprache nicht lösbar.

Wie erkennt man zuverlässig ein "Wort" mit einem PCRE?