Andreas Flückiger: Text in Wörter aufteilen

Beitrag lesen

Hallo Erik

Ich hab folgendes Problem. Ich hab einen Text und will ihn in einzelne Wörter aufteilen. Ohne Satzzeichen und sonstwas. Das Problem ist, dass dort auch URLs vorkommen können. Also bringt es z. B. nichts, wenn man einfach nach / / splittet, und dann alle Satzzeichen rausfiltert. In nem URL kommt ja auch nen Doppelpunkt vor. Ich hab schon mal hier eine Regex gefunden, die einen Text in Wörter aufteilen soll, aber das ging nicht so einwandfrei. Vielleicht kann mir da jemand nen Parameter für Split nennen.

Ich würde folgende Parameter verwenden:
split(/[.:,;?!]*\s+/,$text);

Es wird dann davon ausgegangen, dass niemand ein Satzzeichen ohne Leerzeichen schreibt.   Evtl. kannst du noch alle Anführungszeichen, Gedankenstriche usw. löschen. Falls das nicht genügen sollte, musst du ein Regexp schreiben, der dir alle URL's herausfiltert.

Gruss
Andreas