suit: Wie erkennt man zuverlässig ein "Wort" mit einem PCRE?

Beitrag lesen

wie erkennst Du ein Wort?

Per RegEx.

Die entscheidende Frage ist "Wie?" - auch dafür habe ich noch keine zufriedenstellende Lösung gefunden (mögliche Lösungen, die ich bereits im Einsatz habe oder zumindst getestet, nannte ich bereits) - wenn du mir eine nennen kannst, vorzuweise mit PCRE, bin ich dir sehr dankbar.

Mag sein, wie gesagt kenne ich PHP zu wenig bzw. gar nicht. In Perl z.B. braucht man dazu kein Array array_count_sonstwas (wenn ich jetzt nicht irre), sondern die ersetzte Anzahl steht in einer Variablen.

Das tut wenig zur Sache - dieses Teil-Problem (die Wörter zählen) ist der triviale Teil, der knifflige ist: wie erkennst du ein Wort? Einfaches Beispiel: Ist "Tag-und-Nacht-Gleiche" ein Wort oder drei (wenn man und als Stopword abzieht)?

Ja, von suit, aber vom OP war davon wenig bis gar nichts zu hören.

Meine Kommentare waren eigennützig, weil ich die Thematik selbst interessiert (und ich Infos dazu gebrauchen kann) dass der OP längst aus dem Thread ausgestiegen ist, ist mir einerlei :)

Wenn suit sich Szenarien frei ausdenkt, naja.

Nein, die genannten Dinge sind nicht frei ausgedacht sondern sind praxisnah und auch weitestgehen so im Einsatz. Einzig die sache mit "<span lang="en">die</span>" ist aktuell nicht enthalten und wird ignoriert - für das entfernen der Stopwords wird in diesem Fall eine zusätzliche, generische Stopwordsliste verwandt, die Lehnwörter, verbreitete Anglizismen usw. beinhaltet - die false-positives hier sind Streuverlust und nicht so tragisch.

Da würde mir auch noch einiges einfallen, um die Sache zu verkomplizieren ;)

Ich freue mich über Kommentare hierzu, ich hab' selbst sicher auch nicht alles bedacht - was ich aktuell auch nicht behandle sind Zahlwörter und Zahlen ansich - deren Existenz nehme ich billigend in Kauf.

Ich stelle fest: suit hat dieses Problem intensiv überdacht ...

Davon gehe ich aus.

Das hatte den Grund, dass ich es selbst praktisch benötigt habe und mir nicht nur langweilig war :)

Eine der (einfachen) Implementierungen findet sich übrigens in der autometa-Extension für TYPO3 - der relevante Code ist in pi1/class.tx_autometa_pi1.php zu finden.