nam: Automatische Silbentrennung

Hallo und guten Tag!

Weil es bisher keine clientseitige Silbentrennung gibt, habe ich eine in JavaScript implementiert. Das Script liegt auf http://www.mnn.ch/hyph/orig/dehyph_v1.js

Einen Artikel mit Infos zum Thema liegt auf http://www.mnn.ch/hyph/silbentrennung1.html (in diesem Artikel ist die Silbentrennung aktiviert, funktioniert aber in Firefox nicht).

Was hält ihr davon?

(Bin ziemlich stolz darauf und trage die Nase etwas hoch im Moment. Brauche deshalb Kritik ;-)

Gruss aus Zürich,
Mathias

  1. Hallo

    Also das Ding sieht zunächst einmal von der Beschreibung recht interessant aus und ich denke mal drüber nach es auszuprobieren. Allerdings würde ich mal folgende Optimierung andenken. Diese basiert auf der Aussage:

    Bei sei­nen Tests stellte sich her­aus, dass mit nur knapp 5000 Mus­tern bei­nahe 90% aller Trenn­stel­len ge­fun­den wer­den konn­ten. Um aber alle Trenn­stel­len zu fin­den waren an die 20'000 Mus­ter nötig – zu­viel für da­ma­lige Rech­ner.

    Also angenommen ich habe eine Webseite. Diese hat in der Regel einen kompakten Wortschatz. Die einen befassen sich mit HTML, die anderen mit Webdesign und wieder andere stellen eine Detektei vor.

    Wie sieht es eigentlich aus, wenn man nur die Muster mitliefert, die man konkret braucht?

    Herzliche Grüße
    Wolfgang

    1. Wie sieht es eigentlich aus, wenn man nur die Muster mitliefert, die man konkret braucht?

      Hallo Wolfgang

      Das ist eine sehr interessante Idee. So könnte man wohl ein paar KB sparen und die Suche beschleunigen.
      Serverseitig ist dann eine Art Präprozessor nötig, der das Muster vorbereitet und passend zur Seite ausliefert...

      Danke für den Tip!
      Es grüsst Mathias

      1. Hallo Mathias

        Es geht sogar noch einfacher: Nehmen wir den folgenden Satz:

        Die­ser Ar­ti­kel be­han­delt im ers­ten Teil die Pro­ble­ma­tik

        Getrennt:

        Die-­ser Ar-­ti-­kel be-­han­-delt im er-s­ten Teil die Pro-­ble-­ma-­tik

        Dem gibt man bereits mit

        "3 22 23 0 2 0 0 332"

        Das erste Wort wird nach 3 Buchstaben getrennt, das zweite nach 2 und noch einmal nach 2 usw. Einen Zahlentrenner braucht man nicht. Und wenn eine Silbe länger ist als 9 Zeichen, dann muss man ein A, B, C usw. schicken.

        Und wenn man weiter nachdenkt, fällt einem bestimmt noch eine Kompression ein.

        Herzliche Grüße
        Wolfgang

        1. Guten Abend Wolfgang

          Deine Überlegungen habe ich mir nochmals durch den Kopf gehen lassen und  habe mich entschieden, eine serverseitige Zuschneidung der Patternliste auszuschliessen, weil:

          • damit die Serverlast steigt, was mich kümmert. Liegt die Last beim Client kostet das weniger, da der meist mehr freie Ressourcen hat.
          • so das Skript nur funktionieren würde, wenn der Seiteninhalt nicht geändert wird. Eine allgemeine Patternliste funktioniert auch bei (vom Benutzer) geänderten Seiteninhalten (Web 2.0 und so).
          • das Skript so eigentlich genug schnell ist.

          Ausserdem ist durch ein "allgemeines" Script auch die Umsetzung als Bookmarklet möglich.

          Gruss,
          Mathias