blhr: thesaurus->­

Grüße,
kennt wer guten weg aus einem text und sagen wir OOo thsaurus einen ­ gespickten text zu produzieren?
MFG

  1. Tag

    Hyphenator.js vielleicht

    Gruss,
    Mathias

  2. Hi,

    kennt wer guten weg aus einem text und sagen wir OOo thsaurus einen ­ gespickten text zu produzieren?

    Solltest du eine andere Technik als Tastatur und Finger im Sinn haben, dann nenne diese doch bitte.

    MfG ChrisB

    --
    RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
  3. @@blhr:

    nuqneH

    kennt wer guten weg aus einem text und sagen wir OOo thsaurus einen ­ gespickten text zu produzieren?

    Zukünftig nicht mehr nötig. Browser werden automatische Silbentrennung implementiert haben. Safari hat’s schon für einge Sprachen, Firefox nur für Englisch.

    Qapla'

    --
    Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
    (Mark Twain)
    1. Hallo,

      [Silbentrennung] Firefox nur für Englisch.

      für Englisch ist es ja auch trivial, da genügt eigentlich schon die wichtigste Regel: Avoid it.

      Ciao,
       Martin

      --
      Disziplin: Teppichböden wiederfinden, wenn man sie verlegt hat.
      Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(
      1. und das wird für deutsch und bei 90% der user funzen - ? 2020?
        JS ist auch keine saubere lösung - also bleibt entweder manuell, oder was selbst basteln...
        hatte gehoffe dass es dafür ein plugin/export aus office o.ä. gäbe.

        1. Hi

          Afaik benutzt hyphenator.js den selben Algorithmus wie OpenOffice.

          Wenn du die vollautomatische Silbentrennung mit JS und die damit verbundenen Downloads scheust, kannst du dir davon ja unter die Arme greifen lassen und dann manuell kontrollieren.

          Gruss,
          Mathias

          1. Hi,

            Afaik benutzt hyphenator.js den selben Algorithmus wie OpenOffice.

            Oder anders herum?

            Ich meine, welchen Algorithmus dein Projekt verwendet, müsstest du doch wenigstens definitiv sagen können :-)

            MfG ChrisB

            --
            RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
            1. Ich meine, welchen Algorithmus dein Projekt verwendet, müsstest du doch wenigstens definitiv sagen können :-)

              Jep, kann ich: den von Franklin M. Liang, beschrieben in http://www.tug.org/docs/liang/liang-thesis-hires.pdf

              Aber bei OpenOffice bin ich mir nicht so sicher. Ich glaube mal gelesen zu haben, dass OpenOffice einen erweiterten Algorithmus verwendet. Kann aber nichts genaueres sagen…

              Letztendlich auch egal, da die Trennqualität vor allem von den Trennmustern abhängt. Die offenen Trennmuster für Deutsch sind m.A. sehr gut gepflegt (http://repo.or.cz/w/wortliste.git) und werden zusammen mit anderen via TeX-Community verbreitet (http://tug.org/svn/texhyphen/).

              Gruss,
              Mathias

              1. Hi,

                Ich meine, welchen Algorithmus dein Projekt verwendet, müsstest du doch wenigstens definitiv sagen können :-)

                Jep, kann ich:

                Mir ging’s eigentlich eher um die Formulierung, die so klang, als ob du gar nicht „zugeben“ wolltest, dass das dein Projekt ist.
                Ich finde das Projekt sehr fein – da kannst du auch ruhig hier „Werbung“ für machen IMHO.

                MfG ChrisB

                --
                RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                1. Ich finde das Projekt sehr fein – da kannst du auch ruhig hier „Werbung“ für machen IMHO.

                  Danke! Ich häng's nicht gern an die grosse Glocke. Wer danach googelt findet es ja schnell.
                  Es ist und bleibt für mich eine Übergangslösung, ein polyfill, bis die Browser Silbentrennung von sich aus unterstützen – was sie auch sollten.
                  Habe halt einfach hobbymässig viel Freude daran.

                  Gruss,
                  Mathias

      2. Hi

        [Silbentrennung] Firefox nur für Englisch.

        Schau dir mal die Preview von Firefox 9 an! Da wird eine Vielzahl von Sprachen unterstützt…
        (https://bugzilla.mozilla.org/show_bug.cgi?id=672320)

        für Englisch ist es ja auch trivial, da genügt eigentlich schon die wichtigste Regel: Avoid it.

        Ohne begründete Argumente klingt das doch sehr unprofessionell.

        MFG
        Mathias

        1. Hallo,

          für Englisch ist es ja auch trivial, da genügt eigentlich schon die wichtigste Regel: Avoid it.
          Ohne begründete Argumente klingt das doch sehr unprofessionell.

          warum sollte ich das begründen? Ich hab's halt in der Schule so gelernt.
          Silbentrennung im Englischen? Ja, gibt es, das "macht man aber nicht". Sagte sogar der Amerikaner.

          Okay, im Deutschen würde ich es aus stilistischen Gründen auch eher vermeiden, außer vielleicht bei sehr langen zusammengesetzten Wörtern.

          Ciao,
           Martin

          --
          Wer barfuß geht, dem kann man nicht die Schuld in die Schuhe schieben.
          Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(
          1. Hallo,

            für Englisch ist es ja auch trivial, da genügt eigentlich schon die wichtigste Regel: Avoid it.
            Ohne begründete Argumente klingt das doch sehr unprofessionell.

            warum sollte ich das begründen? Ich hab's halt in der Schule so gelernt.
            Silbentrennung im Englischen? Ja, gibt es, das "macht man aber nicht". Sagte sogar der Amerikaner.

            Ist auch kaum nötig in einer Sprache, die fast nur ein- und zweisilbige Wörter hat und keine umfassende Wortzusammensetzungskultur ;-) wie z.B. Deutsch oder Finnisch. Bei uns sind es ja auch nur diese extrem langen Wörter, die den Blocksatz zerreißen. Ich persönlich füge dann auch lieber in den extremen Wörter manuell ein paar &shy;s ein als zu riskieren, dass ein Algorithmus falsche einbaut.

            Viele Grüße,
            Alexander

            1. @@Alex:

              nuqneH

              Ich persönlich füge dann auch lieber in den extremen Wörter manuell ein paar &shy;s ein als zu riskieren, dass ein Algorithmus falsche einbaut.

              Oder richtige, aber dennoch falsche. ;-) Silbentren-nung ist zwar richtig, sollte aber doch besser Silben-trennung getrennt werden.

              Das spricht für das setzen von Sollbruchstellen (Silben&shy;trennung) durch den Autor, aber nicht unbedingt gegen automatische Silbentrennung. “Conditional hyphenation characters inside a word, if present, take priority over automatic resources when determining hyphenation points within the word.” [CSS3-TEXT §5.1]

              Ein Algorithmus kann aber nicht erkennen, ob er Wachs-tube oder Wach-stube trennen muss, da ist der Autor gefragt, Wachs&shy;tube bzw. Wach&shy;stube zu schreiben.

              Qapla'

              --
              Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
              (Mark Twain)
              1. Hallo!

                Ich persönlich füge dann auch lieber in den extremen Wörter manuell ein paar &shy;s ein als zu riskieren, dass ein Algorithmus falsche einbaut.

                Oder richtige, aber dennoch falsche. ;-) Silbentren-nung ist zwar richtig, sollte aber doch besser Silben-trennung getrennt werden.

                Ja, korrekte können immer noch unschön sein. Auch sowas wie "die-se" würde ich nicht haben wollen. Oder das klassische Beispiel "bein-halten". *grusel*

                Ein Algorithmus kann aber nicht erkennen, ob er Wachs-tube oder Wach-stube trennen muss, da ist der Autor gefragt, Wachs&shy;tube bzw. Wach&shy;stube zu schreiben.

                Eben. Und bevor ich mir bei jedem Wort überlege, ob es in diesem Sinne doppeldeutig ist (im eigenen Text liest man ja automatisch die "richtige" Bedeutung und bemerkt die andere evtl. gar nicht), setze ich die &shy;s doch lieber gleich alle selbst. Dauert auch nicht länger.

                Viele Grüße,
                Alexander

                1. @@Alex:

                  nuqneH

                  […] setze ich die &shy;s doch lieber gleich alle selbst. Dauert auch nicht länger.

                  Das Web besteht aber immer mehr aus nutzergenerierten Inhalten (Soziale Netzwerke, Blogs, …). Oder Inhalten, die von wem auch immer (Marketingabteilung, …) per CMS eingepflegt weren. Die wenigsten Schreiberlinge werden bedingte Trennstriche setzen.

                  Da stellt sich dann die Frage, ob eine gute, aber nicht perfekte Silbentrennung nicht doch besser ist als gar keine.

                  Qapla'

                  --
                  Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
                  (Mark Twain)
                  1. Da stellt sich dann die Frage, ob eine gute, aber nicht perfekte Silbentrennung nicht doch besser ist als gar keine.

                    Da viele Menschen die Regeln für die Silbentrennung (oder korrekt: Worttrennung am Zeilenende) sowieso nicht so genau kennen, ist die automatische Trennung vielleicht sogar besser als die manuelle ;-)

                    1. @@nam:

                      nuqneH

                      Da viele Menschen die Regeln für die Silbentrennung (oder korrekt: Worttrennung am Zeilenende) sowieso nicht so genau kennen, ist die automatische Trennung vielleicht sogar besser als die manuelle ;-)

                      Jaja, und in ein paar Jahren passt der Duden dann die Trennungsregeln an: Richtig ist zukünftig das, was der Algorithmus X ausgibt.

                      Weizenbaum hätte seine helle Freude daran. ;-)

                      Qapla'

                      --
                      Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
                      (Mark Twain)
                      1. Hi

                        Die Regeln macht der Rat für deutsche Rechtschreibung und nicht der Duden. Dieser macht lediglich bei mehreren erlaubten Schreibweisen eine Empfehlung (gelb unterlegt).

                        Mit etwas Sarkasmus könnte man annehmen, dass die Liberalisierung der Trennregeln (neben der etymologischen Trennung ist auch die Trennung nach Silben erlaubt; Bsp.: Heliko-pter/Helikop-ter) genau dem Umstand Rechnung trägt, dass weniger ausgereifte Algorithmen (z.B. solche, die auf der simplen Abfolge von Vokalen und Konsonanten beruhen) mit der etymologischen Trennung nicht umgehen können – oder eben, weil die Menschen die Regeln nicht kennen…

                        Gruss,
                        Mathias

                2. Oder das klassische Beispiel "bein-halten". *grusel*

                  "bein-halten" ist eine Fehltrennung. In meinem Duden steht zwar im Wortverzeichnis "be|in|halten", aber mit Fussnote, dass die Trennung zwischen n und h vermieden werden sollte.

                  zu $107 der "amtlichen Regelung der deutschen Rechtschreibung" gibt es die Ergänzung E2:
                  »Irreführende Trennungen bzw. Trennungen, die beim Lesen die Sinnerfassung stören, sollten vermieden werden, zum Beispiel:
                  An-alphabet (nicht: Anal-phabet)
                  Sprech-erziehung (nicht: Sprecher-ziehung)
                  Ur-instinkt (nicht: Urin-stinkt)«

                  Die offenen deutschen Trennmuster http://repo.or.cz/w/wortliste.git berücksichtigen das.

                  1. Hallo!

                    "bein-halten" ist eine Fehltrennung. In meinem Duden steht zwar im Wortverzeichnis "be|in|halten", aber mit Fussnote, dass die Trennung zwischen n und h vermieden werden sollte.

                    "sollte vermieden werden" ist nicht unbedingt falsch, aber, naja, eben auch nicht viel besser als falsch. ^^

                    Die offenen deutschen Trennmuster http://repo.or.cz/w/wortliste.git berücksichtigen das.

                    Das ist schonmal gut, ohne Wortliste geht's ja echt gar nicht. Es sind auch Algorithmen im Umlauf, die gar nicht ganze Wörter betrachten, sondern nur typische Konsonantencluster, und um die mache ich auf jeden Fall ein großen Bogen, denn die neigen sehr dazu, genau solche Beispiele zu produzieren (und auch Trennungen, die wirklich absolut falsch sind).

                    Gunnars Einwand ist aber auch berechtigt, ich war in der Tat implizit davon ausgegangen, dass ich der Autor des Textes bin und das hinreichend effizient selbst machen kann. Das ist natürlich nicht selbstverständlich und kann nicht von beliebigen Benutzern erwartet werden.

                    Viele Grüße,
                    Alex

                3. Hi,

                  Oder das klassische Beispiel "bein-halten". *grusel*

                  Dann schreib halt einfach "enthalten".

                  Ein Algorithmus kann aber nicht erkennen, ob er Wachs-tube oder Wach-stube trennen muss,

                  Das kommt drauf an. Mit Frakturschrift wär's kein Problem - bei Wachs-tube ein rundes s gefolgt von einem t, bei Wach-stube die Ligatur aus langem s und t (daher ja auch die Regel, st" nicht zu trennen, weil das die Ligatur aus langem s und t ist, und damit nur ein(e?) Letter aus dem Setzkasten ...).

                  cu,
                  Andreas

                  --
                  Warum nennt sich Andreas hier MudGuard?
                  O o ostern ...
                  Fachfragen per Mail sind frech, werden ignoriert. Das Forum existiert.
              2. Silbentren-nung ist zwar richtig, sollte aber doch besser Silben-trennung getrennt werden.

                Ich habe mal deutsche Trennmuster berechnet, die nur solche Trennstellen finden. Das ist mit dem gegebenen Algorithmus eigentlich kein Problem und sieht bei Flattersatz nicht schlecht aus. Bei Blocksatz bleiben aber oft die grossen Lücken zwischen den Wörtern.

                Ausserdem bin ich nicht der Meinung, dass Trennungen vom Typ Silbentren-nung grundsätzlich schlecht sind. Erstens ist diese Trennung in manchen Fällen besser, als gar keine, wenn andernfalls grosse Lücken im Text entstünden.
                Zweitens sieht der Leser auf der ersten Zeile bereits beinahe das komplette Wort und wird als geübter Leser den Rest mental ergänzen.

                Ein Algorithmus kann aber nicht erkennen, ob er Wachs-tube oder Wach-stube trennen muss […]

                Stimmt. Allerdings sind diese Fälle äusserst selten. In den Trennmustern für Deutsch werden diese Wörter so gehandhabt, dass an der kritischen Stelle *nicht* getrennt wird; also lediglich Wachstu-be.

                1. @@nam:

                  nuqneH

                  Bei Blocksatz bleiben aber oft die grossen Lücken zwischen den Wörtern.

                  CSS 3 macht es (zukünftig) möglich, den Anstand nicht nur zwischen den Wörtern, sondern auch zwischen den Buchstaben zu verteilen.

                  Ausserdem bin ich nicht der Meinung, dass Trennungen vom Typ Silbentren-nung grundsätzlich schlecht sind. […] Zweitens sieht der Leser auf der ersten Zeile bereits beinahe das komplette Wort und wird als geübter Leser den Rest mental ergänzen.

                  Hm, hat mir mein laienhaftes Halbwissen einen Streich gespielt? Ich kann deinem Argument durchaus folgen. Da müssten mal die Psychologen ran und untersuchen, ob die Trennung nur zwischen Wortteilen oder überall zwischen Silben bessere Lesbarkeit mit sich bringt.

                  Qapla'

                  --
                  Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
                  (Mark Twain)
                  1. CSS 3 macht es (zukünftig) möglich, den Anstand nicht nur zwischen den Wörtern, sondern auch zwischen den Buchstaben zu verteilen.

                    Afaik kann das der IE schon.

                    Da müssten mal die Psychologen ran und untersuchen, ob die Trennung nur zwischen Wortteilen oder überall zwischen Silben bessere Lesbarkeit mit sich bringt.

                    Ich frage mich, ob uns das viel bringen würde. Ich habe mich vor längerer Zeit mal mit der Frage Blocksatz vs. Flattersatz beschäftigt; dazu gibt es v.a. im englischen Sprachraum viele Studien und die Erkenntnisse daraus könnten möglicherweise auf deine Fragestellung übertragen werden:

                    • Diese Studien haben eine relativ kurze Halbwertszeit. Leseeffizienz hängt stark ab von der Gewohnheit der Leser.
                      Ein gutes Beispiel ist die Frakturschrift, mit der viele moderne Leser Mühe haben.
                      Oder wenn eine Studie von 1990 besagt, dass Texte am Bildschirm eine sehr schlechte Lesbarkeit aufweisen, kann das heute nicht mehr 1:1 übernommen werden. Wir sind uns heute eher daran gewöhnt.

                    • Es gibt einen grossen Unterschied zwischen einerseits normalen und geübten Lesern und andererseits schwachen, ungeübten Lesern. So beobachteten Gregory und Poulton (1970) preview, dass schwache Leser mit Blocksatz mehr Mühe hatten, als mit Flattersatz. Andere Studien fanden bei normalen Lesern keinen Unterschied (Fabrizio, Kaplan, Real: Readability as a function of right-hand margins, 1967).

                    (Der Begriff 'schwache Leser' hat hier übrigens nichts despektierliches. Ich bin auch ein schwacher Leser in Fremdsprachen.)

                    • Die "Laborbedingungen" bei diesen Studien haben oft wenig mit realen Anforderungen zu tun. Oft müssen die Probanden einen Text in einer bestimmten Zeit gegenlesen. Aus der Anzahl gefundener Fehler wird auf die Lesbarkeit geschlossen.

                    Übertrage ich dies auf deine Fragestellung, so schliesse ich:
                    Wir sind uns als Drucksachenleser (v.a. in der deutschen Sprache) an die Silbentrennung (an jeder Stelle) gewöhnt, weil es diese schon immer gab. Ausnahme bilden vielleicht Leser, bei deren Textkonsum es sich hauptsächlich um Webinhalte handelt und schwache, ungeübte Leser.

                    Wo getrennt wird, spielte also für 'normale' Leser keine Rolle. Mit zunehmender Präsenz von Silbentrennung in Bildschirmtexten würden sich auch die Bildschirmleser daran gewöhnen. Bleiben noch die schwachen Leser, die mit kürzeren Sätzen, grösseren Schriften und Flattersatz ohne Silbentrennung sowieso besser bedient sind.

                    1. @@nam:

                      nuqneH

                      Oder wenn eine Studie von 1990 besagt, dass Texte am Bildschirm eine sehr schlechte Lesbarkeit aufweisen, kann das heute nicht mehr 1:1 übernommen werden. Wir sind uns heute eher daran gewöhnt.

                      Hier ist wohl eher die Verbesserung der Technik am Werk als Gewöhnung: höhere Monitorauflösung (ppi) und Schriftglättung geben ein besseres Schriftbild, dass dem bei auf Papier Gedrucktem deutlich näher kommt als 1990.

                      BTW, zuerst dachte ich an einen Typo, aber da’s weiter unten nochmal so vorkommt … Ihr sprecht ja wirklich so lustig in der Schweiz. ;-) Bei uns hieße es entweder „Wir sind heute eher daran gewöhnt“ (nicht reflexiv) oder „Wir haben uns heute eher daran gewöhnt“.

                      • Die "Laborbedingungen" bei diesen Studien haben oft wenig mit realen Anforderungen zu tun.

                      Ja, da muss man höllisch aufpassen, dass nicht das Experiment selbst seine Ergebnisse beeinflusst.*

                      Bleiben noch die schwachen Leser, die mit kürzeren Sätzen, grösseren Schriften und Flattersatz ohne Silbentrennung sowieso besser bedient sind.

                      Die können sich das alles ja in ihrem Nutzerstylesheet so einstellen (lassen).

                      Qapla'

                      * Von Heisenberg sind wir hier weit entfernt. ;-)

                      --
                      Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
                      (Mark Twain)
                    2. Hi,

                      CSS 3 macht es (zukünftig) möglich, den Anstand nicht nur zwischen den Wörtern, sondern auch zwischen den Buchstaben zu verteilen.

                      Au weia.
                      Das wird vermutlich zu noch furchtbarerem Schriftbild beim Blocksatz führen.

                      • Es gibt einen grossen Unterschied zwischen einerseits normalen und geübten Lesern und andererseits schwachen, ungeübten Lesern. So beobachteten Gregory und Poulton (1970) preview, dass schwache Leser mit Blocksatz mehr Mühe hatten, als mit Flattersatz.

                      Und die Zahl der Leute, die in ihrem Leben nie ein Buch in der Hand gehabt haben, wird in Zukunft vermutlich noch steigen …

                      MfG ChrisB

                      --
                      RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?