Sven Rautenberg: Wollte nicht kneifen, aber 1&1 hat "Späße" gemacht

Beitrag lesen

Moin!

Für sinnvoll halte ich daher auch nach unserer Diskussion immer noch die Unterscheidung

kein UTF-8
  ASCII (127) und damit UTF-8 1Byte
  UTF-8 mit Folgebyte(s)

Und ich halte die Unterscheidung nicht für sinnvoll.

Wenn ich auf UTF-8 teste, dann benötige ich vollkommen unabhängig davon, wie lang die einzelnen Zeichen in Byte sind, so oder so eine vollständige Behandlungsmöglichkeit für UTF-8.

Das heißt: Entweder meine Bytefolge paßt in das Muster "UTF-8" hinein - oder nicht.

Wenn zufällig in der Bytefolge nur Bytes kleiner 128 auftauchen - kein Unterschied. Wenn ich in der Lage sein muß, UTF-8 verarbeiten zu können, bringt mir dieser Sonderfall absolut nichts, weil er nichts erleichtert, denn den Code für Multibyte-Zeichenbehandlung (wenn denn erforderlich) muß ich auch dann haben, wenn nur Einzelbytes vorkommen - ansonsten wäre die Verarbeitung nicht UTF-8-fähig.

Umgekehrt: Wenn ich nur in der Lage sein muß, ASCII zu verarbeiten (wohlgemerkt nach der strengen Auslegung, also nur 7 Bit!), wird sicher vieles leichter, aber dann fehlen für normale westeuropäische Texte schlicht die Umlaute und sonstigen diakritischen Zeichen, die im Bereich >128 stecken. Dann muß ich aber auch nichts von UTF-8 wissen, sondern checke einfach nur jedes Byte, ob es kleiner 128 ist, und fertig.

- Sven Rautenberg

--
My sssignature, my preciousssss!
0 45

utf-8 detection

Dieter Raber
  • php
  1. 0
    Siechfred
    1. 0
      Tom
      1. 0
        Siechfred
        • menschelei
      2. 0
        Cybaer
        1. 0

          Gibt es eine utf-8 String-Klasse?

          Tom
          1. 0
            dedlfix
            1. 0
              Tom
              1. 0
                dedlfix
                1. 0
                  Tom
                  1. 0
                    Sven Rautenberg
                    1. 0
                      Tom
                  2. 0
                    dedlfix
                    1. 0
                      Tom
                      1. 0
                        dedlfix
                        1. 0
                          Tom
                          1. 0
                            Sven Rautenberg
                            1. 0
                              Tom
            2. 0
              Cybaer
              • meinung
              1. 0
                dedlfix
                1. 0

                  NORMIERUNG: Sackgasse oder Lösungsansatz?

                  Tom
                  • sonstiges
                  1. 0
                    dedlfix
                  2. 1
                    Sven Rautenberg
                    1. 0
                      Cybaer
                    2. 0

                      Wollte nicht kneifen, aber 1&1 hat "Späße" gemacht

                      Tom
                      1. 0
                        Sven Rautenberg
            3. 0
              Cybaer
              • meinung
          2. 0
            Cybaer
      3. 0
        Sven Rautenberg
        1. 0

          utf-8 Byteanzahl und Wahl des Zeichensatzes

          Tom
          1. 0
            Sven Rautenberg
            1. 0
              Tom
              1. 0
                Sven Rautenberg
                1. 0

                  Übersetzung Code -> Glyphe

                  Tom
                  1. 0
                    Sven Rautenberg
                  2. 0
                    Cybaer
                    1. 0
                      dedlfix
                      1. 0
                        Cybaer
                        • menschelei
  2. 0
    Christian Seiler
    1. 0
      Dieter Raber
  3. 0
    Tom
    1. 0
      dedlfix
  4. 0

    utf-8 detection, danke und Zusatzfrage

    Dieter Raber
    1. 0
      Tom
      1. 0
        Dieter Raber