1unitedpower: Zeichenkodierung ermitteln

Hi,

ich habe eine drei Zeichen lange Byte-Sequenze D4 E9 BC, ich kenne leider die Zeichenkodierung nicht. Deshalb würde ich die Sequenz gerne in allen möglichen Kodierungen interpretieren und mir die resulturiende Zeichenkette ansehen. Ich hoffe, dass ich so durch den Kontext dann entscheiden kann, welche Kodierung benutzt wird.

Kennt jemand ein Online-Tool oder einen iconv-Befehl für so etwas?

Viele Grüße
1UP

  1. Lieber 1unitedpower,

    Kennt jemand ein Online-Tool oder einen iconv-Befehl für so etwas?

    PHP kennt iconv. Das sollte sogar in einer Shell nutzbar sein. Wenn es ohnehin PHP sein darf, da war doch mal was mitten in der Nacht...

    Liebe Grüße

    Felix Riesterer

  2. Tach!

    ich habe eine drei Zeichen lange Byte-Sequenze D4 E9 BC, ich kenne leider die Zeichenkodierung nicht. Deshalb würde ich die Sequenz gerne in allen möglichen Kodierungen interpretieren und mir die resulturiende Zeichenkette ansehen.

    Du möchtest also, um das mal zu konkretisieren, diese Sequenz von allen möglichen Kodierungen nach UTF-8 konvertieren, und das Ergebnis anzeigen, falls das ging.

    Ich hoffe, dass ich so durch den Kontext dann entscheiden kann, welche Kodierung benutzt wird.

    Kennt jemand ein Online-Tool oder einen iconv-Befehl für so etwas?

    Die Liste der unterstützten Kodierungen kann man abfragen. Und dazu eine Schleife müsste schon reichen.

    dedlfix.

  3. Hallo 1unitedpower,

    UTF-8 ist das nicht, das erste Byte beginnt mit der Bitfolge 110, d.h. es würde eine zweistellige Bytesequenz einleiten, aber dann müsste das zweite Byte mit 10 beginnen. Tut es nicht.

    Eine Übersicht über mögliche ISO 8859-Interpretationen steht in die Wikipedia. Die -1 Variante dürfte es nicht sein, aber bei -5 (Kyrillisch) scheint es konsistent zu sein. Bloß - was heißt дщМ? Wenn ich danach suche, finde ich immer Hinweise auf Brecher-Modelle...

    Rolf

    --
    sumpsi - posui - clusi
    1. Es gibt verschiedene Kodierungen für Kyrillisch.

      Фйј kommt raus wenn Du mit den angegebebenen Bytes hier auf Kyrillisch (Windows) einstellst.

      Also, ich habe die Anwendung so ergänzt daß der Browser die Zeichen zeigt, da kann man zur visuellen Betrachtung über den Browser auch andere Kodierungen einstellen. MFG

  4. Danke euch allen. Ich habe gehofft es gäbe so etwas schon fertig. Auf euren Rat habe ich mir ein PHP-Wegwerf-Skript geschrieben. Allerdings kommt man mit PHPs iconv-Funktionen nicht an die Liste der unterstützten Kodierungen, die habe ich mir deshalb vorher über die Kommandozeilge geholt.

    Das Skript sah dann etwa so aus:

    $encodings = [
        "ISO-8859-1",
        "ISO-8859-2",
        "ISO-8859-3",
        "ISO-8859-4",
        "ISO-8859-5"
    ];
    
    $input = hex2bin('D4E9BC');
    
    foreach ($encodings as $encoding) {
        echo @iconv($encoding, 'UTF-8', $input) . PHP_EOL;
    }
    

    Nur mit deutlich mehr Eingabe-Kodierungen. Leider konnte ich trotzdem keine Kodierung als plausiblen Kandidaten ermitteln. Meine Vermutung war, dass es sich um ein €-Zeichen handelt.

    1. Meine Vermutung war, dass es sich um ein €-Zeichen handelt.

      Wie bitte kommst Du denn darauf? MFG

      1. Hi,

        Meine Vermutung war, dass es sich um ein €-Zeichen handelt.

        Wie bitte kommst Du denn darauf? MFG

        aus'm Kontext vielleicht?

        Ciao,
         Martin

        --
        Altes Hausmittel: Salzflecken gehen mit Rotwein wieder raus.
      2. Meine Vermutung war, dass es sich um ein €-Zeichen handelt.

        Wie bitte kommst Du denn darauf? MFG

        Er hat Dein Wondertool nicht benutzt. MFG

  5. Ein Tool hab ich hier aber Deine Bytefolge gibt kein UTF8 kodiertes Zeichen. MFG

    1. Hallo Emil,

      zu der Behauptung dieses Tools, dass die Bytefolge D4 E9 BC den Codepoints U+569 U+BC entspräche, wage ich mal Zweifel anzumelden.

      Bau mal Plausis auf gültiges UTF-8 ein...

      Rolf

      --
      sumpsi - posui - clusi
      1. zu der Behauptung dieses Tools, dass die Bytefolge D4 E9 BC den Codepoints U+569 U+BC entspräche, wage ich mal Zweifel anzumelden.

        Rückrechnung: Das Tool stellt selber fest, daß das nicht stimmt.