kästchen in dem 0095 steht zu etwas brauchbarem umwandeln von Blackbit, 20.10.2012 15:32

kästchen in dem 0095 steht zu etwas brauchbarem umwandeln

Blackbit 20.10.2012 15:32

perl

Tach!

naja auf die quelldatei mit den bullet dingern hab ich keinen einfluss die wird von anderen erstellt...

In welcher Kodierung wird sie erstellt?

ich möchte die textdatei eigendich nur in ganz normalen unicode haben

Ganz normales Unicode ist nie in Dateien enthalten. In Dateien befinden sich die Unicode-Zeichen immer in irgendeinem Unicode Transformation Format (UTF-8, UTF-16, ...). Wenn du die Datei bereits UTF-irgendwas-kodiert bekommst und sich darin die entsprechende Bytesequenz für das Zeichen U+0095 befindet, so ist das kein Bullet sondern ein Steuerzeichen. Dann hat jemand einen Fehler gemacht. Wenn du sie umkodiert hast, liegt der Fehler auf deiner Seite. Hast du Windows-1252-spezifische Zeichen in deinem Dokument (wovon man ausgehen muss, wenn 0x95 ein Bullet ist), dann musst du das von da aus nach UTF-irgendwas umkodieren, damit die Bytesequenz für den korrekten Unicode-Codepoint U+2022 entsteht.

deswegen such ich ne möglichkeit die unicodes durch irgendwas anderes auszutauschen wie zb ein <br> tag

Was hast du wirklich in der Datei stehen? Schau da bitte mit einem Hex-Editor nach. Wenn sie UTF-8-kodiert sein soll und du für das Bullet ein C2 95 findest, dann ist das kein Bullet (U+2022, UTF8: E2 80 A2) sondern das Steuerzeichen U+0095. Wenn du auf Zeichenebene arbeitest, musst du dieses Steuerzeichen ersetzen und im Code dieses Zeichen oder eine Escape-Sequenz davon notieren. Auf Byte-Ebene gearbeitet musst du die eben die Sequenz C2 95 bearbeiten.

Ich kann dir nur sagen, wie du es theoretisch machen musst, weil ich einerseits aus deiner Beschreibung nicht konkret entnehmen kann, was wirklich vorliegt und dir andererseits auch nicht sagen kann, wie das in Perl zu handhaben ist.

dedlfix.

jop im hex editor zeigt er mir C2 95 0A an für das bullet.. jetzt muss ich nur noch rausbekommen wie ich die ersetzen kann

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Blackbit: kästchen in dem 0095 steht zu etwas brauchbarem umwandeln

Beitrag lesen

kästchen in dem 0095 steht zu etwas brauchbarem umwandeln

kästchen in dem 0095 steht zu etwas brauchbarem umwandeln