Karl Heinz: Fehlerhafte Zeichenkodierung nach Copy&Paste

Beitrag lesen

Wie haben die von Google denn herausgefunden, dass sich bei UA-106473715-1 hinter der 5 noch ein %AD eingeschlichen hat?

http://www.fontspace.com/unicode/analyzer

Hallo Matthias,

vermutlich ist der Programmierer her gegangen und hat den Analyitcs-Code bzw. die UA-Nummer, die Bestandteil des Analytics-Codes ist, aus dem PDF-Dokument kopiert und in den Quellcode gepackt.

Um zu prüfen, ob sich an dieser Stelle der Fehler mit den zusätzlichen unsichtbaren Zeichen (dem bedingten Trennstrich) eingeschlichen hat, bin ich her gegangen und habe die UA-Nummer aus dem PDF-Dokument kopiert und in den von Dir verlinkten Unicode Analyzer gepackt. Hierbei fällt mir folgendes auf:

Durch das Kopieren von UA-­106473715­-1 vom PDF in das Eingabefeld von Unicode Analyzer werden die beiden – einfach verschluckt, Sie werden einfach nicht im Eingabefeld angezeigt. Im Eingabefeld vom Unicode Analyzer wird folgendes angezeigt:

UA1064737151

Vermutlich wurden die beiden – aus irgend einem Grund im PDF durch durch den bedingten, nicht sichtbaren Trennstrich, ersetzt. Eine Analyse mit dem Unicode Analyzer bestätigt diese Vermutung.

Aus diesem Grund wird der Programmierer die beiden – (einmal hinter UA und einmal hinter der 5) vermutlich händisch eingegeben haben.

Es ergibt sich demnach folgendes:

UA<Soft Hyphen>-106473715<Soft Hyphen>-1

Das passt dann auch mit der Ausgabe des Unicode Analyzer zusammen.

Demnach hat sich beim Erstellen des PDF Dokumentes irgendwo der Fehler eingeschlichen, sprich das – wurde durch den bedingten nicht sichtbaren Trennstrich ersetzt.

Ich haben den Fehler sogar noch weiter eingrenzen können:

Ich habe ein Libre Office Writer Dokument erstellt und folgende Nummer eintragen: UA-106473715-1

Option 1:

Erstelle ich aus dem Libre Office Writer Dokument sofort ein PDF, ohne die Nummer mit einer anderen Schriftart zu formatieren, bleibt das – im PDF erhalten und wird nicht durch einen bedingten Trennstrich ersetzt.

Option 2:

Ändere ich im Libre Office Writer Dokument zunächst die Schriftart der Nummer UA-106473715-1 in Courier 10 Pitch ist das – im PDF zwar nach wie vor zu sehen, ein Copy und Paste in den Unicode Analyzer zeigt allerdings, dass hier irgendwas schief gelaufen ist. Nach dem Einfügen in die Eingabebox des Unicode Analyzer wird das – nichtmehr angezeigt sondern stattdessen UA1064737151. Im PDF Quell-Dokument wird hingegen UA-106473715-1 angezeigt. Ist das ein Bug im Libre Office PDF Generator?

Wie kann es sein, dass im PDF - angezeigt wird, dieses - aber bei Copy & Paste vom PDF in die Unicode Analyzer Eingabebox verschwindet?