Karl Heinz: PDF - Beim Kopieren über Zwischespeicher verschwinden Bindestriche

Hallo,

ich habe eine interessante Feststellung gemacht.

Mir liegt ein PDF Dokument vor. Dieses PDF Dokument enthält Bindestriche.

Kopiere ich den Inhalt aus dem PDF Dokument und füge diesen in einen Editor ein z.B. der Standard Editor von Linux Mint oder den Editor Geany so verschwinden alle Bindestriche wie von Geisterhand.

Kopiere ich den Inahlt aus dem PDF Dokument und füge diesen in den Libre Office Writer ein, so bleiben die Bindestriche erhalten.

Dieser Bug tritt allerdings nur bei diesem einen PDF-Dokument auf.

Testweise habe ich mir ein zweites PDF mit Bindestrichen erstellt. Bei diesem zweiten PDF funktioniert das Kopieren des Inhaltes sowohl zum Editor als auch zum Libre Office Writer tadellos. Die Bindestriche werden mitkopiert.

Demnach muss mit dem PDF bzw. mit den Bindenstrichen im PDF Dokument wohl etwas nicht stimmen.

Könnt Ihr mir anhand dieser Informationen dabei behilflich sein herauszufinden, aus welchem Grund die Bindestriche beim Einfügen in einen Editor verschwinden?

  1. Könnt Ihr mir anhand dieser Informationen dabei behilflich sein herauszufinden, aus welchem Grund die Bindestriche beim Einfügen in einen Editor verschwinden?

    Vermutlich sind das verschiedene Zeichen, die sich nur ähneln. Mit dem anderen "Bindestrich" kann Dein Editor dann nichts anfangen.

    1. Mahlzeit,

      evtl. ein Geviertstrich oder Halbgeviertstrich oder...
      Im Wikipedia zum Nachlesen.

      Fred

      1. evtl. ein Geviertstrich oder Halbgeviertstrich oder...
        Im Wikipedia zum Nachlesen.

        Ich bin der Ursache auf die Spur gekommen.

        Wie bereits erwähnt werden beim Kopieren von PDF zu Editoren die Bindestriche in den Editoren nicht angezeigt.

        Wie ebenfalls bereits erwähnt werden beim Kopieren von PDF nach Libre Office die Bindestriche im Libre Office Writer angezeigt, dort allerdings grau hinterlegt.

        Ich habe nun über die Libre Office Hilfe herausgefunden, dass grau hinterlegte Zeichen auf Formatierungszeichen hindeuten. Siehe hierzu nachfolgender Link:

        http://www.ooowiki.de/SteuerZeichen.html

        Nun Frage ich mich aus welchem Grund beim Kopieren von PDF nach Libre Office Writer aus Bindestrichen Formatierungszeichen gemacht werden?

        Kann es sein, dass im PDF Dokument Bindestriche in irgendeiner Form als Formatierungszeichen gekennzeichnet sind?

        Falls ja, wie kann ich das überprüfen bzw. wie konnte es passieren, dass beim Erstellen des PDF Dokumentes aus den Bindestrichen Formatierungszeichen gemacht wurden?

        Eigentlich dürften Formatierungszeichen doch garnicht mit in das PDF Dokument übernommen werden.

        1. Weil Open Office Geviertstrich und Konsorten als Steuerzeichen betrachtet?

          Wenn Du genauer wissen willst, was dein PDF enthält, kopier den Text in einen Unicodefähigen Texteditor, speichere ihn und schau Dir die Datei in einem Hexviewer an.

          Wenn Dir das fehlt, schreib Dir ein kleines (unicodefähiges) Programm, dass Dir die numerischen Werte für jedes Zeichen in einem String ausgibt. Als Billiglösung kopiere das hier in deine Browser-Konsole:

          "Hallo".split("").reduce(function(x, c) { return x + " " + c.charCodeAt(0); }, "")

          und ersetze "Hallo" durch den verdächtigen String. Wenn Du im Ergebnis Zahlen wie 8212 findest, bist Du im Geviertstrich-Land angekommen.

          Rolf

          1. Hallo Rolf b,

            Hexviewer

            Wenn Dir das fehlt, schreib Dir ein kleines (unicodefähiges) Programm,

            oder verwende etwa http://www.fontspace.com/unicode/analyzer

            Bis demnächst
            Matthias

            --
            Rosen sind rot.
            1. Ooookay - nicht lang genug gegoogelt. Den Einzeiler tippen ging fixer und machte mehr Spaß 😉

              Rolf

            2. Hallo Rolf b,

              Hexviewer

              Wenn Dir das fehlt, schreib Dir ein kleines (unicodefähiges) Programm,

              oder verwende etwa http://www.fontspace.com/unicode/analyzer

              Bis demnächst
              Matthias

              String aus PDF kopiert und auf der URL von Dir eingefügt. Siehe hierzu nachfolgender Screenshot. Könnt Ihr mir anhand des nachfolgenden Screenshots erklären, warum der Bindestrich beim Kopieren vom PDF in einen Texteditor verschwindet?

              fehlender Bindestrich

              1. Tach!

                String aus PDF kopiert und auf der URL von Dir eingefügt. Siehe hierzu nachfolgender Screenshot. Könnt Ihr mir anhand des nachfolgenden Screenshots erklären, warum der Bindestrich beim Kopieren vom PDF in einen Texteditor verschwindet?

                Das Soft-Hyphen-Zeichen zeigt sich ungern, weil es schüchtern ist. Deswegen wird das Entity dazu als &shy; geschrieben.</😉>

                Abgesehen davon ist es ein unsichtbares Zeichen, solange ein Wort nicht umgebrochen werden muss. Erst dann kommt es zum Vorschein.

                dedlfix.

                1. Abgesehen davon ist es ein unsichtbares Zeichen, solange ein Wort nicht umgebrochen werden muss. Erst dann kommt es zum Vorschein.

                  Nachfolgend ein Screenshot vom PDF, aus welchem ich den Bereich von oben kopiert habe. Im PDF wird der Bereich nicht umgebrochen, warum wird der Bindestrich denn dann troztdem im PDF angezeigt?Screenshot

                  1. Tach!

                    Im PDF wird der Bereich nicht umgebrochen, warum wird der Bindestrich denn dann troztdem im PDF angezeigt?

                    Es gab auch lange Zeit Browser, die den Soft-Hyphen-Mechanismus nicht implementiert hatten und stattdessenden immer einen Bindestrich angezeigt hatten. Ob der also generell oder intentionsgemäß zu sehen ist, hängt vom Prgramm ab.

                    Ich nehme an, das PDF oder irgendein vorhergehender Textverarbeiter hat hier eigenmächtig ein Bindestrich-Minus zu einem SHY umgewandelt. Es ist jedenfalls sehr ungewöhnlich, in Code solch ein problematisches Zeichen zu verwenden.

                    dedlfix.

              2. Hallo

                Könnt Ihr mir … erklären, warum der Bindestrich beim Kopieren vom PDF in einen Texteditor verschwindet?

                Soft Hyphen

                Zitat: „Falls das Wort umbrochen wird, erscheint dort am Zeilenende ein Trennstrich. Wird das Wort nicht umbrochen, bleibt das weiche Trennzeichen im ausgedruckten Dokument beziehungsweise im Webbrowser unsichtbar.“

                Das hättest du aber auch selbst ermitteln können. Der Name des Zeichens stand dir bereits zur Verfügung und wie eine Suchmaschine zu bedienen ist, sollte nicht erklärt werden müssen.

                Tschö, Auge

                --
                Wenn man ausreichende Vorsichtsmaßnahmen trifft, muss man keine Vorsichtsmaßnahmen mehr treffen.
                Toller Dampf voraus von Terry Pratchett
              3. Ich bin da nicht ganz eurer süffisanten Meinung. Meine TEXT-Editoren (Notepad, Notepad++, File Commander) zeigen das 0xAD Zeichen an. Wie einen Bindestrich.

                Word ist merkwürdig - ich habe einen Text mit &shy; drin eingefügt und es sah wie ein Minus aus, später habe ich es nochmal gemacht und dann hat er es als ¬ dargestellt, also das NOT-Zeichen, das man von Word bei "Alles anzeigen" als Darstellung des Soft Hyphen bekommt. Keine Ahnung was ich da anders gemacht hatte.

                Wer es nicht anzeigt, ist der Browser (also ein Paste hier ins EDIT Fenster oder die Adressleiste) und überraschenderweise Visual Studio (2015). Allerdings - wenn ich das Soft Hyphen aus Word kopiere und hier einfüge, zeigt er es an - muss wohl dran liegen, dass Word dann das NOT Zeichen (Code 0xAC) daraus macht.

                D.h. in einem TEXTEDITOR würde ich eine Anzeige erwarten (auch wenn VS das anders sieht), und in einer TEXTVERARBEITUNG nicht (auch wenn Word das bei mir anders gesehen hat).

                Jedenfalls haben wir nun gemeinsam die wunderbare Welt des Unicode-Chaos erkundet :)

                Rolf

                1. Tach!

                  Jedenfalls haben wir nun gemeinsam die wunderbare Welt des Unicode-Chaos erkundet :)

                  Oder auch nicht, weil dieses Zeichen auch in anderen Zeichensätzen vorkommt und das Problem nicht Unicode-spezifisch ist. Wenn, dann ist es ein Chaos mit der Interoperabilität und in Software eingebaute Automatismen.

                  dedlfix.