Kaka: Zeichensatz von PDFs?

Hallo!

Welchen Zeichensatz haben eigentlich PDFs? ISO? UTF-8? Andere?
Ich habe nämlihc das Problem das ich den Quelltext einer PDF nicht in eine neue Datei einfügen kann. Ich vermute es liegt am zeichensatz der falsch eingestellt ist (Eclipse(PHP)).

Wer weis rat?

Kaka

  1. Welchen Zeichensatz haben eigentlich PDFs? ISO? UTF-8? Andere?

    Die Zeichenkodierung ist variabel - als Zeichensatz dient heutzutage üblicherweise Unicode. Allerdings gilt die Zeichenkodierung bei PDF-Dateien nur intern. Die Dateien die z.B. Adobe Acrobat erstellt sind (in meinem Fall) ANSI-Dateien in denen die Daten aber UTF-8-Codiert sind.

    Ich habe nämlihc das Problem das ich den Quelltext einer PDF nicht in eine neue Datei einfügen kann. Ich vermute es liegt am zeichensatz der falsch eingestellt ist (Eclipse(PHP)).

    Wenn du den Quelltext eine PDF-Datei mit einem Texteditor öffnest (oder von einem in den anderen kopierst), wird dieser versuchen den Quelltext anhand der eingestellten Zeichenkodierung zu interpretieren. Nachdem weite Teile einer PDF-Datei aber nicht aus Bytefolgen bestehen, die sich sinnvoll mit gewöhnlichen Zeichenkodierungsmetoden wie ISO 8895-1 oder UTF-8 darstellen lassen, wird dein Editor möglicherweise große Teile des Dokuments zerstören.

    Mehr Glück wirst du ggf. mit einem Hex-Editor haben - oder gleich mit einem geeigneten Bearbeitungswerkzeug für PDF-Dateien.

    1. Servus...

      ...wird dein Editor möglicherweise große Teile des Dokuments zerstören.

      Genau das passiert auch.

      Mehr Glück wirst du ggf. mit einem Hex-Editor haben

      Einen Hex-Editor? Sowas?

      oder gleich mit einem geeigneten Bearbeitungswerkzeug für PDF-Dateien.

      Ja ne ich möchte ja mit PHP die Dateien bearbeiten..
      Bin ein wenig Ratlos! Muss wohl noch intensiver GOOGLEN :-)

      Kaka

      1. oder gleich mit einem geeigneten Bearbeitungswerkzeug für PDF-Dateien.
        Ja ne ich möchte ja mit PHP die Dateien bearbeiten..

        Auch für PHP gibt es geeignete Bearbeitungswerkzeuge für PDF-Dateien - du müsstest nichts selbst programmieren. Wenn du dich dennoch daran versuchen willst: In jedem Fall darf die Datei aber nicht als Textdatei interpretiert werden - auch wenn sie das auf den ersten Blick zu sein scheint. PHP stellt viele Funktionen zur Verfügung die binary-safe sind - nutze nur solche um dein Vorhaben zu erreichen.