Welchen Zeichensatz haben eigentlich PDFs? ISO? UTF-8? Andere?
Die Zeichenkodierung ist variabel - als Zeichensatz dient heutzutage üblicherweise Unicode. Allerdings gilt die Zeichenkodierung bei PDF-Dateien nur intern. Die Dateien die z.B. Adobe Acrobat erstellt sind (in meinem Fall) ANSI-Dateien in denen die Daten aber UTF-8-Codiert sind.
Ich habe nämlihc das Problem das ich den Quelltext einer PDF nicht in eine neue Datei einfügen kann. Ich vermute es liegt am zeichensatz der falsch eingestellt ist (Eclipse(PHP)).
Wenn du den Quelltext eine PDF-Datei mit einem Texteditor öffnest (oder von einem in den anderen kopierst), wird dieser versuchen den Quelltext anhand der eingestellten Zeichenkodierung zu interpretieren. Nachdem weite Teile einer PDF-Datei aber nicht aus Bytefolgen bestehen, die sich sinnvoll mit gewöhnlichen Zeichenkodierungsmetoden wie ISO 8895-1 oder UTF-8 darstellen lassen, wird dein Editor möglicherweise große Teile des Dokuments zerstören.
Mehr Glück wirst du ggf. mit einem Hex-Editor haben - oder gleich mit einem geeigneten Bearbeitungswerkzeug für PDF-Dateien.