Sven Rautenberg: Gibt es hier Unicode Spezialisten?

Beitrag lesen

Moin!

Wie ist es aber nun, wenn ich einen Produktkatalog aus pdf Dateien erstellen muss.

Das hängt - wie immer - von der Software ab. PDF selbst sollte es eigentlich hinbekommen, Unicode zu verarbeiten. Sofern dein Ausgangsmaterial also zumindest die gewünschten Zeichen anzeigt, sollte es erstmal keine Probleme geben.

Ich würde gerne für die Zukunft alles unicode konform machen.

Das ist sicherlich eine gute Idee. Du gewinnst dadurch den Vorteil, dass du wirklich alle möglichen und in Unicode definierten Zeichen darstellen kannst (einige Alphabete sind ja leider nicht drin, beispielsweise Klingonisch - das wurde abgelehnt).

In Selfhtml wird ja auch gesagt, dass früher oder später unicode die derzeitigen Zeichensätze ablösen soll.

Diese Aussage würde ich etwas kritisch betrachten. Zum einen: Unicode ist der zugrundeliegende Zeichensatz für HTML, XHTML und XML. Und zwar schon seit immer, weil die Urform SGML schon darauf aufbaut. Das ist also nichts neues.

Was hingegen neu ist, ist der zunehmende Anteil nicht-englischer Sprachen im Internet. Das heißt, die Bedeutung internationaler Webseiten und die Verarbeitung von Zeichenmischungen, die sich im Prinzip nur mit "gemischten" Codierungen wie UTF-8 darstellen lassen, wächst gewaltig.

Während man also früher für seine englische und/oder deutsche Webseite ganz prima mit "irgendeinem" Editor zurechtkam, ist es heutzutage sehr ratsam, einen unicode-fähigen Editor zu benutzen, welcher in der Lage ist, UTF-8 auszugeben. Und andersherum steigt auch die Bedeutung der Verarbeitung von UTF-8-Daten aus Formularen. Hier bekleckern sich die Browser (mit Ausnahme von Opera) leider nicht mit Ruhm, sondern machen noch viel Blödsinn.

Aber HTML hat mit PDF zunächst einmal absolut nichts zu tun, weshalb die dort auftretenden Probleme dich nicht verunsichern sollten. Die Erstellung eines PDFs ist mit einer Insellösung (d.h. es reicht, dass es auf deinem Rechner geht) machbar - sofern das PDF korrekt erstellt ist, sollte es dann überall richtig dargestellt werden.

Es wäre für mich unmöglich all diese griechischen Texte in die hex Werte zu konvertieren. Dafür bräuchte ich nur für das Nachschlagen wahrscheinlich 25 Jahre. Wenn ich nun einen Text in einem PDF Dokument markiere und versuche diesen in die mySQL DB zu kopieren konvertiert der die in ASCII Zeichen.

Das ist alles eine Frage der Zeichencodierung. Es gibt eine ISO-8859-7 Codierung für griechisch. Ein PDF, welches nur griechischen Text enthält, kann damit prima klarkommen. Das bedeutet aber auch: Der Bytewert, der im griechischen ISO-8859-7 für das große Omega steht (dezimal 217), der steht im deutschen ISO-8859-1 für das "Ù". Deswegen ist es extrem wichtig, dass man zu einer Bytefolge, die einen Text darstellen soll, auch die verwendete Codierung angibt. Ebenso kann man, wenn man die Codierung kennt, eine Konvertierung in andere Codierungen durchführen. Ein guter Editor kriegt sowas hin.

Für deine Experimente würde ich dir den Editor "UniRed" empfehlen. Der ist Freeware und kann mit allen Zeichencodierungen umgehen, die man üblicherweise antreffen kann. http://www.esperanto.mv.ru/UniRed/.

Wie bekomme ich die nun aus dem pdf Dokument heraus?

Experimentieren, und gucken, was rauskommt.

Ach ja - mir fällt gerade auf, dass ich im ersten Posting ([pref:t=84613&m=496327]) alle numerischen Entities falsch angegeben habe. Immer fehlt das Doppelkreuz. Falsch: &250; Richtig ú

- Sven Rautenberg