Kurzbezeichnung (ISO ?) für Schriftsprachen
Linuchs
- sonstiges
0 molily0 Gunnar Bittersmann0 Linuchs
Hallo,
ich erstelle internationale Lied-Texte. Im Verzeichnis gebe ich die Sprache an nach ISO 639. Da wäre hochdeutsch mit "de", russisch mit "ru" usw.
Doch nun möchte ich auch angeben, in welcher Schriftsprache der Text vorliegt. Deutsche Texte also in Latein, Serbische Texte in Kyrillisch, griechische Texte ...
Welche Norm informiert über die Schriftsprachen?
Linuchs
Hi,
ich hab keine Ahnung, aber eine Minute googlen liefert
http://de.wikipedia.org/wiki/ISO_15924
http://www.unicode.org/iso15924/iso15924-codes.html
M.
@@Linuchs:
nuqneH
Doch nun möchte ich auch angeben, in welcher Schriftsprache der Text vorliegt. Deutsche Texte also in Latein, Serbische Texte in Kyrillisch, griechische Texte ...
Welche Norm informiert über die Schriftsprachen?
„Schriftsprache“ ist nicht der richtige Ausdruck. Du meinst Schrift(system).
„Die aktuelle IETF-Spezifikation, die beschreibt, wie Sprachkennzeichnungen gebildet werden, ist BCP 47.* Darin wird nicht mehr auf die ISO-Codes verwiesen, sondern auf das neue IANA-Register für Sprachkürzel.“ [qa-lang-2or3]
In BCP 47 ist der Aufbau von Sprachkennzeichnungen beschrieben; das IANA-Register listet Kürzel für Sprachen, Schriften, Regionen usw. auf. Für Schriften suche nach 'Type: script'.
In Absatz 2.2.3 von BCP 47 heißt es: „[T]he script subtag SHOULD be omitted when it adds no distinguishing value to the tag or when the primary or extended language subtag's record in the subtag registry includes a 'Suppress-Script' field listing the applicable script subtag.“
Das ist für die deutsche Sprache der Fall. Deren Eintrag im IANA-Register sieht folgendermaßen aus:
Type: language
Subtag: de
Description: German
Added: 2005-10-16
Suppress-Script: Latn
Warum willst du 'de-Latn' verwenden, wenn Deutsch doch immer in lateinischer Schrift geschrieben wird? Bei Serbisch sieht das anders aus, Serbisch kann in kyrillischer und in lateinischer Schrift geschrieben werden.
S.a. Language tags in HTML and XML und Choosing a Language Tag.
Qapla'
* URI geändert und HTML-Variante des Dokuments verlinkt
Hallo Gunnar,
Warum willst du 'de-Latn' verwenden, wenn Deutsch doch immer in lateinischer Schrift geschrieben wird?
Nein. Nimm nur mal Städtebezeichnungen in Wikipedia. Die deutsche Stadt München heisst auch Мюнхен, مونیخ oder Μόναχο.
Klingt vielleicht etwas spitzfindig. Aber in einem meiner Projekte kann man nach Städten suchen. Und woher bitte, sollte ein USAner die "richtige" Schreibweise kennen, wenn ihm diese Stadt immer als Munich verkauft wird und er auf seiner Tastatur gar keine Umlaute hat?
Nun bin ich der Meinung, dass wir nicht nur deutsch- und englischsprachige Leser hofieren sollten.
Mein Konzept soll für Erweiterungen offen sein, deshalb das Thema.
Linuchs
Hallo,
Warum willst du 'de-Latn' verwenden, wenn Deutsch doch immer in lateinischer Schrift geschrieben wird?
Nein. Nimm nur mal Städtebezeichnungen in Wikipedia. Die deutsche Stadt München heisst auch Мюнхен, مونیخ oder Μόναχο.
Dann sind diese Wörter aber keine deutschen Wörter in einer anderen Schrift, sondern einfach nicht-deutsche Wörter in der Schrift, die für die jeweilige Sprache typisch ist.
»Мюнхен« wäre also nicht Sprache Deutsch + Schrift Kyrillisch, sondern einfach Sprache Russisch + dessen typische Schrift.
Die Wörter bezeichnen lediglich eine Stadt in Deutschland. Das hat mit der deutschen Sprache nur peripher zu tun.
Mathias
@@molily:
nuqneH
Die Wörter bezeichnen lediglich eine Stadt in Deutschland. Das hat mit der deutschen Sprache nur peripher zu tun.
So ist es.
Auf Polnisch heißt’s „Monachium“. Deutsche Stadt in lateinischen Buchstaben, aber nicht in deutscher Sprache.
Qapla'
okay, das Städtebeispiel war blöd.
Auslöser der Frage war ein Liedtext (Eleni):
|: Τώρα αγαπιμένο /
σε κοιτω και σκέφτομαι /
μακριά μου μην φοβάσαι /
δεν σε ξεχνώ ποτέ :|
Das normalerweise kein deutscher Sänger lesen kann. Deshalb die Translation
|: Tora agapimeno / se kitò ke skeftome /
kardia mou min fovase / den se ksechno potè :|
Ich möchte also "echten" Text von umgesetztem Text unterscheiden und das möglichst normgerecht.
In diesem Fall eleni_gr_xx.htm - griechische Sprache, das xx steht für die Schrift.
Linuchs
@@Linuchs:
nuqneH
Das normalerweise kein deutscher Sänger lesen kann. Deshalb die Translation
Transliteration bzw. Transkription.
|: Tora agapimeno / se kitò ke skeftome /
kardia mou min fovase / den se ksechno potè :|Ich möchte also "echten" Text von umgesetztem Text unterscheiden und das möglichst normgerecht.
Dafür wäre el-Latn das richtige Sprachkürzel.
In diesem Fall eleni_gr_xx.htm - griechische Sprache,
Nein, gr ist nicht das Kürzel für die griechische Sprache.
Unterstriche würde ich in Dateinamen/URIs vermeiden. Besser: Bindestriche. Aus vielerlei Gründen: einfacher einzugeben, bei unterstrichenen Links besser lesbar, SEO, …
Qapla'
Hallo Gunnar,
Transliteration bzw. Transkription.
Ja, hatte eben nach dem richtigen Begriff gesucht, aber nicht gefunden. Danke.
Unterstriche würde ich in Dateinamen/URIs vermeiden. Besser: Bindestriche. Aus vielerlei Gründen: einfacher einzugeben, bei unterstrichenen Links besser lesbar, SEO, …
Kann deine Gründe verstehen. Als Programmierer sind für mich Rechenzeichen in Variablen- und Dateinamen veboten, ebenso wie Umlaute.
Trotz heiliger Vesicherungen gibt es mit beiden immer wieder Probleme, die muss ich mir nicht ans Bein binden. Probleme auch bei Groß/Kleinschreibung (Windows/Linuchs).
Linuchs
@@Linuchs:
nuqneH
Unterstriche würde ich in Dateinamen/URIs vermeiden. Besser: Bindestriche. Aus vielerlei Gründen: einfacher einzugeben, bei unterstrichenen Links besser lesbar, SEO, …
Kann deine Gründe verstehen. Als Programmierer sind für mich Rechenzeichen in Variablen- und Dateinamen veboten
In Variablennamen nachvollziehbar.
In Dateinamen weniger. In URIs noch weniger.
Und jetzt hab ich’s auch wiedergefunden: Underscores vs. dashes in URLs (Video)
Qapla'
mal ein Beispiel, um es auf die Spitze zu treiben. Bei Extremen wird die Problematik der Abgrenzung deutlicher.
Михаи́л Серге́евич Горбачёв russisch_kyrillisch
Mikhail Sergeyevich Gorbachyov russisch_latin
Mikhail Gorbachev english_latin
Michail Sergejewitsch Gorbatschow deutsch_latin
Μιχαήλ Γκορμπατσώφ griechisch_griechisch
Ich möchte also einen deutsch_latin Dateinamen vergeben, der obige Inhalte unterscheidet.
Linuchs
@@Linuchs:
nuqneH
Михаи́л Серге́евич Горбачёв russisch_kyrillisch
ru. Bei Sprachkürzel normalerweise kein Grund für ru-Cyrl.
Russisch wird üblicherweise nicht mit Betonungszeichen geschrieben. Außer ausnahmsweise in Sprachlernbüchern.
Mikhail Sergeyevich Gorbachyov russisch_latin
Als Transliteration: ru-Latn
Mikhail Gorbachev english_latin
en. Bei Sprachkürzel normalerweise kein Grund für en-Latn.
Wo ist der Vatersname Sergeyevich abgeblieben?
Michail Sergejewitsch Gorbatschow deutsch_latin
de. Bei Sprachkürzel normalerweise kein Grund für de-Latn.
Μιχαήλ Γκορμπατσώφ griechisch_griechisch
el. Bei Sprachkürzel normalerweise kein Grund für el-Grek.
Wo ist der Vatersname Σεργκέγιεβιτς abgeblieben?
Ich möchte also einen deutsch_latin Dateinamen vergeben, der obige Inhalte unterscheidet.
Was du mit deinen Dateinamen machst ist natürlich dir überlassen. Ich sehe aber immer noch nicht den Grund, warum das Schriftkürzel da sein sollte, wenn es überflüssig ist.
Qapla'
Hallo Gunnar,
Mikhail Gorbachev english_latin
Wo ist der Vatersname Sergeyevich abgeblieben?
Kein Ahnung, habe mir die Überschriften von Wikipedia-Artikeln gegriffen. Vielleicht legen Engländer und Griechen keinen Wert auf Väter?
Ich sehe aber immer noch nicht den Grund, warum das Schriftkürzel da sein sollte, wenn es überflüssig ist.
Stimmt, das ist ja die Ausnahme. Und nur dann werde ich es setzen. Bei einem russiachen/griechischen Liederbuch für Deutsche also immer -Latn
Linuchs