Schlagworte in Datenbank übersetzen. Wie würdet Ihr das machen?
Peter Karstens
- datenbank
Hallo.
Ein Kunde hat ein Problem, er hat eine Bilddatenbank, bei der zu jedem Bild deutsche Schlagworte/Metadaten/Keywords existieren. Nun möchte er gerne expandieren und sucht eine Möglichkeit, auf diese Daten auch in anderer Sprache zurückzugreifen.
Er hat also beispielsweise ein Bild von einem Auto und die Schlagworte dazu sind "Auto, Fahrzeug, Räder, Oltimer, rot, metallig etc."
Wenn er nun das Angebot auf english anbieten will, blieben meiner Meinung nach nur drei Möglichkeiten:
1. er lässt den gesamten Datenbankinhalt übersetzen und danach ersetzen
2. er legt eine "Vergleichstabelle" an, die übersetzt, also etwa "car = auto" und schaltet diese der Suchanfrage voraus
3. er nutzt eine Übersetzungssoftware die auf dem Server läuft (wenns die gibt?)
Was meint Ihr? Was ist da gängige Praxis?
Gruß, Peter Karstens
Hallo,
- er legt eine "Vergleichstabelle" an, die übersetzt, also etwa "car = auto" und schaltet diese der Suchanfrage voraus
Wenn die Schlagwörteranzahl sich im Rahmen hält und es häufig die gleichen Schlagwörter sind (und auch für die gleiche Eigenschaft immer das gleiche Schlagwort verwendet wird, also nicht, dass es mal "metallic" und ein anderes mal "metalleffektlackierung" ist), dann ist das sicherlich die einfachste Möglichkeit.
Wenn man erstmal diese Tabelle angelegt hat, ist es dann auch Problemlos möglich, die Schlagwörter einmal zu übersetzen und in eine neue Tabellenzeile eintragen zu lassen, dann senkt dann etwas die Last.
mfg
pmg
Hi,
Ein Kunde hat ein Problem,
Nein, hat er nicht mehr, denn er hat's Dir ja übergeben und Du übergibst es uns ;-)
er hat eine Bilddatenbank, bei der zu jedem Bild deutsche Schlagworte/Metadaten/Keywords existieren. Nun möchte er gerne expandieren und sucht eine Möglichkeit, auf diese Daten auch in anderer Sprache zurückzugreifen.
Er hat also beispielsweise ein Bild von einem Auto und die Schlagworte dazu sind "Auto, Fahrzeug, Räder, Oltimer, rot, metallig etc."
Da sind Rückfragen fällig:
Sind das alles einzelne Worte (sporadische Ausnahmen sind OK)?
Ist die Rechtschreibung wie in Deinem Beispiel ... ähm ... nicht perfekt?
Wenn er nun das Angebot auf english anbieten will, blieben meiner Meinung nach nur drei Möglichkeiten:
- er lässt den gesamten Datenbankinhalt übersetzen und danach ersetzen
- er legt eine "Vergleichstabelle" an, die übersetzt, also etwa "car = auto" und schaltet diese der Suchanfrage voraus
- er nutzt eine Übersetzungssoftware die auf dem Server läuft (wenns die gibt?)
Na, bevor es an die Lösung geht, sollte schon erstmal das Problem bekannt sein ;-)
Ich nehme einfach mal Worst Case an: es sind mehrheitlich keine Einzelworte (Keywords) und die Rechtschreibung ist auch recht "kreativ".
Vorschlag 1 geht immer. Es kann zwar in obigem schlimmstem Fall heißen, das man tatsächlich eine Übersetzer beschäftigen muß, aber es geht. Die Speicherung der Übersetzung kostet etwa genausoviel Platz wie das Original (deutsch:englisch liegt etwa bei 11:10)
Vorschlag 2 erfordert einheitliche Rechtschreibung und vollständige Kenntnis der vorkommenden Sentenzen sowie aller Übersetzungen. Die Speicherung benötigt etwa anderthalbmal soviel Speicher wie Vorschlag 1 (die Übersetzungstabelle benötigt ja schließlich beide Sprachen plus die Originalsprache). Allerdings ließe sich der Platzbedarf der Übersetzungstabellen durch Hashing verkleinern. Wieviel hängt von der Redundanz der Originalsprache ab.
Vorschlag 3 ... naja ... ich kenne eigentlich keine wirklich funktionierende Übersetzungssoftware, deshalb ist dieser Vorschlag nicht wesentlich von Vorschlag 2 verschieden.
Wenn die Datenbank statisch ist würde ich Vorschlag 1 empfehlen. Da mein angenommener Worst Case wohl kaum vorkommt und zudem beim Eintragen der Stichworte auch in Grenzen gehalten werden kann ist das auch einfach zu implementieren. http://dict.leo.org/ und ein paar Zeilen Perl dürften das schnell erledigt haben (bei kommerzieller Nutzung ist aber anstandshalber die CD zu erwerben, kost' ja nicht viel).
Bei einer dynamischen Datenbank mit hohen Fluktuationsraten könnte man zu Vorschlag 2 tendieren, allerdings ist da eine hohe Qualität der Keywords bezüglich Rechtschreibung unabdingbar und etwas anderes als Einwort-Keywords werden recht schwierig. Zudem könnte die Implementation langwierig werden, wenn man zuwenig Selbstdisziplin aufbringt bei "gut genug" aufzuhören. Ja, ich kenn' das vonmir selber, das hast Du richtig getippt;-)
so short
Christoph Zurnieden
Hallo,
(bei kommerzieller Nutzung ist aber anstandshalber die CD zu erwerben, kost' ja nicht viel).
hast du ein Link dahin?
ich find auf der Seite kein Link, wo man die CD von Leo kaufen könnte
mfg
Twilo
Hi,
(bei kommerzieller Nutzung ist aber anstandshalber die CD zu erwerben, kost' ja nicht viel).
hast du ein Link dahin?
ich find auf der Seite kein Link, wo man die CD von Leo kaufen könnte
Tja, da hätte ich mich wohl vorher nochmal informieren sollen, denn es scheint wohl keine Möglichkeit mehr zu geben, eine Offlineversion zu erwerben.
Bitte höflichst um Entschuldigung.
so short
Christoph Zurnieden
Hallo,
(bei kommerzieller Nutzung ist aber anstandshalber die CD zu erwerben, kost' ja nicht viel).
hast du ein Link dahin?
ich find auf der Seite kein Link, wo man die CD von Leo kaufen könnte
Tja, da hätte ich mich wohl vorher nochmal informieren sollen, denn es scheint wohl keine Möglichkeit mehr zu geben, eine Offlineversion zu erwerben.
Bitte höflichst um Entschuldigung.
du brauchst dich nicht ebntschuldigen
ich bin auf der Suche nach einer Offline Version
schade, dass es von leo keine (vielleicht nicht mehr?) CD gib
mfg
Twilo
Hi,
ich bin auf der Suche nach einer Offline Version
Ja, das hatte ich mir schon so irgendwie gedacht ;-)
schade, dass es von leo keine (vielleicht nicht mehr?) CD gib
Du könntest Dir natürlich mit ein paar Zeilen Perl alles runterziehen. Aber das ist, auch wenn es nur für den persönlichen Gebrauch wäre, nicht gerade höflich. Es gibt jedoch einige gute englisch<->deutsch Lexika im Netz, die auch eine freie Lizenz haben. Nur falls Du kommerzielle Absichten haben solltest (es reicht ja schon ein Werbebanner dafür, Du kennst das ja).
Die bekanntesten: steak und Ding. Leider sind die Versionen nach dem 11.02.2005 von http://www.dict.cc/ nicht mehr GPL sondern stehen nun mit einer recht fadenscheinigen Begründung unter einer proprietären Lizenz die eine kommerzielle Nutzung verbietet. Von einer Nutzung, auch der Onlineversion ist deshalb abzusehen, zudem auch nicht ganz sicher ist, ob alle Mitwirkenden der Umlizensierung zugestimmt haben.
so short
Christoph Zurnieden