Stefan Karzauninkat: Spracherkennung bei Fireball

Beitrag lesen

Hi,

Jemand erzählte mir, dass ein HTML-Dokument mindestens zu 50% aus deutschsprachigen Worten bestehen muss, um als deutschsprachig eingestuft zu werden, aber irgendwie kann ich es mir nicht so ganz vorstellen. Da HTML ja englisch ist und ein HTML-Dokument zwangsläufig viel HTML enthält <g>, müsste man sich ja diesbezüglich ziemlich anstrengen.

HTML Tags werden nicht ausgewertet, insofern spielt das keine Rolle.

aus http://www.suchfibel.de/8geschichten/verlag.htm

Ist das Dokument eindeutig fremdsprachlich, wird es nicht indexiert und auch die Links nicht verfolgt.

Ist die Sprache nicht eindeutig als fremdsprachlich oder deutsch zu klassifizieren, so wird das Wörterbuch konsultiert, um so die Sprache des Dokumentes herauszufinden; die Links dieser Seite werden weiter verfolgt. Wegen der häufig vorkommenden Grenzfälle auf dänischen und holländischen Seiten wird bei den Domains .dk und .nl gleich zu Beginn das Wörterbuch herangezogen.

Kann anhand des ersten Tests eindeutig festgestellt werden, daß es sich um ein deutschsprachiges Dokument handelt, so wird es indexiert und alle Links verfolgt. Klingt zwar komplizierter als die reine Überprüfung mittels Wörterbuch, ist aber effizienter.

Wieviel % genau ist nicht bekannt, da in solchen Zahlen oft monatelange empirische Forschungen stecken. Die Erkenntnisse will man nicht an die Konkurrenz verschenken.

-----

Beim nächsten Update wurde noch das Metatag <META NAME="Content-Language" CONTENT="de"> hinzugefügt und ausserdem ein längerer deutschsprachiger Text als Kommentar,

Kommentare werden ignoriert.

wird morgen nachmittag online sein. Wenn dann die Seite wieder als englischsprachig eingestuft wird, kann ich mir beim besten Willen nicht mehr erklären, woran das liegen könnte. Hast Du eine Idee?

Verschiedene Seiten in unterschiedlichen Sprachen bauen und die jeweils passende anmelden.

Siehe auch:
http://www.suchfibel.de/6gefunden/faqgestaltung.htm

gruss, kaz