molily: Meta-Tags HTML-encoden?

Beitrag lesen

Hallo,

muss man die Inhalte von Meta-Tags HTML-encoden (z.B. ü=ü)? Ich konnte darüber nirgends eine klare Aussage finden.

Nein. Für meta-Elemente gilt dasselbe wie für andere CDATA-Attribute, darin können theoretisch und praktisch Umlaute ohne Maskierung vorkommen.

Ich persönlich tippe auf nein. Begründung: Die HTML-Seite ist als ANSI- oder UTF-8-Text abgespeichert, die beide nationale Sonderzeichen beinhalten. Wenn ich einen "Sonderzeichen-Begriff" bei Google eingebe, dann entnehme ich dem Such-Sring, dass Google ihn auch als UTF-8-Text interpretiert.

Was hat das zu bedeuten? Google kann die Suchbegriffe in vielen verschiedenen Kodierungen entgegennehmen. Zum Beispiel in ISO-8859-1, http://www.google.at/search?q=�berlegen&ie=iso-8859-1.

Beispiel: Die Suche nach "überlegen" führt zu folgendem Google-Suchstring in der Adressleiste: http://www.google.de/search?q=überlegen&ie=UTF-8
Folglich werden zwei UTF-8-Strings verglichen und ein überlegen als Meta-Tag würde nicht gefunden werden.

Google rekodiert sowieso alle intern an dem Vergleich beteiligten Strings und gleicht deren Kodierung aneinander an, daher ist es egal, a) wie die GET-Daten (d.h. die Suchbegriffe in der URL) kodiert sind, b) welche Kodierung die Webseiten im Google-Index nutzen. Das heißt, wenn die Input-Encoding UTF-8 ist, findet man auch Dokumente, auf denen »überlegen« in ISO-8859-1 kodiert ist. Umgekehrt gilt dasselbe. Hinzu kommt, dass beim Indizieren eines Dokuments freilich alle numerischen Zeichenreferenzen und Entity-Referenzen wie ü aufgelöst werden. Das heißt, ein Dokument, das »überlegen« enthält, wird intern mit demselben Stichwort verknüpft wie ein Dokument, das »überlegen« in UTF-8 oder ISO-8859-1 oder anders kodiert enthält.
Ich weiß nicht recht, worauf du hinauswillst. Suchmaschinen erledigen dies alles von selbst.

Andererseits sieht man die Tags im Web doch häufig HTML-encoded, so z.B. auch bei SELFHTML (Stefan Münz).

Das ist eine Konvention, die ihre Ursprung in bestimmten Browserfehlern hatte, die vor vielen Jahren akut waren. Heutzutage muss man nicht faktisches US-ASCII schreiben, sondern kann durchaus die 8-Bit-Zeichensätze bzw -Kodierungen ausschöpfen und Umlaute somit direkt ins Dokument (auch als Attributwerte) schreiben.

Mathias