Mitleser: iso8859-1 -> utf-8

Beitrag lesen

Sicher. Der OP hat aber zu verstehen gegeben, dass aus einer heterogenen Masse aus Fremdseiten crawlen und normalisieren möchte. In dem Kontext ist "Das steht im Response-Header Content-Type." falsch.

Ja und was machen wir denn da wenn es der Header nicht hergibt? Genau: Wir treffen eine bestimmte Annahme und prüfen ob die richtig ist!

Neee. Falsch. Wenn der Header nix sagt, gucken wir zunächst im Markup, ob dort eine Kodierungsangabe vorliegt. So, wie der Client (Browser, Google...) das ja auch macht. Das ist bei dem Job der Maßstab.

Das heißt für die Praxis, dass das was der Header hergibt so oder so eine Annahme ist die wir zunächst und grundsätzlich immer treffen müssen wenn wir überhaupt weiterkommen wollen.

Nö. Sollte weder Header noch Metatag gesetzt sein, kommt Dein "Genau: Wir treffen eine bestimmte Annahme und prüfen ob die richtig ist! " zum Einsatz. Also in gewisser Weise raten, was aber, wenn man es vernünftig macht, eine recht gute Trefferquote bringen sollte.

Das hat was damit zu tun, dass Informationen von Drittanbietern als nicht vertraulich einzustufen sind.

Finde ich in dem Kontext etwas prätentiös formuliert, aber ok.

Von daher ist es unsinnig, vor dem Speichern solcher Daten eine Umkodierung vorzunehmen.

Wenn ich heterogenen Input in verschiedenen Kodierungen zentral speichern möchte, scheint mir das weniger unsinnig, sondern eher eine verdammt gute Idee zu sein. Womöglich das Original zusätzlich(!) noch speichern, um bei etwaigen Kandidaten, bei denen sich "falsch geraten" herausstellt, nochmal nachbessern zu können.

Aber wahrscheinlich musst Du solche Erfahrungen ersteinmal selber machen.

Ich war in Stochastik auch nie so dolle, lieber Vektorrechnung.