Das Ganze dreht sich darum, dass mittels PHP preg_match() diverse Header von diversen Webseiten ausgelesen werden. Leider weiß man am Anfang nie, in welcher Kodierung die Seiten vorgehalten werden.
Das steht im Response-Header Content-Type.
Kann. Sollte auch, muss aber nicht.
Kann man aber lernen es so zu machen ;)
Sicher. Der OP hat aber zu verstehen gegeben, dass aus einer heterogenen Masse aus Fremdseiten crawlen und normalisieren möchte. In dem Kontext ist "Das steht im Response-Header Content-Type." falsch.