Ashura: HTML Scanner

Beitrag lesen

puts "Hallo " + gets.chomp + "."

?> Mulder
=> Hallo Mulder.

  1. Zuerst löscht du alles was zwischen <head>...</head> und </head>...</body> drin ist,

Ich vermute, dass du dich hier verschrieben hast, denn so würde lediglich folgendes übrig bleiben: <html></html>

damit wären alle Skripts und Stylesheets entfernt, denn die befinden sich (fast!) immer im <head> oder zwischen </head> und <body>.

Zwischen <head> und <body> haben Skripte nichts verloren. Entweder im Kopf oder im Körper, dazwischen gibt es nicht. (Willst du jedoch auf fehlerhafte Seiten eingehen, musst du damit rechnen, das stimmt allerdings.)

Ein Problem gäbe es aber noch: Entities! Zum Schluss wirst du (bei validen Seiten) kein ä, ö, ü oder ß sehen, sondern &auml;, &ouml;, &uuml; und &szlig;.

So ein Unsinn. In meinen Seiten gibt es nahezu keine einzige Zeichenreferenz. Ich schreibe sämtliche Umlaute und Sonderzeichen direkt in den Quelltext und fahre gut damit.

Benke: die Zeichenkodierung hat nichts mit der Validität zu tun.
Siehe dazu auch [Wikipedia: Unicode] und zu der von mir gewählten Kodierung [Wikipedia: UTF-8]

(und bitte gebt mir keine unbegründeten nicht-hilfreich-Punkte, sonst weiß ich nicht, was falsch war an meiner Vorgehensweise).

Keine Sorge, das gibt es zumindest von mir nur, wenn ein Posting keine Antwort wert ist.

Einen schönen Donnerstag noch.

Gruß, Ashura

--
[remote-signature:http://download.noctus.net/scripts/self_sig.php]