Tach!
5 Quadrate deuten darauf hin, dass es 5 Bytes sind.
Nein. Sie deuten darauf hin, dass es 5 Zeichen sind.
Der Unterschied zwischen Zeichen und Bytes ist Dir (noch) nicht klar.
Ohne zu wissen, was der Interpret aus einer Bytesequenz gemacht hat, kann man nicht von der Anzeige des Interpretationsergebnisses auf die ursprünglichen Bytesequenz schließen und damit auch nicht auf die Anzahl der Bytes.
Der Zeichensatz für HTML ist Unicode. Der OP sagte, er sähe die Zeichen korrekt und im Code keine Ersatzschreibweise wie NCRs oder Entitys. Es ist sehr wahrscheinlich, dass UTF-8 als Kodierung für das Dokument verwendet wurde. Der Browser kann die Zeichen offensichtlich korrekt anzeigen, hat also kein Interpretationsproblem. Als nächsten Schritt wird der OP sie markiert, kopiert und in sein Office-2000-Dokument eingefügt haben. Die Zeichen liegen alle in der BMP, sind also mit der Windows-üblichen 2-Byte-pro-Zeichen-Kodierung (irgendwas UTF-16-kompatibles) verlustfrei kopierbar.
Die Zeichen wurden also sehr wohl korrekt aus der Bytesequenz gelesen und liegen in der Windows-internen Verarbeitung immer noch als die vorgesehenen Zeichen im Speicher. Die 5 Quadrate zu den 5 Zeichen sind damit eher eine Ersatzdarstellung, weil das Office-2000-System nicht in der Lage ist, entsprechend Glyphen zur Anzeige in der/den Font-Datei(en) zu finden.
dedlfix.