solange, bis uft-8 nicht mehr reicht, aber dafür gibts ja schon uft-16 und -32 ;)
UTF-8, UTF-16 und UTF-32 decken alle exakt die selben Zeichen ab (nämlich alle in Unicode enthaltenen), die Kodierung ist nur unterschiedlich.
ja, nur je nach codierung werden die dateien unterschiedlich gross - um etwas (sprich ein zeichen) mit uft-8 zu codieren benötigt man 8 bis 32 bit - das ist variabel
wenn man nun zeichen im bereich der bmp von 0800 bis FFFF codieren möchte, braucht mit mit utf-8 jeweils 3 byte, mit utf-16 aber nur 2
da komplexe sprachen, die man selten benötigt, eher in den "höheren zahlenbereichen" angesiedelt sind, ist es also anzunehmen dass dort auch so geschichten wie eben hieroglyphen landen werden
ich hab mich etwas unglücklich ausgedrückt, natürlich reicht der unicode bereich mit 2^32 bit bei weitem aus um potentiell alle kommenden zeichen aufnehmen zu können (auch irgendwelche aliensprachen :p), aber es ist nicht unbedingt sinnvoll, diese auch mit utf-8 zu codieren, da man bei sehr langen texten extrem viel overhead produzieren kann - das muss nicht sein
umgekehrt benötigt natürlich uft-32 mehr platz