du könntest die Sprachausgabe auch selber aufnehmen und dann abspielen.
Allerdings würd ich noch ziemlich auf die Ladezeiten achten, vor allem, dass sich alles schon im cache befindet, usw.
Genau dafür gibt es meines Erachtens Flash. Das eignet sich doch wunderbar für solche Dinge, ist zudem noch dynamisch und kann von 98,2% [1] aller Internetuser gesehen bzw. gehört werden.
Gruß
Lachgas
[1] Wenn die Zahl von der Adobe Webseite http://www.macromedia.com/software/flashplayer/ stimmt.