文本阅读:
618数字音频技术(第6版
说话者的性别和年龄。此
支持不同的语言。TTS的数据速率从200bi些可能的应用包括人工说书人、在虚拟现实应用中作为各种化身的语音合成器、朗读报纸以及基于语音的互联网等。
可伸缩性意味着一个单一的音频比特流可以根据听者的互联网连接速度解码成各种不的带宽。一个音频比特流可以包含多个不同比特率的数据流。这个信号是以最低比特率编码的,然后编码信号与原始信号之间的差也被编码156.3MPEG-4版本
MPEG-4版本1于1998年10月批准通过。版本2于1999年12月最终定稿,它为MPEG-4标准增添了多种工具,但标准的版本1仍旧保持不变。换句话说,版本2是版本1后向兼容的扩展。1999年12月,版本1和版本2被合并起来,形成了MPEG-4标准第二版。MPEG-4通用音频编码器的框图如图159所示。长时预测(LTP)和感觉噪声替代PNS)工具被包含进来,同时还可以在AAC、BSAC或 TwinVQ工具之间进行选择;这些地方是该通用音频编码器与AAC编码器的区别所在版本2扩展了MPEG-4标准的音视频能力。例如,版本2提供了音频环境的空间化。场景(比如一个音乐厅的3D模型)的各个声学特性可以使用B|FS场景描述工具刻画出来。这些属性包括房间的混响时间、声速、反射与透射等界面材质属性以及声源的指向性等。这些场景描述参数使得高级音视频渲染、详细的房间声学建模以及增强的3D声音表示成为可能
版本2也改进了音频算法对错误的鲁棒性;这是有用的,比如在无线信道的情况有一些方式用于处理特定编解码器对错误的恢复力,其他一些方式则提供了通用的错保护。有多种工具能降低由各种比特错误所引起的人造声与失真的可闻度。通过使用霍夫曼码字重排序工具,用于AAC的霍夫曼编码具备了更好的鲁棒性。它把优先级码字有规律地放置在比特流中的一些位置上,这样就可以让同步能够克服比特错误的传播。频谱系数绝对值较大的比例因子带容易受到比特错误的损害,所以采用虚拟码本限制比例因子带的取值。因此,由比特错误产生的较大的系数将被检出,而产生的影响也
将被隐藏
逆的变长编码工具使用对称式码字改善了霍夫曼编码的DPCM比例因子带对错误的鲁棒性。比例因子数据可以被前向或后向解码。也可以进行非均匀的错误保护即根据对错误的敏感度对比特流中的有效载荷进行重新排序,从而允许各种适合的信道编码技术。这些工具能在纠错的系统开销与纠错能力方面提供很好的灵活性,因此能够适应多种多样的信道情况。