数字音频技术(第6版) 517

文本阅读：
　　490数字音频技术（第6版
　　传输的比特流还包含一个或多个嵌套的较低速率比特流，它们可以被提取出来并解码。在很多情况中，嵌套的增强比特流以及它们所导致的更高的比特率可以用于改善核心层比特流的声音质量。例如，嵌套层可以减少编码人造声或是允许更高的采样频率以实现更宽的音频带宽可伸缩编码器包含有多个增强编码器，并在这些增强编码器内部还嵌有一个核心编码器缩编码器输出一个多层数据结构，例如，一个三层比特流可以包含一个核心层和两个增强层。各层是有等级结构的，较高的层仅在较低层已经被接收的情况下才被解码。使用速率自适应以后，较高的层也许会由于传输带宽或其他限制而被略过。编码的这种颗粒度由层数和每层所用比特率的增长来决定。解码器输出的信号将取决于被传输的层数以及解码器的能力伸缩性允许在传输条件和接收器能力上存在多样性。例如，一个基于oP的通信系统可以根据容量的限制选择合适的比特流，同时保持可能实现的最好音质。这种技术也可用于引入新的编码类型或改进，同时保持后向核心兼容性。例如，一个标准窄带编解码器可以包含核心层，同时让带宽扩展使用更高的层。
　　伸缩性可以应用于多种途径。比如，子带CELP编解码器可以使用一个QMF滤波器把音信号分割成低频带和高频带。每个频带使用一个专门为该频率范围进行优化的编解码器单独编码。比如，用
　　CELP编解码器对低频带编码，而用一个参数模型编解码器对高频带编码，因为较高频率信号的纯音度是下降的
　　互联网是一个基于包交换的网络，与基于电路交换的系统相反，数据被格式化成一个分离的数据包来传输。语音信息由有效负荷组成，也有头信息。一个包可以包或多
　　语音帧。在可伸缩（嵌套的VoP格式中，各个层必须是可区分和可分离的。例包
　　可以包含一个单一的层，如果有些层不需要，那么系统可以简单地丢弃那些包。不过，因为每个包中有相对大量的头数据（40~60字节），因此这种方法效率低音帧可能由
　　节组成。更高效的方法会在每个包中放置多个语音帧，这对于流应用来说是有效的。
　　不过，这种方法对包丢失很敏感，并且会产生更长的延时。对于对话应用来说，要在每个包中放置相对较少的帧，并且对于各个嵌入格式来说，需要把不同的层放置在同一个包内。例如如果帧尺寸为20~30ms，则每个包中可以放置一帧。有效载荷可以确定一帧中不同的嵌入层
　　显然，传输协议必须支持数据的等级结构和可伸缩性等功能。此外，系统还能对有效载荷数据进行优先级划分。比如，在网络拥塞或接收器能力或消费者偏好等情况下，网络中的速率自适应单元能传输核心数据，同时丢弃增强数据些数据协议版本（比如|Pv4和
　　P6）支持差异化服务（Differentiated Services）o此时只对完整的包贴上标签，而不是对其中的具体数据。因此，不同的层需要被置于不同的包中。例如，可伸缩的MPEG-4比特流可以通过低开销MPEG-4音频传输复接（Low-overhead MPEG-4 Audio Transport Multiplex）格式中