文本阅读:
第11章低比特率编码:编解码器的设计429为了进一步解释模型1的操作,还需要给出一些额外的注释。512点分析滤波器组的延时为256个采样点,令数据在512点汉宁窗内居中又增加了64个采样点。因此在对模型中的384个采样点进行时间对齐时需要使用320个采样点(256+(512-384/2=320)的偏置。
模型1中使用的扩散函数采用了分段斜率(以dB为单位)进行描述SF=17(dz+1)-(04X【z(j)】+6)当-3≤dz≤-1巴克SF=(0.4XLz(D)】+6)dz
当-1≤dz≤0巴克
SF=-17di
当0≤dz≤1克巴
SF=-(dz-1(17-0.15X【z())-17当1≤dz≤8克巴其中
z是被遮蔽音与遮蔽音之间的频率差,单位为巴克;i和j分别为被遮蔽音和遮蔽音的谱线索引值
为第j个遮蔽成分的声压级,单位为dB。位于-3与+8巴克以外的数值在这个模型中没有考虑
模型1使用这种通用的方法来检测和刻画音频信号的纯音度:对512或1024个采样点进行
并对频谱分析得到的各个成分进行考察。频谱中的各个局部极大值被鉴别出来,因为它们比邻近成分具有更多的能量。对这些成分进行抽取,剔除那些与更强的纯音成分之间距离不到1/2巴克的纯音成分。低于听觉门限的纯音成分也被剔除。剩余成分经过分组以后的各个能量被加总起来,表示信号中的纯音成分;其他成分被加总起来并标记为非纯音成分。用一种二进制方式来命名:把1分配给纯音成分,把0分配给非纯音成分。这些信息交由比特分配算法使用。具体地,在模型
通过检测音频频谱中7dB的局部极大值来
确定纯音度。为了得出相对于遮蔽音的遮蔽门限,需要使用级平移A(dB),这个平
的属性取决于该遮蔽音是纯音的还是非纯音的
△(z)=-6025-0.2752
2025-0.175z
其中z为遮蔽音的频率,单位为巴克。
模型1考虑了
界频带中的所有非纯音成分,并用一个频率处的一个数值来表示匕们。这在低频区是合适的,在这里,各个子带与各个临界频带有着很好的对应关系。但在高频区这样做是无效的,因为此时
带中都有多个临界频带
若一个子带远离一个临界频
带中已经鉴别出的非纯音成分,则它不会得到一个正确的非纯音评估117MPEG-1心理声学模型2
心理声学模型2所进行的分析要比模型1更为详细,代价是计算复杂度也要更高。它被计用在比模型1更低的比特率中。与模型1一样,模型2为每个子带输出一个信号-遮蔽