数字音频技术(第6版) 505


分类:相关阅读 / 「数字音频技术(第6版)」

数字音频技术(第6版) 505
前一篇:数字音频技术(第6版) 504 下一篇:数字音频技术(第6版) 506
文本阅读:
  478数字音频技术(第6版
  间段内,语音信号不会显著改变,因此,可以称语音信号是准稳态的。一些语音信号(比如元音)在采样点与采样点之间具有很高的相关性。基于这些原因,很多语音编解码器在简短的时间段(可能是20ms或更少)上操作,并使用预测编码来移除冗余。有了预测编码以后一个当前输入采样点值可以用先前重建的一些采样点值来预测。真实的当前值与预测值之差被量化,这一般要比对采样点值本身进行编码在比特利用上更高效。解码器随后使用这个差值重建出信号,这种技术在 ADPCM编解码器中得到了使用并且,在低比特率下并不是直接编码差值信号,对激励信号进行编码是更高效的,解码器可以用这个激励信号合成出一个与原始语音接近的信号。这是线性预测的一个特点。短时预测器描述了语音信号的频谱包络,而长时预测器描述了频谱的精细结构。在一些设计(多脉冲和规则脉冲激励)中,长时预测器被略去,或是把一系列预测器倒转过来。图126所为使用了短时和长时预测的合成-分析滤波器
  语音输
  激励发生器
  长时预测器
  时预测器
  合成滤波器
  成滤波器
  加权滤波器
  误差的最小化
  图12.6:使用了短时和长时预测的合成一分析滤波器。两个预测器都会根据信号状态进行连续地自适应调整,以改善预测准确度。
  长时和短时预测器都根据语音信号连续进行自适应调整,以改善预测的效率,也就是它们的滤波器系数是变化的。短时预测器对声道进行建模。因为声道只能相对缓慢地改变其物理形状并由此改变它的输出声音,所以这些参数可以用相对较慢的速率更新。短时预测器通常以每秒30~500次的速率更新。因为滤波器系数中的一次突然改变可能会产生一个可闻的人造声,所以可以对各个数值进行内插
  长时预测滤波器一般在码激励编解码器中用于对激励信号的周期性进行建模本不能有效地表示周期性。延时的范围可以为2.5-18ms。这是考虑到大多数人类说话者的音高周期是从50~400Hz。这些系数以(比如)每秒50~200次的速率进行修正预测器系数可以从一段语音信号(可能是10~30ms)中确定出来。在前向自适应预测中使用的是原始输入语音信号,如图12.7A所示。必须使用一个延时来累积所需段落的信号并把各个参数作为输出比特率的一个部分来传输。在后向自适应预测中使用先前被重建的信