文本阅读:
498数字音频技术(第6版
是在较低的频率槽上,并且可以得出这些频率槽上的噪声功率密度谱。为了做出这一决定,可以假设语音频谱的变化要比那些非稳态的噪声还要快话音活动检测
话音活动检测(Voice Activity Detection,VAD)对输入信号进行监测,确定信号是语音还是背景噪声。当没有话音活动且只检测到背景噪声时,使用传递背景噪声所需的最低比特率对信号进行编码,或是进入一个静音压缩模式。在这些非活动时间段内,解码器可以产生个随机的安慰噪声。VAD可以在变比特率模式中自动进行,或是在恒定比特率模式中单独进行。类似地,若背景噪声是稳定的,则可以使用不连续传输(Discontinuous Transmission DTX)来中断数据传输,因此能进一步降低比特率。
1212变比特率
在语音邮件等应用中可以使用变比特率(Variable bit ra BR)它比恒定比特率的效
率更高,能产生更低的平均比特率。有了变比特率以后,编解码器可以根据音频信号的属性动态地改变其比特率。一个复杂度较高的信号需要较高的比特率,而复杂度较低的信
则可以用一个较低
较低的比特率编码。因此可以降低总体比特率,同时维持音质水平不变。比如瞬态信号和元音可能需要较高的比特率,而"s"和"f"等摩擦音可以用较低的比特率编码。不过,VBR可能会导致一个过高的瞬间最大比特率。例如,这会让一个VoP之类的实时信道出现过载。并且,在VBR中指定了某种质量等级以后,特别复杂的音频信号可能会导致过高的平均比特率。在很多编码器中,这一问题是通过平均比特率(Average-Bit-Rate,ABR)这种功能解决的。设置一个目标平均比特率,算法就会监视并调整可变比特率来获得这个平均特率。这是通过实时进行的
整来完成的。编码的总体质量将会比完全按照最优VBR设置(所得结果为所需的平均比特率)且不用ABR时要差一些。
12.13语音识别
很多语音识别系统使用倒谱分析来鉴别语音中的各种短时特征。其他系统可能使用各种统计方法。无论如何,背景噪声和房间混响等糟糕的声学条件会使语音识别系统的性能劣化。
在
语音识别系统中,要对语音信号使用前端处理,通过短时频谱分析进行特征提取。具体地,信号频谱被转换到倒谱域,得到美尔(Me|)频率倒谱系数。例如,信号可以通过高