文本阅读:
第12章用于传输的语音编码483
频率和响度;对于咝咝声可以仅估计它的响度。比10e算法(在美国联邦标准1015
中可以找到,后文中有描述)使用一个值表示嗡鸣声的频率,用一个0值表示咝咝有些语音声音并不会落在LPC模型的范围以内,比如同时包含嗡鸣和咝咝的声音、一些鼻音
舌位发出的辅音以及气管共鸣等,此时LPC的性能会下降。这类声音意味着在对共振峰的估计时会出现不准确,因此必须在残差中编码更多的信息。当这些额外的信息在残差中得到编码时能获得良好的音质,但残差编码可能无法提供足够的数据缩减。
如前所述,线性预测编码器使用一个反低通滤波器对信号滤波,产生一个残差信号。如果这个信号被传输到解码器并作为激励信号使用,则语音输出就应该与原始加窗语音信号一模一样。不过,对于这种应用,比特率会高得无法承受。因此,要采用各种方法通过更低的比特率传输残差信号。被编码的残差信号越接近原始的残差信号,编解码器的性能就越好。所以线性预测编的性能可以通过使用复杂(且高效)的方法对残差信号编码来提高。具体地,如后文所述,CELP编解码器使用多个码本提供了比LPC方法更高的语音质量,同时保持了一个很低的比特率美国联邦标准1015即LPC-10e描述了一个早期的低复杂度LPC编解码器,它已经被MELP编解码器取代。LPC-10e工作时的帧长度为225ms,每帧有54bit,总体比特率为24kbit/s。它使用平均幅度差函数(Average Magnitude Difference Function,AMDF)从50~400Hz对音高进估计。对于浊音信号来说,这个函数的最小值出现在音高周期处被编码为6bit。在每
帧的开始和结束处使用一种线性判别式分类器进行清浊音判决。在判决时要考虑诸如AMDF最大值与最小值之比、低频能量内容、过零点数量和反射系数等因素。对于浊音语音,低频内容要比高频更大,第一个反射系数用来对此进行估计。同样在浊音中,低频峰值是更突出的,第反射系数对此进行
这里采用了十阶LPC分析。各LPC系数按下述方式给出:前两个系数采用对数面积比的形式,更高的8阶系数采用反射系数的形式。只有前4个系数(4阶)
清音语音片段一起编码,而所有10个系数(10阶)用于编码浊音语音片段。
128码激励线性预测
码激励线性预测(Code excited linear prediction,CELP)编解码器及其变体是使用最广的一类语音编解码器。CELP算法最初由曼弗雷德·施罗德(Manfred Schroeder)和毕索奴·阿塔尔(Bishnu ata|)于1983年设计发明,并于1985年发表。CELP最初仅是一个特定算法的名称,如今它用来指很广泛的一类语音编解码器。CELP的各种变体包括 ACELP ACELP
QCELP、VSELP、FS-CELP和LD-CELP。基于CELP的编解码器在很多移动电话标准中都得到了应用,包括GSM标准。CELP也用在网络电话中,它是 Window Media Player