数字音频技术(第6版) 526


分类:相关阅读 / 「数字音频技术(第6版)」

数字音频技术(第6版) 526
前一篇:数字音频技术(第6版) 525 下一篇:数字音频技术(第6版) 527
文本阅读:
  第12章用于传输的语音编码499
  通滤波器进行预加重,并输入给一个海明(Hamming)窗和FFT以得到幅度谱。再使用美尔尺度滤波器组来模仿临界频带,随
  算出对数并输入给离散余弦变换。例如,可以计算出3个倒谱系数,其中包括表示频谱平均值的零阶系数。除了这些短时统计参数以外,还可以通过分析多个帧上的静态轮廓线来获得各个动态参数。这些动态参数有时候被称为增量(
  阶导数)和增量的增量(二阶导数)系数。例如,一个特征矢量可以包含39个分量,通过析可以每105产生一个特征矢量。在一些情况中,可以通过一个降噪级来增强前端,并在倒谱输出上施加一个盲均衡以获得自适应均衡。
  倒谱分析特征提取级的输岀用在两种模式中,如图12.17所示。在训练模式中,特征矢量用于估计表示语音中的
  字或更小部分的参考模式(Reference pattern)。随着时间的流逝,通常要经过对很多说话者进行分析,可以聚集出一个参考模型作为一个语音模式数据库用以表示很多说话者的各种特征的分布。隐马尔科夫模型(Hidden Markov Model)可以用来作为参考模式,它使用多个序列的多态音位。在识别模式中,输入特征矢量与参考特征进比较,使用维特比或其他算法计算出正确表示的似然度。具有最高似然度的模式序列形成了输出结果
  识别模式
  模式识
  结果
  语音信号
  特征提取
  训练算法
  训练模式
  图12.17:语音识别系统中的训练模式和识别模式。短时频谱分析可用于特征提取。
  1214 Speex编解码器
  Speex语音编解码器用于P话音(Voice over|P,volP)和流应用,比如电话会议和视频游戏等,也用于基于文件的数据缩减应用,比如网播(Podcas不能用于蜂窝电话
  spex是一个开源编解码器,可以免费使用。大多数语音编解码器都要在专的授权
  才能使用。Speex是开放源代码的软件,没有任何专利或版税限制,并可以在BSD许可下授权使用。Speex与 Vorbis音频格式共享了相同的哲学基础。Speex由 Xiph.org基金会开发,其文件扩展名为Spx。Speex可以与Ogg容器格式(媒体类型为 audio/og)一起使用,或是直接通过UDP/RTP(媒体类型为 audio
  )传输。在 Directshow、OpenACM(网络会议