文本阅读:
第10章低比特率编码:理论与评价401
狗咬人"包含的信息很少,但"人咬狗"包含了大量的信息。一般来说事件发生的
概率越低,它所包含的信息量就越大。换一个角度看,量大的信息是很少出现的在一段时间内出现的信息的平均量被称为熵,记为H。从另一个角度看,熵衡量的是事件的随机程度,因此也就衡量了描述它需要用多少信息。当每个事件发生的概率都相同时,熵最大,记为Hnao通常,熵都小于这个最大值。当一些事件发生得更频繁时熵较低。大多数函数都可以用它们的熵来观察。例如,商品市场具有很高的熵,而地方债券市场的熵则要低得多。一个信号中的冗余可用1减去真实熵与最大熵之比得到H
H灬。加入冗余会增加数据率;减少冗余则会降低数据率。这就是数据压缩,或是无损编码理想的压缩系统能够移除冗余,并保持熵不受影响,熵决定了传递一个数字信号所需的平均比特数。并且,一套数据能被压缩的程度不会超过这套数据中元素的数量乘以其熵值。
10.13.1熵编码
熵编码(也被称为霍夫曼编码、变长编码或最优编码)是无损编码的一种形式,广泛用于音频和视频应用中。熵编码利用事件发生的概率来编码息。例
对
进行分析,并为出现最频繁的那些采样点分配最短的码字。出现次数较少的采样点被分配较长的码字。解码器中包含了这些采分配方式,并且反向进行这一过程。压缩是无损的,因为没有信息丢失,这个过程也是完全可逆的
莫尔斯电报码就是一种简单的熵编码。英语中最常用的字母(e)被分配给最短的代码较不常用的字符(比如z)被分配给更长的代码(
在实际中,电报报务员会在
编码中丢弃一些字符并在随后的解码中把它们放回原处,这样就能进一步改善传输效率。这些信息内容仍旧保持不变。U CN RD THS SNTNCE(You can read thi| s sentence,你能读这句话)
这要感谢书面英语具有较低的熵,因此它的数据是容易被压缩的。很多文本和数据存储系统都会在数字媒体上进行存储之前先对数据进行压缩。类似地,文本信息中的各种缩写也运用了同样的原理
般地,霍夫曼编码是一种无噪声编码方法,它使用统计方法以最短的可能码长来表条消息。若待编码符号具有各不相同的概率,则霍夫曼编码能提供编码增益。它是一种基于前缀的熵编码。为了用最短的码字给最常出现的字符进行编码,编码要使用一个没有重复前缀的系统,这样才能让较短的码字不是较长码字的开端。例如,110和11011不能同时作为码字。因此编码是能够被唯一地解码的,并且没有任何损失。
假设我们希望传输有关火车到站状态的信息。给定四种情况,准点、晚点、早到和列车失事,我们可以使用一个固定的2bit码字,分别给这四种情况分配00、0和11。不