编码
- 字母表、字
- 字母表是一个有限集,它生成的自由半群为
- 中的元素称为字。字的长度为
- 字母表是一个有限集,它生成的自由半群为
- 基本码字、码字
- 设、为字母表。如果是单射,那么称为编码,中的元素称为基本码字
- 进一步,如果的自由扩张也是单射,那么称为唯一译码的编码,中的元素称为码字
唯一译码的编码
- 如果为唯一译码的编码,那么
- 设长度为的基本码字的个数为
- 一个长度为的码字乘以一个长度为的基本码字(),或者一个长度为的基本码字是一个长度为的码字。也就是说,
- 由于,故在上为解析函数。另一方面,
- 设长度为的基本码字的个数为
- 反过来,如果满足
- 定义
- 由,可得
- 由,可得
- 由数学归纳法,我们可以得到编码,满足,,并且
- 定义
最小平均长度
- 设为字母表(带有离散-代数)。如果是一个概率空间,那么称为基本信源(Elementary Information Source,EIS)
- 如果是一个EIS,那么唯一译码的编码的平均长度为
- 进一步,最小平均长度为平均长度的理论极限,
- 下面我们证明,Shannon熵给出了最小平均长度的最佳估计。设为EIS,并且。我们有
- 由上面的笔记,
- 证明左侧不等式:
- 对任意满足,定义
- 由
- 对所有的取下确界,左侧不等式成立
- 对任意满足,定义
- 证明右侧不等式:
- 取满足
- 那么,
- 取满足
- 由上面的笔记,