2.2 信息熵的基本概念
香农于1948年将热熵的概念引入到信息论中,称为信息熵。本节介绍熵的定义及其扩展——联合熵、条件熵及Kulback提出的相对熵。因为一个随机事件集合总可对应着一个具有相同分布的离散随机变量,这里随机变量取某一值相当于事件集合中的某些事件的发生。因此今后对离散信息度量描述的主要对象是离散随机变量,但偶尔也用到事件集合。
2.2.1 信息熵
离散随机变量X的熵定义为自信息的平均值
X的概率分布可写成矢量形式,称为概率矢量,记为p=(p1,p2,…,pn),X的熵可简记为
H(X)=H(p)=H(p1,p2,…,pn) (2.11)
因此,H(p1,p2,…,pn)也称为概率矢量p=(p1,p2,…,pn)的熵。当n=2时,简记为
H(p,1-p)=H(p) (2.12)
其中,p≤1/2,为二元信源中一个符号的概率。
注:
① I(x)为事件X=x的自信息,Ep(x)表示对随机变量用p(x)取平均运算;
熵的单位为:比特(奈特)/符号。
②,0≤pi≤1,所以H( X )为n-1元函数。
式(2.10)与统计力学中热熵的表示形式相同(仅差一个常数因子),为与热熵区别,将H( X )称为信息熵,简称熵。信息熵是从平均意义上表征随机变量总体特性的一个量,其含义体现在如下几方面。
① 在事件发生后,表示平均每个事件(或符号)所提供的信息量。
② 在事件发生前,表示随机变量取值的平均不确定性。
③ 表示随机变量随机性大小,熵大的,随机性大。
④ 当事件发生后,其不确定性就被解除,熵是解除随机变量不确定性平均所需信息量。
例2.6 一电视屏幕的格点数为500×600=3×105,每点有10个灰度等级,若每幅画面等概率出现,求每幅画面平均所包含的信息量。
解 电视屏幕可能出现的画面数为10300000,所以每个画面出现的概率为p=10-300000,每幅画面平均所包含的信息量为
H(X)=log2(1/p)=log2(10300000)=106bit/画面
例2.7 A,B两城市天气情况概率分布见表2.1,问哪个城市的天气具有更大的不确定性?
表2.1 两种天气的概率分布
解 H(A)=H(0.8,0.15,0.05)=-0.8×log0.8-0.15×log0.15-0.05×log0.05=0.884bit/符号
H(B)=H(0.4,0.3,0.3)=-0.4×log0.4-0.3×log0.3-0.3×log0.3=1.571bit/符号
所以,B城市的天气具有更大的不确定性。
例2.8 有甲、乙两箱球,甲箱中有红球50、白球20、黑球30;乙箱中有红球90、白球10。现做从两箱中分别做随机取一球的实验,问从哪箱中取球的结果随机性更大?
解 设A、B分别代表甲、乙两箱,则
H(A)=H(0.5,0.2,0.3)=-0.5×log0.5-0.2×log0.2-0.3×log0.3=1.486bit/符号
H(B)=H(0.9,0.1)=-0.9×log0.9-0.1×log0.1=0.469bit/符号
所以,从甲箱中取球的结果随机性更大。
2.2.2 联合熵与条件熵
1.联合熵
联合熵用于多维随机矢量的信息度量。设N维随机矢量XN=(X1X2…XN),取值为x=(x1,x2,…,xN),联合熵定义为联合自信息的平均值:
其中,p(x)为矢量x的联合概率,式中是N重求和。联合熵是信息熵的扩展,单位是比特/N个符号。除度量的对象不同外,联合熵与信息熵的含义相同,而信息熵也可以视为一维熵。求联合熵与求信息熵也没有本质区别,如果容易求得集合中所有随机矢量的概率,那么就可以用求一维熵的方法求联合熵,而无需多重求和。
对于二维随机矢量XY,联合熵表示为
例 2.9 设随机变量 X 和 Y 符号集均为{0,1},且p(x=0)=2/3,p(y=0|x=0)=1/2,p(y=1|x=1)=1/3,求联合熵H(XY)。
解 由p(xy)= p(x)p(y|x),可得XY的联合概率分布p(xy),见表2.2。
表2.2 两种天气的联合概率分布
联合熵可化为一维熵计算,有
H(XY)=H(1/3,1/3, 2/9,1/9)=1.8911bit/2个符号
2.条件熵
首先介绍最简单的涉及两个随机变量的条件熵,然后扩展到多变量的情况。
对于二维随机矢量XY,条件熵定义为条件自信息I(y|x)的平均值:
其中,为在x取某一特定值时Y的熵。在计算H(Y|X)时,往往利用式(2.15d),即先计算所有 x给定值时的条件熵,再用x的概率对这些条件熵进行平均。
例2.9(续) 求条件熵H(Y|X)。
解 H (Y|X)=∑xp(x)H(Y|x)= pX(0)H(Y|x=0)+pX(1)H(Y|x=1)
= (2/3)H(1/2)+(1/3)H(1/3)=0.9728比特/符号
例2.10 设随机变量X与Y之间的条件概率矩阵为
其中,pij=p(y= j|x=i),i=1,2,…,n,j=1,2,…,m,求H(Y|X)。
解
其中,。
如果式(2.16)所表示的条件概率矩阵的各行所包含的元素都相同,则H(Y|x=i)与i无关,此时H(Y|X)=H(Y|x=i)=H(p11,p12,…p1m)。
条件熵也可扩展到多维矢量的情况。设N维随机矢量XN=(X1…XN)和 M 维随机矢量YM=(Y1…YM),其中x=(x1,…,xN),y=(y1,…,yM),联合集XNYM上,条件熵定义为
当M=N=1时,式(2.17)归结于式(2.15)。
2.2.3 相对熵
若P和Q为定义在同一概率空间的两个概率测度,定义P相对于Q的相对熵为
相对熵又称散度、鉴别信息、方向散度、交叉熵、Kullback_Leibler距离等。注意,在式(2.18)中,概率分布的维数不限,可以是一维,也可以是多维,也可以是条件概率。
在证明下面的定理前,首先介绍一个在信息论中有用的不等式。
对于任意正实数x,下面不等式成立:
实际上,设f(x)=ln x-x+1,可求得函数的稳定点为x=1,并可求得在该点的二阶导数小于0,从而可得x=1为f(x)取极大值的点,即 f(x)=ln x-x+1≤0,仅当x=1时,式(2.19)右边等号成立。令y=1/x,可得1-1/y≤ln y,再将y换成x,就得到左边的不等式。
定理2.1 如果在一个共同有限字母表概率空间上给定两个概率测度P(x)和Q(x),那么
仅当对所有x,P(x) = Q(x)时,等式成立。
证 因P(x),Q(x)≥0,,所以根据式(2.19),有
仅当对所有x,P(x) = Q(x)时,等式成立。
式(2.20)称为散度不等式(divergence inequality),该式说明,一个概率测度相对于另一个概率测度的散度是非负的,仅当两测度相同时,散度为零。散度可以解释为两个概率测度之间的“距离”,即两概率测度不同程度的度量。不过,散度并不是通常意义下的距离,因为它不满足对称性,也不满足三角不等式。
例2.11 设一个二元信源的符号集为{0,1},有两个概率分布p和q,并且p(0)=1-r,p(1)=r,q(0)=1-s,q(1)=s,求散度D(p||q)和D(q||p),并分别求当r = s和r=2s=1/2时散度的值。
解 根据式(2.18),得
和
当r=s时,有D(p||q)=D(q||p)=0。
当r=2s=1/2时,有
注意
一般地,D(p||q)和D(q||p)并不相等,即不满足对称性。
2.2.4 各类熵之间的关系
由式(2.18)可得到熵与相对熵的关系,即由
D(P||Q)=-Ep(x)log Q(x)-H(X)≥0
得
Ep(x)log[1/Q(x)]≥H(X) (2.21)
上式表明,同一概率空间的两随机变量集合,如果一种分布的自信息用另一种分布做平均,其值不小于另一种分布的熵。
下面的定理给出了熵与条件熵的关系。
定理2.2 (熵的不增原理)
H(Y|X)≤H(X) (2.22)
证 设,那么
上面利用了散度不等式,仅当X,Y相互独立时,等式成立。
式(2.22)表明,条件熵总是不大于无条件熵,这就是熵的不增原理:在信息处理过程中,已知条件越多,结果的不确定性越小,也就是熵越小。
关于联合熵与熵的关系将在下一节介绍。