信息论基础(第2版)
上QQ阅读APP看书,第一时间看更新

2.1 自信息和互信息

本节介绍自信息和互信息,前者描述的是随机事件集合中某一事件自身的属性,而后者描述的是分别取自于两随机事件集合的两个单一事件之间的关系。

2.1.1 自信息

1.自信息

事件集合X中的事件x=ai的自信息定义为

IX(ai)=-log PX(ai)          (2.1a)

I(x)=-log p(x)            (2.1b)

简记为

注:

① ai∈A,且PX(ai)=1,0≤PX(ai)≤1。

② 要求自信息I为非负值,所以对数的底必须大于1;对数底的选取有如下几种情况:

●以2为底:单位为比特(bit,为binary digit的缩写),工程上常用;

●以3为底:单位为Tit;

●以e为底:单位为奈特(Nat,为Natural Unit的缩写),理论推导时常用;

●以10为底:单位为迪特(Dit)或哈特(Hart)。

各单位之间的换算关系为

1奈特=logee=log2ebit=1.443bit

1 Dit=log1010=log210bit=1/log102bit=3.322bit

③ 自信息为随机变量,且I(x)是p(x)的单调递减函数,即概率大的事件自信息小,而概率小的事件自信息大。

④ 自信息含义体现在如下两个方面:

●表示事件发生前该事件发生的不确定性。因为概率小的事件不易发生,预料它何时发生比较困难,因此包含较大的不确定性;而概率大的事件容易发生,预料它何时发生比较容易,因此不确定性较小。当某事件必然发生时,就不存在不确定性,即不确定性为零。

●表示事件发生后该事件所包含的信息量,也是提供给信宿的信息量,也是解除这种不确定性所需要的信息量。概率大的事件不仅容易预测,而且发生后所提供的信息量也小;而概率小的事件不仅难于预测,而且发生后所提供的信息量也大。

由此可见,自信息的表示与人们的某些直观感觉相吻合。这种感觉表现为:对于大概率事件的出现,人们总觉得很平常,而对于小概率事件的出现,人们总觉得很意外。当然意外的感觉要比平常的感觉所得到的信息量大。例如,“飞机失事”的概率要比“公交车祸”的概率小得多,所以前者所包含的信息量要比后者大得多。

应该指出,自信息属于语法信息的层次,排除了语义和语用方面的含义。实际上,香农信息论把所有的随机事件都作为具有某一发生概率的符号来观察,而该事件的其他特征都被忽略了。所以从香农信息论的观点看来,无论何种事件,只要概率相同,所含信息量就相同。例如,如果事件“某地区飞机失事”与事件“该地区出生残疾婴儿”的概率相同,那么两事件所含信息量就相同,尽管从广义信息的角度看,两事件所含信息量具有很大的差异。因此事件或消息都可视为集合中的符号或随机变量的取值。

例2.1 箱中有90个红球,10个白球。现从箱中随机地取出一个球。求:

(1)事件“取出一个红球”的不确定性;

(2)事件“取出一个白球”所提供的信息量;

(3)事件“取出一个红球”与事件“取出一个白球”相比较,哪个事件的发生更难猜测?

(1)设a1表示“取出一个红球”的事件,则p(a1)=0.9,故事件a1的不确定性为

I(a1)=-log0.9=0.152bit

(2)设a2表示“取出一个白球”的事件,则p(a2)=0.1,故事件a2所提供的信息量为:

I(a2)=-log0.1=3.323bit

(3)因为I (a2)>I (a1),所以事件“取出一个白球”的发生更难猜测。

结论:欲求事件的自信息,首先要求事件发生的概率。

2.联合自信息

联合事件集合XY中的事件x=ai,y=bj包含的联合自信息定义为

IXY(ai,bj)=-log PXY(ai,bj)          (2.2a)

简记为

I(xy)=-logp(xy)            (2.2b)

其中,p(xy)要满足非负和归一化条件。

联合自信息可以推广到多维随机矢量。N维矢量x=(x1,x2,…,xN),x的自信息定义为

I(x)=-logp(x)           (2.3)

实际上,如果把联合事件看成一个单一事件,那么联合自信息的含义与自信息的含义相同。

例2.1(续) 箱中球不变,现从箱中随机取出两个球。求:

(1)事件“两个球中有红、白球各一个”的不确定性;

(2)事件“两个球都是白球”所提供的信息量;

(3)事件“两个球都是白球”和“两个球都是红球”相比较,哪个事件的发生更难猜测?

三种情况都是求联合自信息。设x为红球数,y为白球数。

因为I(0,2)>I(2,0),所以事件“两个球都是白球”的发生更难猜测。

例2.2 设二元随机矢量XN=(X1X2…XN),其中,{X}i为独立同分布随机变量,且1符号的概率为θ(0≤θ≤1),求序列x=010011的自信息。

所求序列的自信息为

I(x)=-log p(x)=−log[θ3(1−θ)3]=−3log[θ(1−θ)]

3.条件自信息

给定联合事件集XY,事件x=ai在事件y=bj给定条件下的条件自信息定义为

IX/Y(ai|bj)=-logPX/Y(ai|bj)         (2.4a)

简记为:

I(x|y)=-logp(x|y)            (2.4b)

其中,条件概率p(x|y)也要满足非负和归一化条件。

条件自信息含义与自信息类似,只不过是概率空间有变化。条件自信息的含义包含两个方面:

① 在事件y=bj给定条件下,在x=ai发生前的不确定性;

② 在事件y=bj给定条件下,在x=ai发生后所得到的信息量。

同样,条件自信息也是随机变量。容易证明,自信息、条件自信息和联合自信息之间有如下关系:

I(xy)=I(x)+I(y|x)=I(y)+I(x|y)          (2.5)

例2.1(续) 箱中球不变,现从箱中先拿出一球,再拿出一球,求:

(1)事件“在第一个球是红球条件下,第二个球是白球”的不确定性;

(2)事件“在第一个球是红球条件下,第二个球是红球”所提供的信息量。

这两种情况都是求条件自信息,设r表示红球数,w表示白球数。

(1)p(y=w|x=r)=10/99,I(y=w|x=r)=-log10/99=3.308bit

(2)p(y=r|x=r)=89/99,I(y=r|x=r)=-log89/99=0.154bit

例2.3 有8×8=64个方格,甲将一棋子放入方格中,让乙猜。

(1)将方格按顺序编号后叫乙猜顺序号,其困难程度如何?

(2)将方格按行和列编号并告诉乙方格行号后,让乙猜列顺序号,其困难程度如何?

设行列编号分别为 x 和 y,因为没有任何附加信息,故假定甲选择的编号是等可能的,即 p(xy)=1/64,x=1,…,8,y=1,…,8,计算得,x=1,…,8,p(y|x)= p(xy)/p(x) =1/8,以上两个问题归结到计算联合自信息和条件自信息的问题。

(1)I(xy)=-log2p(xy)=log264=6bit

(2)I(x|y)=-log2p(y|x)=log28=3bit

2.1.2 互信息

设两个事件集合X和Y,其中事件x∈X,事件y∈Y。由于空间或时间的限制,有时我们不能直接观察x,只有通过观察y获取关于x的信息。

1.互信息

离散随机事件x=ai和y=bj之间的互信息(x∈X,y∈Y)定义为

简记为

通过计算可得

I(x;y)=I(x)-I(x|y)           (2.7)

注:

① 互信息的单位与自信息单位相同。

② x与y之间的互信息等于x的自信息减去在y条件下x的自信息。I(x)表示x的不确定性,I(x|y)表示在y发生条件下x的不确定性,因此I(x ; y)表示当y发生后x不确定性的变化。两个不确定度之差,是不确定度消除的部分,也就是由y发生所得到的关于x的信息量。

③ 互信息反映了两个随机事件x与y之间的统计关联程度。在通信系统中,互信息的物理意义是,信道输出端接收到某消息(或消息序列)y 后,获得的关于输入端某消息(或消息序列)x的信息量。

2.互信息的性质

(1)互易性:I(x;y)=I(y;x)。

(2)当事件x,y统计独立时,互信息为零,即I(x;y)=0。

(3)互信息可正可负。

(4)任何两事件之间的互信息不可能大于其中任一事件的自信息。

由定义明显看出性质(1)成立,而且

当事件x,y统计独立时,有p(x|y)=p(x),所以性质(2)成立。因为,当p(x|y)>p(x)时,I(x;y)>0;当 p(x|y)<p(x)时,I(x;y)<0,所以性质(3)成立;根据式(2.7),并考虑自信息和条件自信息的非负性,可得性质(4)。也可以说,一个事件的自信息是任何其他事件所能提供的关于该事件的最大信息量。

例2.4 设e表示事件“降雨”,f表示事件“空中有乌云”,且P(e)=0.125,P(e/f)=0.8,求:(1)事件“降雨”的自信息;(2)在“空中有乌云”条件下“降雨”的自信息;(3)事件“无雨”的自信息;(4)在“空中有乌云”条件下“无雨”的自信息;(5)“降雨”与“空中有乌云”的互信息;(6)“无雨”与“空中有乌云”之间的互信息。

e表示事件“无雨”,则P(e)=1-P(e)。

(1)I(e)=-log0.125=3bit;

(2)I(e|f )=-log0.8=0.322bit;

(3)I(e)=-log0.875=0.193bit;

(4)I(e|f )=-log0.2=2.322bit;

(5)I(e;f )=3-0.322=2.678bit;

(6)I(e;f )=0.193-2.322=-2.129bit。

从本例中我们看到,事件“降雨”本来不确定性很大(= 3bit),但由于事件“空中有乌云”的出现,不确定性减小(= 0.322bit),这是因为“空中有乌云”提供了关于“降雨”正的信息量(= 2.678bit)。相反,事件“无雨”本来不确定性较小(= 0.193bit),但由于事件“空中有乌云”的出现,不确定性反而变大(= 2.322bit),这是因为“空中有乌云”提供了关于“无雨”负的信息量(= -2.129bit)。一般地说,如果某事件 x 提供了关于另一事件 y 正的信息量,说明x的出现有利于y的出现;如果某事件x提供了关于另一事件y负的信息量,说明x的出现不利于y的出现。

3.条件互信息

设联合事件集XYZ,在给定z∈Z条件下,x(∈X )与y(∈Y )之间的条件互信息定义为

除条件外,条件互信息的含义与互信息的含义与性质都相同。

例2.5 设三维随机矢量(XYZ),且pXYZ(000)=1/2,pXYZ(101)=1/4,pXYZ(011)=pXYZ(110)=1/8,求I(x=0 ; y=0|z=0)和I(x=1 ; y=0|z=1)。

,pX|YZ(0|00)=1得

I(x=0;y=0|z=0)=log 5/4;由

pX|YZ(1|01)=1,得I(x=1;y=0|z=1)=log 3。