第2章 现代通信系统基础
2.1 信息的度量
在衡量通信系统两个主要指标时,涉及系统所传送信息的多少或传错多少,因此,我们必须首先掌握信息在数量上的准确度量方法。
信源发出的消息通过信道传输,使信宿接收到消息,如一封信的发信者是信源,而收信的人则是信宿。如果发信人在信中仅只反复同一句话或一个字,收信者显然不能从中得到任何信息。同样地,如果某电台播音员(信源)在播音时一直只讲一个字,那么听众(信宿)无法从中获得信息。因此,信宿要通过信道获得信息,信源发出的消息中必须包含信宿事先不知道的内容,即该消息中必须存在着某种程度的不肯定性,只有这样,收信者得到消息之后,消除了其中的不肯定性,才能从中获得信息。
显然,消息的不肯定性越大,收信者收到消息后获得的信息量就越多;消息的不肯定性小,则收信者得到的信息量也就少;如果信源发出的全是收信者已知的消息,则收信者将不能从中得到任何信息。这正如一则漫画里的故事:某人在雨中告诉他身边的同伴“现在在下雨”,这个同伴只是听到了一句废话而已,他不可能从这句话中得到任何有用的信息。由此可见,接收端获得信息的多少与信源的不肯定性密切相关。因此,对信息度量的研究就转而成为对信源的不肯定性程度的考虑。
信源的不肯定性有大小之分,也就是说不肯定性在程度上是有差别的。那么,如何判断不肯定程度的大小呢?我们通过下面的例子来说明这一问题。
设有三个各装100只球的布袋,每个球的大小、手感完全一样,但有红、白两色之分。各个袋子中,每种颜色球的数量不同。
第一个布袋:装有95个红球和5个白球,随意从布袋中拿出一个球,猜测是红球还是白球。首先我们可以肯定:这样的一个信源发出的消息(“是红球”)具有不肯定性,因为拿出的一个球既可能是红的,也可能是白的。但一般都会猜测它大概是红球,因为红球数量多,猜测是红球的正确率可以达到95%,相应地,猜测正确的不肯定程度很小。或者说,此时猜对是很正常的,而我们从得知猜对中获得的信息也很少。
第二个布袋:装有红球80个,白球20个。这时要猜对从布袋中随意拿出的一个球是红球还是白球的难度就比第一种情况大了,因为这时红球、白球的数量相差不像刚才那么悬殊,猜测是红球的正确概率下降为80%。这种情况下,获知猜对得到的信息量就比刚才要多,显然,这是因为信源发出消息(“是红球”)的不肯定程度增加了。
第三个布袋:装有红球、白球各50个。这时,要猜出拿出的是红球还是白球的难度显然最大。由于红球、白球一样多,猜测是红球的正确率只有50%。与前面两种情况相比,第三种情况下信源发出消息的不肯定程度最高,猜对红球所获得的信息量也最大。
由此可以得出这样一个结论:信源的不肯定度就是信源提供的信息量;信源的不肯定程度越高,信宿得到的信息量就越大。
设信源发出某消息Xi的概率为P(i),用I(xi)表示消息Xi提供信息量,则定义:
I(xi)为消息Xi的自信息量,表示消息Xi所具有的不肯定程度,但不能表示Xi所属信源的总体不肯定程度,具有随机变量的性质。式(2-1)中,若对数取2为底,则信息量I(xi)的单位为比特(bit);若取e为底,则信息量的单位为奈特(nat);若取10为底,则信息量的单位为哈特莱(Hartley)。一般情况,我们以比特作为信息量的常用计量单位,即计算中对数通常都以2为底。
一般而言,20秒的广告提供的产品信息大约是10秒广告所提供信息的2倍;n页教材包含的信息量约为一页教材信息量的n倍。也就是说,信源提供的信息量与其发送消息的持续时间或发送消息的长度有关,时间延长一倍或消息长度增加一倍,信息量也相应增加一倍。
【例2-1】 有一封8页的信,每页100个字,假如写信人共有3500个字可选,且这些字的选择彼此独立。那么,每次从这3500个字中选取100个字写成一页信的排列组合数,即一页信所能提供的消息状态的总数为N1=(3500)100,若每种状态等概率分布,即,对于8页信来说,其消息状态数将增加到
N8=[(3500)100]8=(3500)100×8=(N1)8
则8页信中对应的每一种消息状态出现的概率为
若同样用概率倒数的对数来表示信源的不肯定程度,则一页信包含的不肯定度H1(x)为
而8页信提供的不肯定度为
式(2-4)表明,8页信的不肯定度,亦即它提供的信息量为1页信的8倍,这与我们前面的直观理解是一致的,也说明用概率倒数的对数来表示信息的不肯定程度即信息量是合理的。当消息Xi的出现概率P(xi)越小时,的值越大,也就是说如果消息Xi出现越罕见,则一旦出现,从中获得的信息量就越大。
综上所述,对于任何离散信源,输出单个消息Xi所提供的信息量,用Xi出现概率倒数的对数来表示,是十分准确精妙的。