1.2 香农信息论研究的内容
本节在介绍通信系统模型中各主要模块功能的基础上,简单讲述香农信息论的研究的主要问题。
1.2.1 通信系统模型
如前面所述,香农创立信息论是从研究通信系统开始的,并首先建立了通信系统模型。由于技术发展水平的限制,当时的通信基本限制在点对点的通信,所以这种通信系统模型是指“从一个地方向另一个地方传送信息的系统”。例如,电话、电报、电视、无线通信、光通信等。而存储系统在某种意义上也可视为从现在向将来发送信息的通信系统。例如,磁盘或光盘驱动器、磁带记录器、视频播放器等。所以,一般的通信系统是从空间的一点到另一点传送信息的,而存储系统是从时间的一点到另一点传送信息的。
随着通信与信息网(其中包括电信网、互联网、移动通信网、广播电视网、光通信网等)的飞速发展,需要将传统的通信系统模型进行扩展,以适应新的研究需要。实际上,多个点对点的通信系统通过一个公用信道,就构成多点对多点的通信系统模型。因此关于传统的点对点通信模型的知识是最基本的。
一般通信系统模型框图,如图1.2所示。下面对模型的主要组成部分进行简单描述。
图1.2 通信系统模型
1.信源
信源(information source)是信息的来源,其功能是直接产生可能包含信息的消息。信源按输出符号的取值,分为离散和连续信源两大类。在离散时间发出取值离散符号的信源为离散信源,例如,字符序列,包括文件、信件、书报、杂志、电报、电传等都是离散信源。而连续信源又分为两种,一种是在离散时间发出取值连续符号的信源,称为离散时间连续信源,另一种是输出为连续时间波形(连续时间,符号取值连续)的信源,称为波形信源或模拟信源。无线广播信号、电视信号、语音、图像信号及多媒体信号等都是模拟信源,而模拟信源在时间域、频率域的抽样或通过其他变换方式得到的等价的离散时间序列都是离散时间连续信源。
离散信源和离散时间连续信源也有共性,就是它们的输出都是序列,只不过是符号的取值范围不同,前者取自可数符号集,而后者取自实数集。
信源按输出符号之间的依赖关系分类,可分为无记忆和有记忆信源。如果信源输出符号的概率与以前输出的符号无关,就称为无记忆信源,否则就称为有记忆信源。离散信源和离散时间连续信源可以是无记忆的,也可以是有记忆的,而模拟信源大多是有记忆的。
2.编码器
编码器(encoder)的功能是将消息变成适合于信道传输的信号。在通信系统中称作发信机, 而在存储系统中称作记录器或写入器。编码器包括信源编码器(source encoder)、信道编码器(channel encoder)和调制器(modulator),如图1.3所示。应该指出,在模拟通信系统中的编码器仅包含调制器。编码器中主要部分的功能如下:信源编码器的功能是将信源消息变成符号,目的是提高传输有效性,也就是压缩每个信源符号传输所需代码(通常为二进制代码)的数目(对二进制代码称比特数)。例如,一个信源含4个符号{a,b,c,d},概率分别为1/2,1/4,1/8,1/8。如果不采用信源编码,每个信源符号至少需要用2个二进制代码传输。如果采用信源编码,分别将a,b,c,d编码成为0,10,110,111,那么平均每信源符号只需1.75个二进制代码传输。可见,采用合适的信源编码确实能通过压缩码率提高传输有效性。所以,信源编码也称信源压缩编码。
图1.3 编码器的组成
信道编码器给信源编码符号序列增加冗余符号,目的是提高传输可靠性。信源编码输出直接传送,不能保证传输可靠性。利用信道编码给信源编码器的输出符号序列增加一些冗余符号,并让这些符号满足一定的数学规律,可使传输具有纠错或检错能力。因为出现传输错误会破坏这种数学规律,在接收端就会发现错误。例如,最简单的奇偶纠错编码方式是将信源编码输出的每个码组的尾补一个1或0,使得整个码组“1”的个数为奇或偶(或模二加为1或0)。这样,当传输发生奇数差错时,就打乱了“1”数目的奇偶性,从而可以检测出错误。这是最简单的检错方式,而实际使用的信道编码技术要复杂得多。
图1.4说明增加冗余符号可以提高传输可靠性。图中1.4(a):4个消息用4个2维矢量传送,没有冗余符号。如果出现任何差错都会使传送的码字变成另一个码字,所以无检错能力;图1.4(b):在图1.4(a)的基础上每个码字增加一个校验符号,构成奇校验,4个消息用4个三维矢量传送。如果出现任何奇数差错都会使传送的码字变成不是码字的三维矢量,这样就能检测出错误,但不能纠正错误;图1.4(c):用两个汉明距离为3的三维矢量传送两个消息。如果出现一个错误,可以根据接收矢量和码字汉明距离的大小判决是哪个消息被传输,因此可以纠一个错误。
图1.4 增加冗余符号提高传输可靠性示意图(图中,有阴影的点表示码字)
调制器功能是,将编码器的输出符号变成适合信道传输的信号,目的是提高传输效率(使远距离传输成为可能)。因为信道编码输出符号不能直接通过信道传递,要将其变成适合信道传输的信号,例如,0,1符号变成两个电平,为远距离传输,还需进行载波调制,例如,ASK、FSK、PSK等。
3.信道
信道(channel)是信号从编码器传输到译码器的中间媒介。信道可以分为狭义信道和广义信道。狭义信道是某些种类的物理通信信道,也可以是物理的存储介质。例如,有线、无线、光纤、磁盘、光盘等。广义信道是一种逻辑信道,它和信息所通过的介质无关,只反映信源与信宿的连接关系。信息论中只研究广义信道。
信道还分为无噪声信道和有噪声信道。通常,系统中其他部分的噪声和干扰都等效成信道噪声。通信系统中主要有两种噪声:加性噪声和乘性噪声。一般地讲,背景噪声为加性,而衰落为乘性。这里主要研究加性噪声。在信息论中研究最多的是理想加性高斯白噪声(AWGN)信道。研究高斯噪声的主要原因是它的普遍性和易于处理的特性。
高斯分布的普遍性主要基于两种原因:①根据中心极限定理,无数独立随机变量的和的分布趋近高斯分布,因此高斯噪声普遍存在;②在限功率条件下产生最大熵的信源分布为高斯分布,而最大熵分布是最容易被观察到的分布。
与信源的分类类似,信道还分为离散信道、离散时间连续信道和波形信道(或模拟信道),其中,离散信道和离散时间连续信道输入与输出都是符号序列,只不过符号取值不同,前者取离散值,而后者取连续值;而波形信道的输入与输出均为时间的连续波形。
信道也可有无记忆和有记忆的区分,离散信道和离散时间连续信道可以是无记忆的,也可以是有记忆的;而波形信道通常是有记忆的。
4.译码器
译码器(decoder)实现与编码器相反的功能,即从信号中恢复消息。在通信系统中称做接收机,而在存储系统中称做回放系统或读出器。译码器包括解调器、信道译码器、信源译码器,如图1.5所示。解调器功能是,将信道输出信号恢复成符号;信道译码器的功能是,去掉解调器输出符号中的冗余符号;信源译码器的功能是,将信道译码器输出符号变成消息。总之,数字系统中的译码器功能与编码器中的对应部分功能相反,而在模拟系统中仅包含解调器。
图1.5 译码器的组成
5.信宿
信宿(destination)的功能是接收信息,包括人或设备。当前人们对信宿的研究也取得某些成果。例如,利用人的视觉残留效应,可以对图像采用不连续传输的方式达到连续的视觉效果,从而进一步压缩码率。利用人听觉的掩蔽效应,可以压缩在大幅度频率分量附近的信号而不影响听觉效果。总之,对信宿的研究和压缩编码结合,可以在不影响视听效果的条件下,显著压缩码率。
6.通信系统性能指标的评价
有效性用频谱复用程度(模拟系统)或频谱利用率(数字系统)来衡量。提高有效性的措施是,采用性能好的信源编码以压缩码率,采用频谱利用率高的调制减小传输带宽。
可靠性用输出信噪比(模拟系统)和传输错误率(数字系统)来衡量。提高可靠性的措施是,采用宽带调制以换取信嗓比,采用高性能的信道编码以降低错误率。
安全性用信息加密强度来衡量,提高安全性的措施是,采用强度高的密码与信息隐藏或伪装方法。
1.2.2 香农信息论的主要内容
信息论是在概率论、随机过程和通信技术相结合的基础上发展起来的学科,可分为狭义信息论和广义信息论。狭义信息论即香农信息论或经典信息论,所研究的基本问题是:信源、信道及编码问题,核心是三个编码定理。广义信息论包括香农的或经典的信息论、信源编码、信道编码、近代信息论、统计通信理论、通信网理论、信号与信息处理、保密通信等。
香农信息论的内容可用一句话概括为“一个概念,三个定理”,就是信息熵的概念和三个编码定理。
1.关于信息的度量
为使信息有效和可靠地传输,首先要解决信息度量问题,它与信息论的三个基本定理密切相关。在信息传输过程中,信源作为信息产生的源头发出消息,使通信系统的各节点产生与信源相关的消息。因为香农将信源限制为具有某一先验概率的随机过程,所以在通信系统中各节点产生消息的实体也是随机过程(有时也简称为过程)。对包括信源在内的通信系统中所有过程的输出所含信息的度量称为信息的度量。这就是说,在香农信息论中,信息度量的对象是随机过程的输出,其中对信源输出的信息度量是最重要的内容。因为随机过程在每一给定时刻表现为随机变量,所以信息的度量也可视为是对随机变量的信息度量。有两种含义不同但又密切相关的信息度量方式,一种是随机变量本身所含信息量多少的量度,另一种是随机变量之间相互提供信息量多少的量度。前者用信息熵来描述,后者用互信息来描述。
信息熵是信息论中最重要的概念,信息熵的含义与应用以及信息的量度方法是研究的主要内容。
2.关于无失真信源编码
无失真信源编码定理,也称香农第一定理,是信源压缩编码的理论基础,其内容是:如果信源编码码率(编码后传送每个信源符号平均所需比特数)不小于信源的熵,就存在无失真编码,反之,不存在无失真编码。可以简述为
R≥H ⇔ 存在无失真信源编码
其中,R为信源编码码率,H为信源的熵。例如,英文字母加空共27符号,用代码传送,每个符号需5比特。但通过试验发现,实际的英文字母信源熵大约为1.4比特/符号,所以根据香农第一定理,存在某种信源编码方式,使得每字母仅用 1.4 个二进制符号就能无失真传送,这样可以显著提高传输效率。
由于定理解决的是信源无损压缩极限的理论问题,并未给出普遍的信源编码的方法,所以寻找接近或达到信源熵的压缩编码技术、分析其性能并有效实现是研究的主要问题。
3.关于信道容量与信息的可靠传输
有噪信道编码定理(香农第二定理)是信道编码的理论基础,其内容是:如果信息传输速率小于信道容量,则总可找到一种编码方式使得当编码序列足够长时传输差错任意小,反之不存在使差错任意小的编码。可以简述为
R≤C ⇔ 存在译码差错任意小的信道编码
其中,R为信息传输速率,也称信道编码码率,C为信道容量。例如,一个带宽为3kHz的系统,用二进制符号传输,如果不进行信道编码,无码间干扰的最大传输速率为6kbit/s,按照香农AWGN信道容量公式可知,通过合适的信道编码,在信噪比为26dB的条件下,实现可靠传输的最大速率可达到25.6kbit/s。
由于信道类型的复杂性,所以根据实际研究的问题建立信道模型,分析其特性,计算其容量以及评价在这些信道条件下各类通信系统的性能是研究的主要问题。此外,定理解决的是信息传输极限的理论问题,并未给出普遍的信道编码的方法,所以寻找接近或达到信源信道容量的信道编码技术、分析其性能并有效实现也是研究的主要问题。不过这些内容主要归入信道编码理论与技术的范畴。
4.信息率失真理论(有损数据压缩的理论基础)
实际上,在很多情况下,我们并不需要信息精确的传输,而是容许有一定限度差错的传输。这样在保证获取足够信息的前提下,可以提高传输效率,降低通信成本。香农指出:“实际上,当我们有一个连续信源时,我们感兴趣的不是精确的传输,而只是在一个给定容限内的传输。问题就是,当我们仅需要一定的以合适方式度量的恢复保真度时,我们能不能给连续信源分配一个确定的速率。”为实现限失真传输的有效性,我们总是希望在满足一定的失真要求条件下,使编码器的码率最小,这是一个最优有损数据压缩编码的理论问题,其理论基础就是信息率失真理论,核心是限失真信源编码定理。
限失真信源编码定理(香农第三定理)是有损压缩编码的理论基础,其内容是:对任何失真测度D≥0,只要码字足够长,总可找到一种编码,使得当信源编码的码率≥R(D)时,码的平均失真≤D;反之,如果信源编码的码率<R(D),就不存在平均失真≤D 的编码。可以简述为:
R≥R(D) ⇔ 存在平均失真≤D信源编码
其中,R为信源编码码率,R(D)称为信息率失真函数,是满足平均失真≤D条件下,平均每信源符号所需最小编码比特数。
例如,一个等概率16个符号的离散信源,如果要求不失真信源编码,那么每个信源符号需要4个二进制符号,即平均码长为4比特。但如果允许失真,就可以减小平均码长。如果要求平均失真不超过1/2,即对编码序列进行译码时,最多允许1/2的错误。很明显,我们可以将信源的前7个符号分别编码,而信源的后9个符号都编成一个相同的(第8个)码字传输,在接收端译码时,接收到前7个码字与接收端符号表的前7符号一一对应,无译码差错。当接收到第8个码字时,随机地译成接收端符号表中第8到第16个符号中的任意一个。总译码正确率为7/16+1/16=1/2,所以错误率也为1/2,即编码失真为1/2。如果用最优二元编码(例如,Huffman编码),平均码长可达2.25比特,小于4比特。但是,在理论上,对于同样的信源,为实现 1/2差错率的信源编码最小的码长由 R(D)函数来决定,为1.05比特。
与无失真信源编码类似,限失真信源编码定理解决了有损压缩极限的理论问题,也未给出实际的有损信源编码的方法。在各种失真度准则下对信源R(D)函数的研究,利用率失真理论对实际有损压缩编码性能的分析,寻找接近或达到有损压缩极限性能的信源编码方法是该领域研究的主要问题。
5.信息论的特点
现将香农信息论的特点总结如下:
●以概率论、随机过程为基本研究工具。
●研究通信系统的整个过程,而不是单个环节,并以编、译码器为重点。
●关心的是最优系统的性能和怎样到达这个性能,并不具体设计系统。
●语法信息中的概率信息要求信源为随机过程。