1.1 信息的基本概念
1.1.1 信息论的产生
我们知道,组成客观世界三大基本要素是:物质、能量和信息。人类社会从农业时代经过工业时代发展到信息时代,特别是在今天的信息时代,社会的发展都离不开物质(材料)、能量(能源)和信息资源。美国学者欧廷格说:“没有物质什么都不存在,没有能量什么都不发生,没有信息什么都没意义。”(“Without materials nothing exists. Without energy nothing happens. Without information nothing makes sense.”)因此,关于信息的课程本应该像物理、化学、生物等课程一样,是基础课。但由于信息的抽象性及当前人们对信息的认识并不完全清楚等原因,在当前只能是专业课。
人们普遍认为,1948年美国工程师和数学家香农发表的《通信的数学理论》(A Matematical Theory of Communication,BSTJ,1948)这篇里程碑性的文章标志着信息论的产生,而香农本人也成为信息论的奠基人。
香农指出,通信的基本问题是在一点精确地或近似地恢复另一点所选择的消息。人们从这个基本问题出发,对通信系统制定了三项性能指标:传输的有效性、传输的可靠性、传输的安全性。
有效性就是有效地利用资源,包括时间、空间和频谱等,具体体现为:①对于离散信源,信源符号平均代码长度应尽量短;②信息传输速率应尽量快,即高的传信率(单位时间传送信息的速率),就是有效利用时间资源;③信息传送应该有高的频谱利用率,实际上是有效利用频谱资源。
可靠性是指,传输差错要尽量少,对于数字传输就是要求低的误码率。
安全性是指,传输的信息不能泄露给未授权人。
三项性能指标所对应的三项基本技术是:数据压缩、数据纠错和数据加密。
香农信息论解决了前两项技术的理论问题:提高有效性可通过信源编码(即信源压缩编码)来实现,并给出了压缩编码最低码率的极限;提高可靠性可通过信道编码来实现,并给出实现可靠传输最高信息传输速率的极限。所以说,香农揭示了数据压缩和传输的基本定律。
实际上,传输安全性的理论问题也是香农首先解决的。不过关于传输安全性的问题往往被认为属于信息安全或密码学领域。早在二战期间,香农就对密码学感兴趣。他认识到,密码学中的基本问题与通信中的问题密切相关。1945年,他写了《密码学的数学理论》(A Mathematical Theory of Cryptography),1949年改名为《保密系统的通信理论》(Communication Theory of Secrecy System)公开发表。这篇文章建立了保密系统的数学理论,对密码学产生了很大的影响。人们认为,是香农的工作才把密码学从艺术变成科学。
所以我们说,香农建立了通信中的三项基本技术的理论基础,信息论是前两项技术的理论基础。
1.1.2 信息的基本概念
信息论的产生引起了很多专家学者对信息研究的兴趣,他们从不同的角度和侧面研究和定义信息。据说到目前为止已有上百种信息的定义或说法。例如,“信息是事物之间的差异”“信息是物质与能量在时间与空间分布的不均匀性”“信息是收信者事先不知道的东西”等。
正因为信息的定义种类繁多,所以当前还没有一个公认的关于信息的定义,但这并不影响我们对信息的基本特征的认识。信息有许多与物质、能量相同的特征,例如,信息可以产生、消失、携带、处理和量度。信息也有与物质、能量不同的特征,例如,信息可以共享,可以无限制地复制等。
实际上,信息可以划分为两个大的层次:本体论层次和认识论层次。从本体论层次上看,信息是客观的,即它是独立于人或其他有感知的事物而存在的,这就是说,在人类出现以前信息就存在了。从认识论层次上看,信息是通过认识主体的感受而体现出来的。现在我们所说的信息实际上是指认识论层次的信息。
威沃(Weaver)在《对通信的数学理论当前的贡献》(Recent Contributions to the Mathematical Theory of Communication)一文中讲到通信问题的三个层次:第一层,通信符号如何精确传输?(技术问题);第二层,传输的符号如何精确携带所需要的含义?(语义问题);第三层,所接收的含义如何以所需要的方式有效地影响行为?(效用问题)。Weaver 认为香农的通信的数学理论属于第一层,但与第二、三层有重叠,而且至少在很大程度上也是第二、三层的理论之一。
当前一种比较普遍的描述信息的说法是:信息是认识主体(人、生物、机器)所感受的或所表达的事物运动的状态和运动状态变化的方式。以这种定义为基础,可以把信息分成三个基本层次,即语法(Syntactic)信息,语义(Semantic)信息和语用(Pragmatic)信息,分别反映事物运动状态及其变化方式的外在形式、内在含义和效用价值。
可以看到,现在这种比较普遍认同的对信息的描述与Weaver的说法基本一致。
语法信息是事物运动的状态和变化方式的外在形式,不涉及状态的含义和效用。像语言学领域的“词与词的结合方式”,而不考虑词的含义与效用。在语言学中称为语法学。语法信息还可细分为概率信息、偶发信息、确定信息、模糊信息等。
语义信息是事物运动的状态和变化方式的含义。在语言学里,研究“词与词结合方式的含义”的学科称为语义学。
语用信息是事物运动状态及其状态变化方式的效用。
下面举例说明信息三个层次的含义。有一个情报部门,其主要任务是对经济情报进行收集、整理与分析,以提供给决策机构。该部门设三个组:信息收集组、信息处理组和信息分析组。信息收集组的任务是将收集到的资料按中文、英文或其他文字、明文、密文进行分类,不管这些资料的含义如何,都交到信息处理组。信息处理组根据资料的性质进行翻译或破译得到这些资料的含义,然后交到信息分析组。信息分析组从这些资料中挑选出有价值的情报提交给决策机构。可见,信息收集组是根据所得到的消息提取出语法信息,信息处理组是根据所得到的语法信息提取出语义信息,而信息分析组是根据所得到的语义信息提取出语用信息。
可以看到,研究语义信息要以语法信息为基础,研究语用信息要以语义信息和语法信息为基础。三者之间,语法信息是最简单、最基本的层次,语用信息则是最复杂、最实用的层次。
现在,让我们再完整地引用香农在1948年的经典论断:“通信的基本问题是在一点精确地或近似地恢复另一点所选择的消息。通常,这些消息是有含义的,即它对于某系统指的是某些实在的或抽象的实体。这些通信的语义方面与通信问题无关,而重要的是,实际消息是从一个可能消息集合中选择出的一条消息。”
可见,香农在研究信息理论时,排除了语义信息与语用信息的因素,先从语法信息入手,解决当时最重要的通信工程一类的信息传递问题。同时他还把信源看成具有输出的随机过程,所研究的事物运动状态和变化方式的外在形式遵循某种概率分布。因此香农信息论所研究的信息是语法信息中的概率信息。不过,随着信息论研究的深入,香农信息论的方法已经渗透到语义信息领域,如最大熵建模方法用于机器翻译等自然语言处理问题。
有人还提出通信信息(应属于语法信息)也有三个层次,即信号、消息与信息。其中信号为最低的层次,信息是最高层次。消息是信息的携带者,信息包含于消息之中,信号是消息的载体,消息是信号的具体内容。
信息各层次之间的关系如图1.1描述。
图1.1 信息各层次之间关系