前 言
《自然哲学的数学原理》注2第一版的前言里,牛顿把力学分为理论力学和实用力学。理论力学又被称作理性力学,包括精确示范等;实用力学则包括所有的手工技术。如果用同样的方法来对当今的语言学进行分类,会怎样呢?
牛顿会首先强调本学科的重要性,但我们不想这样做。我们直奔主题:什么是理论语言学?什么是实用语言学?实用语言学的例子有语音识别、桌面出版、文字处理、机器翻译、内容提取、文本分类、互联网查询、自动辅导、对话系统和其他所有的自然语言的应用。这些实际应用催生了对实用语言学方法的巨大需求。
但是,现有的实用语言学方法还远远不能满足用户的需求和期待。到今天为止,最成功的实用语言学方法是基于统计学和元数据标注的方法。这些是快速解决的方法(smart solutions)注3,不需要关于自然语言交流过程的一般性理论支持,其目的是最大限度地挖掘每一次应用或者每一类应用的特殊性及其本质上的局限性。
我们来看一下实用力学:从准确预测潮汐到预测行星未来的位置,从炮弹瞄准到登陆月球等,都是力学的实际应用。和语言学应用一样,力学的实际应用,对方法也产生了巨大的需求。
但是,和语言学不同的是,实用力学的方法不但能够满足这一需求,甚至还超出人的想象。其原因是,牛顿的理论在应用于具体实践的同时,能够保持与传统工艺技能之间的相容性。虽然每一次应用都很艰难,需要理论知识和实践经验相结合,但是,其结果总是好的。
这就很自然地引出了一个问题:语言学能不能也这样呢?能不能把语言学理论直接转换成各种实际应用的有限的个别的背景,从而设想一个新的能够满足各式各样需求的框架呢?对于基础研究来说,这是一个相当大的挑战。
为了构建一个完整的、具有普遍性的语言学框架,我们首先要重建人类自然语言交流的认知“力学”。本书讨论的数据库语义学(Database Semantics,DBS)理论注4就是会说话的机器人的陈述性规范说明(declarative specification)。数据库语义学在实际应用上的潜力和它能够成功地、充分地模拟人类认知的能力直接相关。这一点是我们这个研究项目的本质。注5
一个会说话的机器人的陈述性规范说明必须是一个能够有效地实现自然语言交流机制的功能模型。为了确保完整性,该模型必须以人与人之间的基于语言的互动为原型。该模型的功能性和数据覆盖面必须通过具体实践来验证,也就是要有一个与之相应的运行有效的计算机程序。从长远看,功能性、完整性和可验证性相结合是模型升级成功的最佳科学基础。
由此得到的系统能够应用于所有与自然语言交流相关的实践活动。大多数情况下,只要降低该模型的功能性和数据覆盖面就可以满足某一具体实践的要求。例如,会说话的机器人具备认知功能、人工视觉、操纵以及移位功能等,要建立一个电话的自动对话系统,只需要用到它的认知功能。注6
其他的应用,例如我们熟知的机器翻译,在降低机器人功能性的同时,还要求对理论进行扩展。不过,数据库语义学有坚实的基础来满足这个要求,因为它也可以模拟单语交流,包括单语理解的过程。
另外,不依存于实践的(理论上的)任何有关词典数据覆盖率、自动词形识别、句法-语义分析、绝对知识和情景知识、推理等方面所取得的进步都可以直接提高现有理论的实际应用能力。方法很简单,就是把相关的部分定期地替换为新版本。这种可能性的来源在于,理论所提供的各个模块以体现功能为目的,各个界面的定义也很明确。
下面我们来尽可能直接地、简单地介绍一下数据库语义学。本书面向语言学和自然语言处理领域的在校研究生、其他研究人员,以及软件工程师等。语言哲学、认知心理学和人工智能等领域的学生和研究人员也可以参阅本书。
对计算语言学和数据库语义学还比较陌生的读者可以读一读《计算语言学基础》(Foundations of Computational Linguistics,1999,2001第二版)。作为一本教材,《计算语言学基础》系统地描述了传统的语法,对各种语言学方法的历史背景也作了对比分析,并提出了SLIM语言学理论。本书也采用了这一理论。
认知心理学方面的知识储备对理解本书也有一定的帮助,如Anderson的ACT-R理论(见 Anderson and Lebiere 1998)。和数据库语义学一样,ACT-R理论在本质上是以符号,而不是以统计为基础的。它也把计算模拟的方法作为验证方法。但是,ACT-R理论的研究焦点是记忆、学习和问题求解,数据库语义学的核心是模拟自然语言交流过程中的说者模式和听者模式。