自然语言交流的计算机模型
上QQ阅读APP看书,第一时间看更新

引    言

Ⅰ. 基本假设

自然语言交流的计算机模型不能仅仅局限于对语言符号进行语法分析,而是必须以认知主体的识别和行动的一般性步骤为起点,把语言理解和语言生成当作特例来处理。

认知主体的识别和行动依赖于认知主体的外部界面,认知主体内部有一个储存内容的数据库。没有语言功能的主体只有一层认知结构,称作语境层。具备语言功能的主体的认知结构则有二层:语境层和语言层。语言与世界之间的联系,即指代关系(reference),完全通过主体的认知步骤建立起来。这种指代关系的建立有两个要素:(i)主体的外部界面,(ii)语言认知层和语境认知层之间通过格式匹配建立关联的过程。注7

数据库语义学(DBS)模拟自然认知主体的行为,包括语言交流,自动(a)把识别得到的命题内容读入主体数据库,以及(b)把命题内容从主体数据库读出来形成行动。识别和行动之间(c)通过能够进行合理(有意义的、理性的、成功的)推理的控制机制联系起来。

Ⅱ. 认知主体构成

从最抽象的层次上看,认知主体包含三个基本组成部分:(i)外部界面,(ii)数据库,(iii)算法注8。它们采用共同的格式,称作数据结构注9,来表示和处理内容。

认知主体需要通过外部界面来完成识别和行动。识别指的是看和听等,其前提是认知主体有眼睛和耳朵。行动指的是说话、操作和走路等,其前提是认知主体有嘴、有手和脚。没有外部界面,认知主体就不能告诉我们它理解了什么,也不能按我们说的去做。

主体的数据库用来存储和提取由外部界面提供的内容。没有数据库,主体将无法判断之前有没有见过某一物体,也无法对某一语言的词汇和意义形成记忆。其功能也就只能局限于直接联系输入与输出的反射行为。

算法负责在外部界面和数据库之间建立联系,(i)把识别到的内容读入数据库,(ii)从数据库中读取内容形成行动。同时,算法还必须(iii)处理数据库里存储的内容,以确定目标、计划行动和导出概论。

自然主体的认知过程中,外部界面、数据库和算法之间紧密互动。因此,自然认知过程的计算机模型当中,这三个部分也必须相互合作、联合行动。初始阶段,这三个基本构成部件可能很简单,但是必须具有普遍性,必须从一开始就能够在功能上整合为一个统一的框架。

Ⅲ. 自然语言处理

自然语言交流模型需要一些传统的语法的构成成分,即针对某一语言的词典,针对某一语言的构词法、句法和语义规则。交流过程中,这些成分必须在(i)听者模式、(ii)思考模式和(iii)说者模式下协同合作。

听者模式下,外部界面提供由语言符号构成的输入;算法对这些符号进行解析,并将其内容以某种表示方式存入数据库。符号解析依靠的是自动词形识别系统和自动句法语义分析系统。

思考模式下,算法实现数据库内的自主导航,选择性激活相应的内容。这种自主导航也用于根据当前输入和数据库存储的内容进行推理以导出行动的过程。

说者模式下,被激活的内容和导出的推理成为语言生成的概念化基础,即解决说什么的问题。根据被激活的内容生成语言还要求对词形进行正确选择、处理语序以及注意一致性问题。

Ⅳ. 侧重点

接下来的章节对数据库语义学(DBS)的某些组成部分作了详细的分析,其他部分则只简单介绍其输入、功能和输出。这是难免的,因为全部作详细介绍的话,任务过于繁重,又因为跨学科的原因,涉及面过宽,而且有些技术相对于其他技术来说比较容易获得。

例如,本书没有说明如何把数据库语义学(DBS)实现为一个实实在在的机器人原型,这个机器人有外部识别和行动界面,即人工视觉、语音识别、操纵和运动的功能。这的确很遗憾,因为数据库里的内容来自主体识别和行动过程中“通过感知”得到的概念(Roy 2003)。

在对人工智能主体的外部界面作高度抽象描述的同时,本书不但从理论上介绍了算法和数据结构,还用具体实例将其开发为模拟听者、思考和说者模式的“片段(fragment)”。这些片段被定义为明确的规则体系,并采用JavaTM语言具体实践为一个与之相应的计算机程序。

Ⅴ. 现有体系和方法

目前,我们有很多种分析器可供选择。有的是基于统计的方法,如Chunk句法分析器(Abney 1991;Déjean 1998;Vergne and Giguet 1998),Brill Tagger and Parser(Brill 1993,1994)以及头驱动分析器(Collins 1999;Charniak 2001)。有的是基于短语结构语法的方法,如Earley算法(Earley 1970),Chart句法分析器(Kay 1980;Pereira and Shieber 1987),CYK句法分析器(Cocke and Schwartz 1970;Younger 1967;Kasami 1965),和Tomita句法分析器(Tomita 1986),等等。

同样,我们也有很多句法理论。有的以范畴语法(Le śniewski 1929;Ajdukiewicz 1935;Bar-Hillel 1964)为基础。和范畴语法相关的是配价理论(Tesnière 1959;Herbst 1999;Ágel 2000;Herbst et al.2004),以及依存语法(Mel’čuk 1988;Hudson 1991;Hellwig 2003)。其他的还有短语结构语法(Post 1936;Chomsky 1957),如广义短语结构语法(GPSG,Gazdar et al.1985),词汇功能语法(LFG,Bresnan 1982,2001),头驱动短语结构语法(HPSG,Pollard and Sag 1987,1994)和构式语法(Östman and Fried 2004;Fillmore et al.待出版)等。

语义分析的方法也很多。有的基于模型理论(Tarski 1935,1944;Montague 1974),有的基于言语行为理论(Austin 1962;Grice 1957,1965;Searle 1969)或者语义网络(Quillian 1968;Sowa 1984,2000)。此外,还有修辞结构论(RST,Mann and Thompson 1993)和语篇语言学(Halliday and Hasan 1976;Beaugrande and Dressler 1981)等。从认知心理学角度定义概念的方法也多种多样,如图示、模板、原形和几何离子方法等(见4.2)。

如果加上人们在建立广义机器翻译理论(Dorr 1993)、普遍语义基元集(Schank and Abelson 1977;Wierzbicka 1991)和以应用为导向的语言生成体系(Reiter and Dale 1997)等方面的努力,这个分系统的名单可以列得更长。此外,以基于XML、RDF和OWL的元数据标注法来改进互联网索引和检索(Berners-Lee,Hendler,and Lassila 2001)方面的工作也不容忽视。这就引出了一个问题:要建立一个具有普遍性的、完整的、协调的自然语言交流的计算模型,应该选择哪一个体系来构成其组成成分呢?

一方面,我们没有兴趣去重塑一个已经存在的组件。另一方面,把这些分系统理论整合进自然语言交流的一般理论,其代价是巨大的:现有各种理论的历史背景不同,目的也不同,使之兼容要花费大量的时间和精力。

整合分系统理论除费时费力之外,还存在着另一个问题,这个问题更具有普遍性:它们中的哪一个在原则上适合用来建立一个实用理论以解释自然语言交流如何进行呢?FoCL’就上述大多数理论讨论了这个问题。注10

讨论的结果导致了数据库语义学的诞生。数据库语义学从上述很多思想和方法中吸取了经验,其中最基本的两点是亚里士多德的命题观和索绪尔强调的语言的线性结构。

尽管数据库语义学的语法分析在很多方面仍然是传统的,但是和目前普遍采用的方法不同,数据库语义学的句法分析(组合分析)和语义分析(语义理解)并没有分开,而是按照时间线性顺序同时进行(Tugwell 1998)。纯粹的句法分析和句法语义分析相结合的方法之间存在着区别,这一区别在于(i)前者定义的句子成分的词汇特征比后者少,(ii)前者定义的句子成分之间的关系也比后者少。

Ⅵ. 形式化基础

迄今为止,数据库语义学是第一个,也是唯一的一个将自然语言理解与生成重构为角色转换的规则体系。角色转换指认知主体在听者模式与说者模式之间的转换。数据库语义学重新建构自然语言交流过程的两个基础也都颇有开创性。这两个基础是:

LA语法(the algorithm of Left-Associative Grammar):

LA语法以接续的可能性原则为前提。这完全不同于当今语言学领域的常用算法,如PSG和CG。这些常用语法遵循词的可替代性原则。计算接续可能性符合自然语言的时间线性结构,允许我们把角色转换处理为三种LA语法之间的互动,即LA-hear(听)、LA-think(思考)和LA-speak(说)之间的互动。

词库数据结构(the data structure of a Word Bank)(AIJ’01):

命题内容以非递归特征结构(flat feature structure)的形式存储在词库当中。这种特征结构称作命题因子(proplet)。以替代为基础的分析方法允许嵌套,如主语的特征结构嵌入动词的特征结构(见3.4.5),数据库语义学(DBS)不允许这种情况发生。相反,命题因子仅仅通过特征(feature),即属性-值对(attribute-value pairs)来体现彼此之间的语法关系。以命题因子集合来表示内容的方法,方便(i)数据存储和提取;也方便进行(ii)格式匹配,从而为建立(iia)语法规则和语言之间(见3.4.3和3.5.1),以及(iib)语境层和语言层之间(见3.3.1)的联系奠定基础。

LA语法和词库数据结构共同构成在命题内容之间进行自动导航的前提。命题因子之间的语法关系就像是一套铁路系统,而LA语法则像一辆机车沿着这套铁路系统推动唯一的焦点移动。这种新的数据结构和算法相结合的方法构成基本的思考模型。它可以仅仅用来在词库内选择性激活内容(自由联合),也可以扩展为一个控制结构,通过已存储的知识和推理来建立主体识别和行动之间的联系。

Ⅶ. 语言学分析范围

我们的语言学分析目标是对自然语言的主要结构进行系统研究。自然语言的主要结构包括(i)函词论元结构、(ii)并列结构、(iii)共指结构。这些结构可能存在于命题内部,也可能存在于命题之间,还有可能以其他方式自由组合。

我们严格按照时间线性顺序,在听者和说者模式下对这些结构进行语法分析。实践证明,数据库语义学(DBS)和以符号为导向的方法相比,在功能上更加完备,完全可以进行直接的符合语言学规律的同源分析,能够在计算机上高效实践。

本书的分析也会涉及先天论(Nativism)难以分析的结构,即空缺结构(gapping constructions)(见第8章和第9章),尤其是“右节点提升(right-node-raising)”(FoCL’99),以及“驴句(donkey sentence)”和“巴赫-彼得句(Bach-Peters’ sentences)”中的共指结构(见第10章)。

Ⅷ. 本书结构

本书内容共分三个部分。第一部分介绍SLIM语言理论的基本框架,包括认知主体的外部界面,数据结构和算法。这一部分谈及很多对整个系统至关重要但却无法深入下去的问题,比如概念的本质,以及概念在识别和行动中的作用,不同符号种类的指代机制,以及语境层的形式结构等。

第二部分系统分析自然语言的主要结构,以英语的派生过程为例,概要性介绍听者模式和说者模式下的语言理解和生成过程。听者模式下的分析主要介绍如何严格按照时间线性顺序把函词论元结构和并列结构编码为命题因子集合,并把共指作为推理基础上的二级关系来处理。说者模式下的分析揭示基于内容提取的自动导航(概念化)过程、如何按照相应语言的语法要求输出正确的词形、语序,以及析出适当的功能词。

第三部分介绍几个英语片段。延用Montague的观点,“片段”指功能完整但覆盖面有限的自然语言交流体系。这部分详细介绍如何理解和生成小样本文本,明确定义了词汇、LA-hear、LA-think和LA-speak。

这三个部分各自的范围和抽象程度如下图所示:

抽象程度越高,语言学和技术上的细节越少。反过来,抽象程度越低,语言学和技术上的描述就越详细。

第一部分的框架建立在第二部分之上。第二部分介绍的分析方法以第三部分为基础。第二、第三部分的分析和定义构成指导JSLIM实验操作(Kycia 2004)的陈述性规范说明。目前Jörg Kapfer和Johannes Handl正采用第五版JavaTM对JSLIM进行再现(1.5)(译者注:在本译本完成前,该实验已成功结束)。