
三 为何自然语言处理需要哲学?
从总体上来看,哲学与NLP研究之间的关系,与哲学和一般意义上的理工科研究规划之间的关系,并无本质不同。这也就是说,与很多自然科学研究规划一样,不同的NLP研究规划都已经预设了这样或者那样的哲学立场,只是相关的实证科学研究者往往没有兴趣对这样的立场进行反思罢了。因此,哲学研究者的任务,就是将NLP研究未及言明的前提予以揭露,并对其进行反思性评判。需要注意的是,与别的实证研究领域不同,NLP的研究尚且具有很大的前沿性、综合性、探索性与范式层面上的不确定性,这就意味着以综合性反思见长的哲学反思介入NLP讨论的机会,要比其介入物理学、化学等成熟学科的机会大很多。大致而言,由于NLP的研究将不得不预设这样或者那样的关于语言之本性的看法,作为哲学分支的语言哲学(philosophy of language)与NLP研究之间的关系就会变得异常紧密。其中,有如下四个语言哲学问题是特别值得一提的:
问题一:语言与世界的关系为何?语言表征是对于说话者之余的外部世界的建模,还是对于说话者自己的内部观念世界的建模?
这个问题显然牵涉到语言哲学历史上的一个大争议。像柏拉图、弗雷格、克里普克、普特南这些带有客观主义倾向的哲学家会倾向于认为语言的作用是成为外部客观事物的标记符号;而像洛克、胡塞尔、大森庄藏8这些带有主观观念论色彩的哲学家则会认为语言的主要任务乃是表征言说者内部的思想观念,而不是指称外部的对象。此类争议在NLP内部也引发了相关技术路径的分野。其中,客观主义路向的语言观自然会导致诸如“沙德鲁”这样利用一阶谓词逻辑构造“积木世界”的NLP方案9;而主观主义路向的语言观则会引发丘奇兰德(P. M. Churchland)的“神经语义学”规划10,以及在“个性化营建”方面走得更远的王培的“纳思”研究规划11。说得更具隐喻色彩一点,这两类研究路线之间的差异,乃是“上帝视角”与“凡人视角”之间的差异——基于“上帝视角”的客观主义的NLP研究路向会预设:程序员已经获得了其关于外部世界的至少某些方面的充分知识;而基于“凡人视角”的主观主义的NLP研究路向则会预设:程序员所知道的、仅仅是被构建的NLP体系内部的表征符号之间的推理关系——至于这些推理关系是否严格对应于外部世界中的诸要素之间的因果关系,则是“未知之事”。
笔者是“凡人视角”的NLP研究路向的支持者,否则,我们就不得不预设NLP系统所储存的某些关于外部世界的知识乃是“不可变的”(因为知识的充分性将立即导出对于“知识修正”必要性的否定),并因为这种预设而使得由此被设计出来的NLP系统失去应有的灵活性。但不幸的是,基于“凡人视角”的NLP研究,并非目前NLP研究的主流。因此,哲学家特别需要在概念层面上进行相关的“纠偏”工作。
问题二:语言中的规则,究竟是先验的、不可变的,还是经验的、可变的?
前面已经提到,NLP研究素有“基于规则”与“基于统计”这两个分野。但从概念分析角度看,对于这两个分野自身的界定,似乎也就预设了“规则”的确立本身是与经验性的统计工作无关的。但事情果真是如此吗?难道一种语言的语法本身不会随着时间而发生流变吗?(我们不妨想想近代以来汉语的语法所经历的“欧化”进程。)关于如何更好地界定“先验”与“经验”,大致有以下三种解答方案:
做大“先验”的范围,即将所有的经验层面上的自然语言语法都视为先验的。不过,这种研究方式由于实在难以配合经验语法在事实层面上的演化现实,而只能被视为某种抽象的可能性。
与(甲)所提示的方向相反,做大“经验”的范围,即认为所有先验语法都可以通过统计资料消化。这是目下主流的基于深度学习的NLP研究思路。
与前二者都不同,此路数取其中间值,即在“规则”中又一分为二:有些规则是“经验的”,如各种语言的表层语法;有些规则是先验的,如某种贯穿于各种表层语法的“深层语法”。乔姆斯基(Noam Chomsky)的基于“普遍语法”概念的语言学路数12,以及受到该路数影响的NLP研究,采用的就是该思路。
笔者本人所赞成的立场,乃是路数(丙)的某种更偏向经验论方向的改良版。与乔姆斯基类似,笔者也认为存在着某种贯穿于各种经验的语言形式的先验思想架构,否则我们就很难解释为何任何一个智力正常的人都可能学会一门外语;但与乔姆斯基不同的是,笔者并不认为这样一种先验思想架构必须体现为一种现成的深层语法或普遍语法——它应当只能在某种更抽象的意义上被理解为简单语言符号之间进行“接榫拼接”的各种先验可能性,并因此只能承载最少的语法性质(“语法性质”一词在此是指性、数、格等语法形态)。举个例子来说,印欧语系的语言经常出现的名词的性、数、格的变化、动词的情态与时态变化,都不能在这些最基础的“接榫”形式中出现,而只能被视为这些“接榫”形式的某种后天的复合形式。与之相较,乔姆斯基本人的想法则是这样的:即使在汉语这种“屈折度”13几乎不可见的东方语言中,上述这些印欧语言的语法“屈折性”特点也是以缄默方式存在的,否则,他心目中的“深层语法”就无法达成其普遍性。说得概括性更强一点,笔者与乔姆斯基观点的共同点在于:我们都认为各种语言的表层语法虽有繁简之分,但对于所有语言的构成的终极说明都可以服从一套统一的语法范畴。而笔者与他的不同之处就在于:在他看来,既然有待说明的诸语言现象有繁简之分,那么,用以说明它们的语法范畴就必须在“繁”的一头留足“冗余量”,并由此成为一种预备了所有语法开关的“普遍语法”。而在笔者看来,如果上述假设是对的,我们就可以由此推出:一个从不知晓西方语言中性、数、格之变化的汉语言说者,也应当已经在缄默地运行一种足以支撑上述语法形态的内部语言。反过来说也是一样的:这样的一个汉语言说者倘若改去言说某种更复杂的语言(如日语),这种做法应当是不会给他带来更大的心理学负担的。然而,这一推理显然难以契合于下述这一朴素的心理学事实:“言说在语法上更为复杂的语言一般会让人感到更有心理负担。”(除非被比较的语言中有一门是母语,因为从语言心理学的角度看,言说母语一般是最轻松的,无论母语本身的语法是否复杂。)与之相较,笔者的假设——简单的卯榫结构能够按照不同经验语言的需要,随时被搭建为特定的语法结构——则可以轻易地解释为何我们在言说语法更简单的语言时会感到更轻松:因为这种言说所需要的卯榫结构的重建工作负荷本来就比较小。此外,笔者的这一研究思路还会带来一个重大的红利:由于笔者所说的这一卯榫结构与逻辑句法结构之间的高度同源性,经由此路数进行的NLP研究,将有机会与AI研究的其他面向(特别是推理与常识表征研究)相互融合。顺便说一句,目前最切合笔者上述思路的NLP编程语言,其实就是前文提到的王培的“纳思”逻辑,因为这种逻辑既具备对各种推理形式与常识经验的表征能力,也可以通过对于自身结构的递归式构造,去模拟特定经验语言的语法特征。14
问题三: 语言与心理架构之间的关系究竟是什么?
前面已经提到,目前基于大数据的NLP研究,基本上乃是与各种各样的认知建模研究相互疏离的。换言之,这些NLP研究者所关心的乃是如何在某些特定类型的语料输入与语料输出之间建立起合适的映射关系,而并非这样的语言现象是从怎样的心理认知架构之中涌现的。与之相较,对于语言与心理活动之间的关系的研究,却成为了战后很多哲学家的学术聚焦点。譬如,在美国哲学家塞尔(John Searle)看来,诸如“提出一个希望”“表达一个欲望”“表述一个信念”这样的言语行为本身乃是建立在“希望”“欲望”与“相信”这样的“意向性活动”之上的,因此,作为心理学哲学分支的“意向性理论”应当为作为语言哲学分支的“言语行为理论”提供根基。15无独有偶,美国哲学家福多(A. Jerry Fodor)也在心理学哲学层面上提出过关于“心语”(mentalese)的假设,以便在一个前公共语言的层面上解释心智机器是如何加工处理那些基本信息的。16而在笔者看来,虽然塞尔与福多各自的心理学哲学都有自己特定的问题,但至少他们都正确地看到了“纯粹地停留在言语行为的层面上来研究语言”这一做法的肤浅性,而走出了迈向正确的NLP解决路径的第一步。而之所以说“纯粹地停留在言语行为的层面上来研究语言”这一做法本身乃是肤浅的,则又是基于如下考虑:在言语行为层次上的现象实在是过于繁杂了,因此,对于不同语言现象的输入—输出关系的追索,必然会使得NLP的研究者陷入“以有涯追无涯”的尴尬境地,并由此带来昂贵的数据采集成本与建模成本;而假若我们能换一个思路,将复杂的言语行为视为“某种更具有一般性的心智架构在不同外部环境的刺激下而产生的不同的对应输出”的话,我们就能大大降低建模成本,并为相关系统在特定外部条件下的自动升级预留逻辑空间。
但这样的一种研究思路,必然会将主流的NLP研究的进路,进一步升级为一个宏大的通用人工智能的研究规划,因为心智建模本身就意味着对于智能的一般架构的探索。这种带有整体论思维模式色彩的研究路线图恐怕会让一部分研究者感到绝望,因为AI研究的典型操作模式便是针对某个特定应用场景提出的问题进行工程学开发,并将相关的研究成果拓展到别的应用场景上去——而笔者所提倡的研究思路却是先去悬置一切技术应用场景,在哲学与科学的层面上理清智能推理的一般特征,然后再考虑技术运用的问题。不过,在笔者看来,这里所提出的研究路线图虽貌似在绕弯路,实际上却更有希望,因为该路线图的执行者能够在最大程度上避免受到特定应用场景的偶然性的影响,从而能聚焦于心智架构的某些一般性特征。这就好比是对于牛顿力学体系的纯粹理论研究与基于该力学体系的各种工程学应用之间的关系:前一类研究虽然具有某种凌驾于各种应用场景的纯理论性,但一旦完成,就可以转变为无穷无尽的应用可能,而起到“四两拨千斤”的作用。
不过,这种面向“通用人工智能”的带有整体论色彩的研究规划,显然会因为自身的整体论色彩而从心理建模层面自然延展到身体建模层面。这也就会自然牵涉到前面我们已经提到过的那个问题:语言表征与具身性之间的关系究竟是什么?
问题四:自然语言处理所需要的认知架构理论,究竟在多大程度上还需要被“具身化”?
在前文中,通过“夏虫不可语冰”这一案例,笔者已经提出了这样一种观点:语言交流足以让我们判断一个交流对象在身体感知方面的广度与深度,因此,语言交流乃是判断某对象的各方面智能水平的最有效手段。然而,从工程建模的角度看,这并不意味着对于智能体的物理身体的塑造就可以被还原为纯粹NLP性质的问题——这就好比说,在认识论的层面上说“美食家的评论乃是判断某餐厅招牌菜品质的最重要指标”,并不意味着在本体论意义上去断定:做美食料理的问题,可以被还原为如何撰写美食评论的问题。由此看来,完整意义的通用人工智能研究,将不得不包含对于智能体的“感受—运动”设备(即人类意义上的“身体”)的设计与制造。
不过,至少从表面上看来,对于AI的感受—运动设备的设计与制造,本身并不会引发任何哲学争议,因为就连最简单的家用计算机都包含着键盘、鼠标等与外部信息环境沟通的媒介,何况是需要在复杂物理环境中行动的AI系统。那么,我们将这个问题予以单列,其意义究竟又为何呢?
其意义就在于对于下述问题的澄清:上述这种“具身化”的工作,究竟对于NLP的研究来说是具有本质性的,还是仅仅具有某种边缘性的意义?说得更清楚一点,在NLP的研究中,架构者是否需要预先思考相关的AI体将被匹配上怎样的感受—运动设备,并为这样的设备而在NLP的界面上预留一些重要的“槽口”?抑或:架构者根本不用关心相关的AI体将被匹配上怎样的感受—运动设备,并完全可以将此类的考虑全部分配给其他领域的专家?而这个“二选一”问题在近代哲学中的表现形式就是:人类的理性能力,是否能够在悬置各种感官能力运作的情况下,进行相对独立的运作?对这一问题答“否”的乃是经验派的观点(这种观点的工程学对应者,自然就会强调NLP界面设计与AI体的外部设备设计之间的连续性),而对该问题答“是”的则是唯理派的观点(这种观点的工程学对应者,自然就会强调NLP界面设计与AI体的外部设备设计之间的可分离性)。
笔者对于该问题的解答,则既不是纯粹唯理论的,也不是纯粹经验论的,而是带有康德式的调和意味的:在笔者看来,在纯粹的概念构造与底层的感官信息之间,还有一个重要的中间层被唯理派与经验派忽略了,也就是“时—空”关系的直观形式。一方面,这样的直观形式显然具有一定的前概念性(譬如,对于一个房间的空间感知,不能被还原为对于相关空间的几何学描述),而在另一方面,这样的直观形式又具有针对各种感官道的某种抽象性,并因此更接近于概念(譬如,一位盲人所感知到的教室的内部空间形式,依然会与一个正常人所看到的教室的内部空间形式有着高度的可重叠性)。在现代的认知语言学中,这样直观形式的不同组合方式,一般称为“图式”(顺便说一句,该术语乃是认知语言学对于康德的“图型”概念进行再包装后的产物),譬如,英语“ENTER”(进入)这个概念就具有如下图像形式(图1-4):

图1-4 关于“ENTER”的认知图式形成过程的图示17
由上图看来,英语“ENTER”(进入)这个概念就可以被分析为数个意象图式在时间序列中的组合,包括“物体”(object)、“源点—路径—目标”(source-path-goal)与“容器—容纳物”(container-
content)。很显然,无论我们所讨论的智能体具有怎样的传感器与运动设备(譬如,无论它是像蝙蝠那样通过回声定位系统来辨别方位,还是像鸽子那样通过磁力线来辨别方位),它们都具有上述关于“ENTER”(进入)的认知图式。换言之,即使它们彼此之间的感官道不同,它们也都能够在NLP的层面上理解“ENTER”(进入)这个概念。
由此我们不难推出,对于NLP的研究来说,我们需要做的是:(甲)列出一系列类似“ENTER”(进入)的与时空感密切相关的概念;(乙)对这些概念进行“图式化”;(丙)对这些图式化的结果进行算法化处理。
平心而论,笔者认为在这三个步骤中,最难处理的是(丙),因为目前世界上尚且没有出现比较成熟的针对认知语言学的“图式”概念的算法化方案18(某些奠定的处理方案是基于神经元网络模型对图式加以刻画的,但是笔者对相关路径的可靠性有所怀疑。详见本书第五章的讨论)。但笔者依然坚持认为,由“图型论”所代表的康德式调和路线,乃是解决NLP系统之“具身化” 问题的必经之路,否则,我们便既无法摆脱极端的唯理论思路所带来的困扰(此困扰即抽象的符号如何在物理世界中获得意义奠基?),也无法摆脱极端经验论所带来的困扰(此困扰即具有不同感官道的智能体之间的交流,是如何具有可能性的?)。换言之,沿着这一中间道路继续进行优化,乃是研究NLP体系之具身化在恰当限度内的题中应有之义,因为从哲学角度上看,走别的路径,我们或许就更没有成功的可能。