语言学
配式分析在句法 语义界面研究中的贡献与挑战①
张 艳 郭 印
(青岛理工大学)
摘 要:近15年来,围绕句法 语义界面的定量研究,欧美语言学界出现了一系列论争。影响较大的配式分析、吸引 依存法、△P、比值比等研究方法在研究思路和操作方法上各有利弊,需要根据不同的研究目的择需选用。其中,配式分析对词项与构式的关联度研究贡献较大,已形成由配词分析、区别性配词分析、共变配词分析组成的系统分析方法。该方法虽然在近年备受争议,但是却为研究者深入探讨跨语言中的句法 语义的规律性现象提供了理论启示和方法借鉴。
Abstract:In the past 15 years, a series of controversies have emerged in the European and American linguistic circles centering on quantitative research in syntactic-semantic interface. Collostructional Analysis(CA), Attraction and Reliance, Delta P and Odds Ratio are among the most influential measurements. Researchers may employ them selectively in accordance with different research purposes. As a major contributor to measuring the correlation between lexicons and constructions, CA has developed into a systematic analysis umbrella consisting of collexeme analysis, distinctive collexeme analysis and co-varying collexeme analysis. Controversial as it remains, CA has provided both theoretical enlightenment and methodological reference for cross-lingual studies on syntactic-semantic regularities.
关键词:句法 语义界面;配式分析;吸引 依存法;△P;比值比
Key Words:syntactic-semantic interface; Collostructional Analysis; Attraction and Reliance; Delta P;Odds Ratio
一、引言
句法 语义界面研究主要围绕自然语言中语义信息与句法信息的两类关系展开:一类是词汇语义与句法结构之间的关系,另一类是句子语义和句法结构之间的关系。本文主要就前者展开讨论。20世纪70年代起,研究者(如Fillmore,1970; Carter,1976)逐渐认识到语义(特别是动词语义)与句法之间关系的规律性,揭示了许多有趣的跨语言现象。近15年来,句法 语义研究呈现出更加多样化的特征。该领域研究由早期的不重视实证方法,转变为越来越多的实证主义倾向,很多研究都不同程度地使用了心理语言学常用的实验数据或者语料库语言学常用的观察数据。尽管如此,对于句法 语义界面的定量研究方法的必要性和可操作性,争论一直不休。本文拟就配式分析法、吸引 依存法、△P和比值比等为代表的定量分析方法的理论发展及其在句法 语义界面的应用展开分析。
二、代表性定量分析法
1.配式分析法
受到构式主义(Goldberg,1995,2006)的影响,Stefanowitsch和Gries对认知语言学的语料库研究法作了改良,即不再只是利用统计相联测量(association measures)来研究词与词的搭配,而是用来研究词和构式的共现关系。为此,Stefanowitsch和Gries(2003)提出了配式分析(collostructional analysis)①的方法。配式分析能够较客观地确定构式空槽(slot)对某词项的优选或限制的程度,对于研究词项和句法结构的互动关系尤其适用。
(1)配式分析的基本思路:设L为配词,C为构式,为求L和C的构式搭配强度,需要得知4个频率:
① L出现在C的频率;
② L出现在除C外的其他构式的频率;
③ 不含L配词的C的频率;
④ 不含L配词的除C外其他构式的频率。
根据以上数据,研究者即可考察词项在构式中的表现。Stefanowitsch和Gries(2003)对配词accident与构式[N waiting to happen]的紧密度作了调查。(见表1)
表1 Accident与构式[N waiting to happen]的紧密度调查
Stefanowitsch和Gries认为,斜体数据从语料库可直接得到,其他数据通过减法运算得出。因为处理的是具体动词(wait)在小句层面的构式,所以总构式数可通过语料库标注的动词总数得出。基于以上信息,费舍尔精确检验(以下称 FYE)得出 P 值为2.1216E-34,意味着accident与该构式相关度较高。
在随后的一系列研究(Stefanowitsch & Gries, 2003; Gries & Stefanowitsch,2004a,2004b; Gries, 2010; Gries,2015; Yoon &Gries,2016等)中,他们运用并发展了配式分析方法,针对多种语言做了示范研究。当前,配式分析已成为由配词分析(collexeme analysis)、区别性配词分析(distinctive collexeme analysis)、共变配词分析(co-varying collexeme analysis)构成的系统分析方法(见图1),其中区别性配词分析又分为简单区别性配词分析(simple DCA)和多重区别性配词分析(multiple DCA),共变配词分析又分为基于词项(item-based)和基于系统(system-based)的共变配词分析。
图1 配式分析方法体系
配式分析为研究词与构式的联系紧密度提供了测量工具,在句法 语义界面研究方面有着划时代意义。其优势之一是能够计算出动词和句式之间的相吸度,而先前对于相吸度的处理(特别是致使交替强度)多出于研究者的母语语感判断,这样的处理往往带有认知偏见,会影响研究的客观性。其优势之二是对于语料的正态化处理。在此之前的传统搭配分析法对包含搭配词和检索词的构式整体性重视不够,没有考虑检索词所在语料库的总频率,所以很多高频搭配词都是功能词,意义不大。其优势之三是有助于在语料中确认和区分某些用传统搭配法难以操作的构式。比如,有些难以用具体句法或词汇形态表示的抽象构式(如时、体、气等),以及有些代表多个构式的构型(如[V-ing]既可表示动名词构式,也可表示现在分词构式)等。
但是,该系列方法也存在一些弊端,最严重的应该是4号单元格(即d单元格)所需要的数据,即“不含L配词的除C外其他构式的频率”。由于构式已经发展为一个相对开放的概念,按照Goldberg(2006)的观点,构式是“学得的形式与语义或话语功能的配对,包括了语素、词、熟语、部分有词汇填充的短语格式和完全没有词汇填充的短语格式”。这使得要在语料库中得出除了既定构式以外的所有构式的数量几乎成为不可能完成的任务。
2.吸引 依存法
吸引 依存法(Attraction and Reliance)由Schmid提出(2000:54—55),该方法区分了构式对词项的吸引度和词项对构式的依存度,试图从两个方向解决问题。吸引度和依存度的计算方法如下:
(2)① 吸引度计算:词项在构式中的出现频次除以该构式在语料库中的出现频次;
② 依存度计算:词项在构式中的出现频次除以词项在语料库中的出现频次;
③ 为了将结果转成百分制,被除数在两除式中均乘以100。
该方法的优势有三:其一是不必借用问题较多的4号单元格内容来计算吸引度和依存度;其二是吸引度和依存度是直接的描述性测量,信息解读得较为清楚;其三是不需要以语料库数据的随机结构(stochastic structure)和随机分布(random distribution)为前提假设。
该方法也应用于汉语研究。我们以现代汉语中典型作格动词“改善”①为例。经过对该词用法的初步观察,发现无论在及物致使句还是不及物句(即反致使句)中,名词“关系”和“环境”都是能够与“改善”构成搭配的高频词。
(3)① 关系改善了。
② 他们改善了关系。
③ 环境改善了。
④ 他们改善了环境。
但是,对于两者与动词的搭配紧密度,似乎无法做具体比较。为进一步探求“关系”和“环境”在致使句和反致使句中的依存度,通过查找“改善”在北京大学现代汉语语料库(CCL)中的运用,发现该词在语料库中共出现44 285条。经过对所有句式逐条分析,排除不相关句式,不难得出“改善”在致使句和反致使句中的出现频次,也就是说,可以算出依存度。但是,要统计吸引度所要求的构式频次,即算出及物致使句和反致使句在CCL中的出现频次,难度较大,所得结果也难以做到精确。
因此,为方便操作,有必要进一步限定范围。此处为说明问题,我们取含动词关键词“改善”的前500条句例来探讨“改善”致使交替句式中的共有客体(shared theme)——“关系”和“环境”——在两句式中的吸引度和依存度。经过对例句逐条分析,再排除歧义句和不相关句式,得出268条致使句和169条反致使句,其中“关系”共出现85次,作为客体出现在致使句33次,出现在反致使句11次;“环境”共出现225次,作为客体出现在致使句53次,出现在反致使句25次。设致使句为C1,反致使句为C2,500例语料库为Cp,吸引度为At,依存度为Rl,得出如下数据(详见表2)。
表2 “改善”的客体与构式吸引度及依存度
统计显示,“关系”对“改善”致使句的吸引度(12.31%)比对反致使句高(6.51%),低于“环境”对致使句的吸引度,但是对于“改善”致使句的依存度(38.82%)远高于反致使句(12.94%),也高于“环境”对致使句的吸引度。
3. △P
凡事有利有弊,吸引 依存法避开了4号单元格的问题,但也无法观察4号单元格要求的其他构式中的无关词项数。这一缺陷可以通过△P得到弥补(Ellis &Ferreira-Junior,2009)。毕竟,在测量构式与词项的双向联系度时,两种测量方法可以起到相辅相成的效果。从技术的角度说,△P测量某构式吸引某词项的列联概率(contingent probability) (△P构式→词,即△P吸引度),以及某词项依赖某构式的列联概率(△P词→构式,即△P依存度)。想要做到这一点,需要超越依存和吸引的范畴,考虑一下与其他概率相关的附加信息。△P吸引度的计算需3步:
(4)①1号单元格除以1号和3号之和;② 2号单元格除以2号和4号之和;③ 第1步减去第2步。
由此类推,△P依存度的计算也需3步:
(5)①1号单元格除以1号与2号单元格之和;②3号单元格除以3号和4号之和;③ 第1步减去第2步。
当然,△P测量法的问题与配式分析一样,都是需要4号单元格数据。
4.比值比
比值比(Odds Ratio,简称OR)是比较某事件对两个群组的概率的方式。比值比为1,意味着事件对两群组的概率相等;大于1,意味着在第一组的概率大于第二组;小于1,意味着出现在第一组的概率小于第二组(详见表3)。
表3 比值比相关数据列表
要理解比值比,首先看每行比值,Y-比值是a/b, Y+比值是c/d,比值比(OR)是两个比值的比,即:
(6),亦可简为
比值比用在词项与构式的研究中,将其他词项和其他构式也纳入考虑范围。比如,我们要寻求“改善”及物致使句的客体“关系”的分布规律,需要4组数据:1)“关系”在“改善”及物致使句中的出现频次;2)“关系”在其他句式中的出现频次;3)其他客体词在及物致使句的出现频次;4)其他客体词在其他句式中的出现频次。
不难看出,数据4)是最难得出的。变通的办法是缩小数据,比如,我们可以考察不同论元在作格交替句中的表现。假如我们要考察经典作格动词“展开”与不同论元的黏合度,语感告诉我们,“展开工作”“展开合作”与“工作展开”“合作展开”都是可以接受的。那么两者在作格交替句对中有何偏好呢?我们可以考察“展开”在CCL中的表现。为说明问题,取前500句为例,我们发现:“工作”在致使句出现14次,在反致使句出现16次;“合作”在致使句出现11次,在反致使句出现5次(详见表4)。
表4 “展开”的客体与构式相关度比值比
根据公式,能够算出OR约等于0.40,这说明就作格动词“展开”的论元来说,“合作”一词出现在反致使句的概率约为“工作”一词的40%,出现在致使句的概率约为“工作”的2.5倍。“工作”出现在反致使句的概率约为53%(16/30),高于“合作”出现在反致使句中31%的概率(5/16)。
Küchenhoff和Schmid(2015)认为,比值比既可以随频次调整,也是双向的,在这方面优于引存法。和△P一样,比值比可以得出效应量(effect size)而不是测量吸引度的P值,而且不依赖于数据的随机性特征和随机性假设,这一点也优于费希尔精确检验(Fisher's exact test)。但是,正如前文所说,与△P和费希尔精确检验一样,比值比也存在4号单元格的问题。
三、挑战与走向
句法 语义界面的诸多定量分析研究方法,引起了研究者的极大关注,特别是2003年以来,围绕该问题出现了一系列论争。比如,Bybee(2010)等人首先对配式分析法提出疑问,Gries在2010年布拉格第六届国际构式语法大会上作了反驳,Schmid和Küchenhoff(2013)提出进一步的质疑。Gries(2015)一一做出答复,而Küchenhoff和Schmid(2015)再次从多方面发起挑战。这场持续数年的学术争鸣,主要围绕以下4点展开。
1.关于理论基础
批评者认为,难以对配式分析的理论背景假设和认知基础做出评价,因此也很难将其与其他的词汇语法关联度研究方法作比较(Schmid &Küchenhoff, 2013; Küchenhoff &Schmid,2015)。Gries(2012)针对所谓的认知机制讨论缺失的问题,重申配式分析所涉及的条件概率、线索效度(cue validity)和信度(reliability)、联想学习措施(associative learning measures)以及固化(entrenchment)等均具有认知语言学的理论基础。
2.关于标准化处理
配式分析旗帜鲜明地指出,不应该像传统的搭配分析法那样把语法和词汇视为性质迥异的语言现象,语法包含抽象规则,词汇包含具体词项,而介于其间的语言表达形式往往遭到忽视。语料库研究者不应只重视词项的线性共现倾向,这种只关注形式的语料库语言研究不符合构式语法强调的语言形义配对体的概念,因此配式分析提出将语料库中的整体频率作标准化处理(normalization)。
Bybee(2010)认为,配式分析将词项/构式共现在语料库中的整体频率作标准化处理的方法有问题。词项能够在语料库中高频出现,一定不是纯偶然的现象,而是说明词项应该成为构式空槽所要求的词项范畴的核心成员。如果某词项在构式中的出现频率很高,那么我们的认知机制就不会降低其价值,所以对数据进行标准化处理是缺少认知机制的。
对此,Gries认为,语境信息和语义信息与语言成分用法是相联系的,意味着我们能够从用法的角度推知语义信息。将所观察的词项/构式共现频率作标准化处理不仅是语料库语言学的标准方法,而且能将有价值的频繁共现与无价值的频繁共现分开。如:
(7)① V NP do as complement
② I never saw myself as a costume designer.
③ Politicians regard themselves as being close to actors. (转引自Gries,2010)
在ICE-GB中频率最高的是see,但配词强度最高的是regard。对这一现象,要考虑3个因素:1)see的一般频率比regard高;2)see与regard能够参与多种构式的构式混杂度(promiscuity)不同;3)regard动词语义与as-结构使用目的之间的高匹配度。这样看来,似乎将regard视为as-结构的原型动词更为合适,这一点是简单频率分析所不能揭示的(但是用区别性和共变配词分析可以)。
3.关于测量工具的争论
Stefanowitsch和Gries对能够用以确定联系紧密度的统计方法——如 t 检验、z 值、MI 值(Mutual Information Score,互信息值)、对数似然系数(log-likelihood coefficient)、FYE 等——做了对比。他们认为这些统计方法各有问题:其中z值和t值往往涉及方差齐性检验和正态分布,这种假设在自然语言中很难证实;MI值常被用来衡量一词的出现频率所预示的另一词的共现概率,在调查罕见搭配时,往往高估联系紧密度和/或低估误差概率;对数似然系数在显著性检验方面依赖卡方分布,这在处理系数数据时往往不可靠。而FYE由于既没有样本量要求,也不需做分布假设,因此受到配式分析使用者的青睐。
对此,批评者认为,FYE存在单向性问题,它测量的是单词与构式的相吸度有多高,但无法区分词对构式的偏好度和构式与词的偏好度。Gries(2015)承认这种批评有一定道理,但同时认为这只是针对FYE的批评意见,并不能动摇配式分析的理论根基。配式分析提供了5种不同的配词强度测量手段<coll. analysis.r>。虽然 FYE 属于默认推荐,但 G2、MI、Logged odds ratio也是可以用的。如果有必要,研究者完全可以不采用设计显著性测试的测量手段。
4.共现表格中4号单元格问题
按照配式分析的设计,此单元格是不含 L的其他构式数。Bybee认为,根据认知构式语法的新界定(Goldberg,2006),小句可能会例示多重构式,因此目前尚没有办法可以算清语料库中的构式数。如此一来,4号单元格的数据就是无效的。
结合我们的研究,发现4号单元格所要求的语料库中所有构式数确实成了句法 语义的量化分析工具必须面对的焦点问题。对此,Gries(2012:488)提出了一个解决方案,即先选择一具体层面,在该层面计算出与研究对象相对应的构式数。比如,针对论元结构构式作配式分析,只需统计动词数目,而没有必要计算语料库中的其他构式。
四、余论
定量分析方法是句法 语义界面研究必须解决的问题。由于构式是形式和语义的配对,构式语法形义兼顾,这一理论基础对针对构式语法的定量分析构成了挑战。论争仍在继续,但是学界思路越来越清晰,越来越多研究者认为(包括 Küchenhoff &Schmid,2015)配式分析和R等统计软件对于语言学实证研究具有积极有效的作用。在后续研究中,我们期待以下3方面问题能得到满意解答:1)如何处理符合语感但在语料库中并未出现或出现频率过低的句法现象?如bake的双及物用法是英语本族语使用者都能接受的现象,但是我们在BYU BNC中却查不到bake一词的双及物用法。2)既然没有必要确定语料库中的构式数,那么,如何确定构式的具体层面呢?有哪些具体原则?3)如何评价基于不同方面得出的词项与构式的关联指数?对每种方法得出的数据设定临界值是否更有利于词典编纂、语言教学等实际应用?
参考文献
[1]Bybee, J. L. Language, Usage, and Cognition [M]. Cambridge:Cambridge University Press, 2010.
[2]Carter, R. Some Linking Regularities in English [M]. Paris:Universite de Vincennes,1976.
[3]Ellis, N. & F. Ferreira-Junior. “Construction learning as a function of frequency, frequency distribution, and function”[J]. The Modern Language Journal,93(3)(2009):370 385.
[4]Fillmore, C. J. “The grammar of hitting and breaking”[A]. In Jacobs, R. and Rosenbaum, P. (Eds.), Readings in English Transformational Grammar[C]. Washington, DC:Georgetown University Press,1970. 120 133.
[5]Goldberg, A. E. Constructions. A Construction Grammar Approach to Argument Structure[M]. Chicago:University of Chicago Press,1995.
[6]Goldberg, A. E. Constructions at Work: The Nature of Generalization in Language[M]. Oxford:Oxford University Press,2006.
[7]Gries, S. & A. “Stefanowitsch. Extending collostructional analysis: A corpus-based perspective on‘alternations'”[J]. International
Journal of Corpus Linguistics,9(1)(2004a):97 129.
[8]Gries, S. & A. “Stefanowitsch. Co-varying collexemes in the into-causative”[A]. In Michel Achard &Suzanne Kemmer(Eds.). Language, Culture, and Mind[C]. Stanford, CA:CSLI, 2004b. 225 236
[9]Gries, S., B. Hampe & D. Schönefeld.“Converging evidence II: More on the association of verbs and constructions”[A]. In John Newman&Sally Rice(Eds.), Empirical and Experimental Methods in Cognitive/Functional Research[C]. Stanford, CA:CSLI,2010.59 72.
[10]Gries, S. “Frequencies, probabilities, and association measures in usage-/exemplar-based linguistics:Some necessary clarifications”[J]. Studies in Language. 36(3)(2012):477 510.
[11]Gries, S. “More(old and new)misunderstandings of collostructional analysis:On Schmid and Küchenhoff 2013”[J]. Cognitive Linguistics,26 (3)(2015):505 536.
[12]Küchenhoff, H. &H. Schmid. “Reply to ‘More misunderstandings of collostructional analysis:On Schmid &Küchenhoff'by Stefan Th. Gries”[J]. Cognitive Linguistics,26(3)(2015):537 547.
[13]Schmid, H. “English Abstract Nouns as Conceptual Shells:From Corpus to Cognition”[M]. Berlin/New York:Mouton de Gruyter,2000.
[14]Schmid, H. &H. Küchenhoff. “Collostructional analysis and other ways of measuring lexicogrammatical attraction:Theoretical premises, practical problems and cognitive underpinnings”[J]. Cognitive Linguistics 24, (3)(2013):531 577.
[15]Stefanowitsch, A., &S. T. Gries. “Collostructions:Investigating the interaction between words and constructions”[J]. International Journal of Corpus Linguistics,8(2003):209 243.
[16]Yoon, J. & S. Gries(eds.). Corpus-based Approaches to Construction Grammar[M]. Amsterdam & Philadelphia:John Benjamins, 2016.
[17]胡健,张佳易.认知语言学与语料库语言学的结合:构式搭配分析法.《外国语》,2012(4):61—69.
[18]吕文茜.基于组配 构式分析法的“把”字句典型构式义研究.《外语研究》,2015(5):22—25.
[19]田臻,吴凤明,曹娟.英汉存在构式与动词语义关联的实证对比研究.《外语教学与研究》,2015 (6):826—837.
[20]曾立英.《现代汉语作格现象研究》.北京:中央民族大学出版社,2009.
① 基金项目:本文系国家社会科学基金项目“类型学参照下的作格语义句法互动研究”(项目编号15BYY007)、2019年度青岛市社会科学规划研究项目(项目编号QDSKL1901183)阶段性成果。
① 配式分析是缩合译法,又译为“构式搭配分析法”(胡健、张佳易,2012;田臻、吴凤明、曹娟,2015),和“组配 构式分析”(吕文茜,2015)等。
① 至于对该单词为作格动词的论证,可参阅曾立英(2009:116)。