2.2.3 语料库语言学视角
Cowie(1998)划分的第三个派别是语料库语言学视角下的短语学研究。用Cowie(1998:3)自己的话讲:“这条线走得更远,也极具成效”。这条线可以追溯到J.R. Firth,并经由新弗斯(Neo-Firthian)学派的代表人物M.A.K. Halliday以及现代语料库语言学的奠基人和开拓者J.M. Sinclair,一直发展到现在的各式各样的语料库短语学研究。语料库语言学视角下的短语学实质上是研究语言的“短语倾向性”(Sinclair,1987),即语言使用者通过语言的共选模式来实现意义的倾向性。
1957年,牛津大学出版社出版了J.R. Firth的一本论文集《语言学论文1934—1951》。在这个集子中,Firth(1957:190)指出“意义是学术研究中的一个永恒话题”。在谈到词汇意义时,Firth(1957:190)指出“任何词当它出现于一个新的语境中时,便会成为另一个新词”。这里的语境实际上指的是搭配。例如,Firth在解释单词ass的某一个意义时,指出其存在于与它习惯性搭配的前置短语your silly或者其他人称指称关系的短语中,并且短语中较常出现的形容词有silly、obstinate、stupid、awful、egregious,等等,并且ass不用复数形式。Firth对意义的阐释采用的是描述语言学的做法,而描述语言学最主要的任务就是对意义做出陈述。不同于单词的概念义(conceptual meaning),由搭配界定的意义(meaning by collocation)是组合关系层面的一种抽象,是“词语之间的相互期望”(mutual expectancy of words)。Firth用dark和night来解释搭配意义:单词night的其中一个意义就是与单词dark的搭配,同时dark的意义也存在于它与night的搭配,概括起来就是“由其词伴而知其词义”(You should learn a word by the company it keeps)(Firth,1968:179)。另外,Firth在1956年的一场报告中也详细解释过这种思想(转引自Herbst,1996:380):“搭配研究指对关键词(key-words)、中心词(pivotal words)或者引导词(leading words)的研究,方法是将它们呈现于惯常持有的伙伴中。换言之,这些词的意义由它们习惯性的伴随词语来展示。”这里的“词伴”或者“伴随词汇”实际上就是搭配。很明显,Firth突出强调的是小语境,因为他特别指出“由搭配界定的意义与语境意义(contextual meaning)完全不是一回事,后者指的是话语与处理某种文化语境下的某种场合之间的一种功能关系”(Firth,1957:195)。但是,从Firth的表述中可以看出,他还没有把dark night视为一个整体来考查意义,他的目的是想通过搭配的语境来阐释单词的意义,将“搭配视为一个单词意义的一部分”(Herbst,1996:380)。另外,Lyons(转引自Herbst,1996:380)指出“Firth并没有说清楚搭配能力(collocability)确切指什么”。但是,从Firth的定义中至少可以明确两件事情:首先,搭配指独立词项之间的共现关系,而不是词性之间的关系;其次,搭配并不仅仅局限于两个单词的组合。正是由于在解释上具有一定的模糊性,之后的研究者对搭配产生了不同的解释。尽管如此,Firth有关搭配以及通过搭配来解释意义的思想对之后的相关研究产生了重要影响。
Firth并不是提出搭配概念的第一人,据说搭配的概念最早可追溯到两次世界大战期间日本的一些语言教师,但Firth赋予搭配在语言学意义研究领域中的核心地位(Sinclair et al., 2004:iv)。Halliday是Firth的学生,他继承和发展了Firth的搭配概念。Halliday & Hasan(1976)在《英语的衔接》中是这么解释搭配或曰“搭配的衔接”(collocational cohesion)的:“搭配是一个用于衔接的涵盖性术语,由不同的词项通过某种连接方式共现而成,这些词项之所以被称为搭配是因为它们趋于在相似环境中出现。”因此,他们将在某一文本中出现的词,如Oxford、university、colleges、lectures、seminars、libraries、examinations和degrees定义为搭配,理由是它们共同出现并且建构了文本中的衔接。这些词之间的关系通常用语义学中的不同术语来解释,如同义词、反义词、下位词或者语义场等。Herbst(1996)将这种视角称为“以文本为导向的视角”(text-oriented approach)。很显然,这一视角不再局限于Firth当时界定的搭配具有的横向组合的特征,这些“搭配词”分散于文本中,虽然能够起到衔接文本的作用,但是却无法通过依存语法来描述它们之间的相互依存的关系,对于通过语料库统计手段来研究搭配并没有太多的实践操作价值。Herbst(1996:381)也指出这种通过以文本为导向的方法来确定的词项搭配关系在很大程度上是由语言之外的而非语言本身的因素决定的。Hasan(1984)可能也意识到了这一点,后来修正了术语,不再使用“搭配”,而改用“词汇链”(lexical chain)。
Sinclair继承并创造性地发展了Firth的思想,创立了一系列极富前瞻性的理论学说,奠定了现代语料库语言学的学科基础。Sinclair(1966:415)早期是这么描述搭配的:我们使用节点词(node)这一术语来指代一个项,我们所研究的就是它的搭配情况,然后可以界定一个跨距(span),用来指在节点词左右两边出现的与之相关联的其他项的数目,在跨距限定的范围内出现的项我们称之为搭配词(collocates)。Jones & Sinclair(1974:19)之后又给出了一个非常宽泛的定义,将搭配界定为“两个项在文本的某个特定范围内的共现”。这个概念一直延续使用到之后的研究中(参见Sinclair et al., 2004:10)。此处的“项”应该就是节点词和搭配词。Sinclair(1991:115)后来又重申了这一点:“我想要区分两种不同类型的搭配,对于当下研究的词我们称之为节点词,把在节点词的某种特定范围内出现的词称为搭配词。文本中任何连续的词既可以作为节点词也可以作为搭配词,但不能同时兼具这两个角色。”另外,他还指出节点词和搭配词之间不完全是相邻的。但是,Sinclair强调了搭配成分之间在文本中遵循线性序列的特征,这明显有别于Halliday & Hasan(1976)提出的具有语篇衔接功能的搭配。
Sinclair(1991)早期区分了两类搭配:上行搭配(upward collocation)和下行搭配(downward collocation),依据主要是看节点词与搭配词在语料库中出现的频数。“上行搭配指搭配词的频数要超过节点词;而下行搭配指搭配词出现的频数要少于节点词”(Sinclair et al. 2004:xxiii)。如果搭配词出现的频数高出节点词频数0.15个百分点,该搭配为上行搭配;如果搭配词出现的频数低出节点词频数0.2个百分点,则为下行搭配。例如,单词very与confused搭配,但对于confused的意义界定作用并不大,原因是very是个极其常用的词;但是单词utterly与confused搭配却能够影响到confused的意义或者语义韵(同上)。Sinclair区分这两类搭配,主要是为了说明上行搭配中多数搭配词可能是一些语法词,或者上义词,而下行搭配则可以用来分析节点词的意义(Sinclair,1991:116)。很明显,在Sinclair的早期思想中,搭配的意义建构,起主要贡献的是词汇词和语法词。给我们的启示是,在分析词语意义时,要重点关注词汇词构成的搭配。关于这一思想,之后Sinclair(Sinclair et al., 2004:xix)又进行了修正和补充:“人们普遍认为语法词与词汇词不同,它们没有搭配……而实际上语法词完全具有搭配,虽然与频数相对较低的词汇词的搭配不同,但毕竟也是搭配。”Sinclair思想的改变主要是基于他和Renouf对“搭配框架”(collocational framework)的观察(Renouf & Sinclair,1991)。
当时Sinclair在界定搭配时,频数是一个重要指标,但Sinclair并没有给出具体的频数标准,原因是:首先,当时统计显著性标准并不统一;其次,无论是哪一种搭配,其复现频数相对于语料库的容量来讲都是很低的,都可能是偶然因素造成的,有时甚至是一个几乎不可能发生的事件。但是,Sinclair(Sinclair et al., 2004)又指出,任何讲英语的人都不会去质疑搭配的重要性,并且都有能力识别出文本中的搭配现象,但是却不能仅靠着内省的方式可靠地提取出这些搭配。之后,许多研究者都致力于去开发从文本中提取搭配的统计手段和方法。目前,一些搭配统计测量手段已被普遍接受,如Z值(或T值)测量、MI值测量,对数似然率值、Delta P等,用来检验各搭配词与节点词之间的相互预见和相互吸引程度,判断它们的共现在多大程度上体现了词语组合的典型性(参见卫乃兴,2002a)。但是,Sinclair(1991:117)指出:“观察从最原始的没有经过处理的语言数据中所呈现出的搭配力度还是非常重要的。”换言之,任何统计测量都不是搭配研究的最终目的,搭配研究也不能仅仅停留在通过统计测量手段计算出来的结果,不能完全脱离对文本或者词语索引的观察和分析。
关于搭配分析中采用的统计方法,Sinclair在1996就曾指出过,使用一些数学统计方法只是语言分析的第一个阶段,并且要与其他类型的语言分析过度依赖统计方法的做法严格区分开来(Sinclair,2004a:28)。另外,Sinclair在与Wolfgang Teubert的一次访谈中旗帜鲜明地表达了自己的观点(Sinclair et al., 2004)。他指出,在伯明翰大学的工作团队里,有专门从事统计学研究的工作成员,他们使用了很多统计手段来测量搭配显著性,其中有些测量手段非常复杂。但是经过多年实践研究之后,他对这些测量手段却越来越心存疑虑:“由于没有别的更好的测量手段,我在日常研究分析中仍然使用T值,但是我已经失去了对T值计算和其他测量手段最初的那份信任。”(Sinclair et al., 2004:xxi)原因是,在实际语料分析中,文本中实际共现的词的频次要远超于通过测量手段计算出来的期望值。虽然Firth曾指出搭配研究必须依靠统计结果而不是通过语言直觉进行分类分析,并区分了显著性搭配(significant collocations)和偶然性搭配(casual collocations),但他并没有具体说明使用什么样的统计测量手段。Sinclair(Sinclair et al., 2004:10)曾沿用过这对术语,之后把显著性搭配称为规律性搭配(regular collocations),原因是他的工作团队中的负责统计测量的成员认为“显著性”一词更适用于阐释统计学上的意义。所谓规律性,指搭配的词语共现频次非常高。Sinclair(2007)指出,实际的语言使用并不是一系列“偶然发生”(chance occurrences),因此关于偶然发生或显著性的统计学概念不应该用来说明词语之间是否存在搭配关系。众所周知,我们基于共选模式使用词汇,但统计测量方法所基于的前提假设是词汇使用时具有偶然性,这个假设本身就存在着错误。因此,从严格意义上讲,我们在搭配研究中是没有必要使用统计测量方法的。实际上,统计测量方法本身并没有多大问题,问题出在我们对语言形式和意义的关系理解上出现了偏差。按照“共选模式理论”,词汇之间的共选会产生新的意义,换言之,词汇共选模式发生改变,意义也会随之改变,这些不同共选模式之间也是不相关的。但是,Sinclair(2004a)指出,由于语料库数据巨大,分析工作的强度要远远超出人的能力范围,因此数据分析最终还是要依赖于电脑,还是要设计出更为合理的统计测量手段,去模拟我们的觉察力,甚至我们的语言直觉,但是将这些统计测量与语言意义直接联系起来却是件非常困难的事情。
Sinclair(1991)把搭配视为短语研究的重要内容之一,因为他在“搭配”一节的小结部分写道:“所有的证据都说明了短语虽然表面上变化多样,但从根本上来看是固定的、是约定俗成的。”(Sinclair,1991:121)短语通常对意义是具有识别力的。短语实现为词汇在线性结构上的共现,是词汇的物理表象,但这种共现的结构又与语义存在相当部分的重叠,尽管语义是纵聚合的(paradigmatic),是凭直觉和联想而获得的。也就是说,Sinclair将语言结构和语义视为不可分割的一个整体,认为没有必要开展独立的语义学研究,短语结构研究的最终目的是实现对语义的研究。“搭配是意义模式的重要组成部分”(Sinclair et al., 2004:xviii)。
搭配是词与词在横组合关系上的共现,属于结构模式,而意义是纵聚合的、联想的,那么搭配又如何与意义发生联系,成为意义模式的重要组成部分呢?对于这个问题,Firth给出的解释是:搭配为词汇的意义提供了语境,即词汇的搭配义,搭配不同,词汇的意义也就不同。搭配赋予了词新意,或者说,搭配提升了词的意义,如dark与night搭配,前者赋予或者说是增加了后者“漆黑”的含义。Firth提出搭配义的目的是要与概念义区别开来,但他仍然将单词作为一个意义单位来对待。而Sinclair则将搭配看成是一个整体,是一个潜在的意义单位,dark与night一旦搭配,便与单个单词的意义没有关系。搭配并不是提升了词的意义,相反,是限制了搭配中词的意义。也就是说,dark night实际上并不是单词night的其中一个意义,这个搭配具有自己的意义。简单来说,dark的概念其实业已存在于night的概念中,即night的一个主要特点就是dark,尽管夜不一定都是黑的,形容词dark的作用就是从所有的夜的概念中选择出黑夜。Sinclair(Sinclair et al., 2004:xxi)将这种功能称为形容词的“聚焦功能”(focusing function),这与“选择功能”(selective function)不同。
Firth没有打破传统语言学理论中将单词作为最基本的意义单位的藩篱,事实上,放弃这种传统观念并不是件容易的事情,相反“需要经过很长一段时间”(Sinclair et al., 2004:xxi)。Sinclair的研究就是要证明短语才是语言中真正的意义单位。到现在,人们对意义单位的认识也的确发生了变化,并承认掌握搭配是语言流利程度的一项重要指标。“但是研究者并没有将搭配看成是严格意义上的意义单位,而好像只是把它们看成是固定表达的一种扩展”(Sinclair et al., 2004:xxiv)。这主要还是受到传统语言学理论的影响。根据传统语言学理论,语言表达要不就是固定的习语表达,要不就是纯粹依据句法规则建构的自由组合。而在Sinclair看来,语言中的大多数表达是介于这两个极端中间的。但是他的这一观点并不被大家广泛接受,主要原因是人们对搭配概念理解的不确定性。Sinclair(Sinclair et al., 2004:xxiv)对于这种不确定性做了一个形象的比喻:“这种感觉就像是踩在流沙上,脚下的流沙一直在不断地流淌着,因为这些新的实体(搭配)不是通过语法规则建构的,也不是永恒不变的。”Sinclair将搭配的这种特点称为“内在模糊性”(inherent fuzziness)。Sinclair(Sinclair et al., 2004:xxiv)接着又指出我们需要建立一种新的语言模型,从每个词项的所有变化形式中找到其最典型的形式。例如,在短语get in touch with中,in touch with是始终不变的,get是默认的搭配词,它可以被其他动词如bring、be、keep、remain等代替。也就是说,短语get in touch with是这个短语的典型形式,而bring in touch with、be in touch with、keep in touch with、remain in touch with等属于该词项的变化形式。Sinclair认为对于学习者来说,最主要的学习任务就是掌握短语的典型形式,并且主张编纂一本学习词典,它包括了短语的典型形式和变化形式,供学生学习使用。那么,该如何识别提取短语的典型形式呢?Sinclair提出可以借助计算机手段,却没有进一步说明应该使用什么具体方法。实际上,Sinclair提出了很多很好的想法和设想,包括他的“扩展意义单位”(extended unit of meaning)(Sinclair,1996b)。尽管这些概念是基于对大型语料库数据分析的结果,但缺少具体量化的算法和参数,难以在大型的语料库数据中进行批量处理和分析。但毫无疑问,Sinclair的学术思想为我们开展语料库短语学研究提供了努力的方向和重要的参考价值。
造成对搭配概念理解的不确定性的另一个原因是来自日常的语言学习和使用经验。尽管日常语言使用中习语出现的频数不多,但学习与掌握起来并不是很困难,原因是人们意识到它们是习语,会给予更多的关注。而对于搭配却缺失这样的语言意识。Teubert(Sinclair et al., 2004:xxviii)曾提到过这样一种现象,外语学习者很快就能学会使用raining cats and dogs这样的习语,但却要花费很多时间才能够认识介词on the strength of。Sinclair(Sinclair et al., 2004)对此的解释是,尽管习语在文本中出现的频数很小,但由于它通常是受到文化因素影响的制式化的语言形式,能够提供给学生诸多的东西去讨论,也非常有趣,因此很容易引起学习者的注意。但是习语不是搭配,搭配也不是习语的外围。习语中的每个成分几乎不可能独立地对习语的意义有所贡献,如习语raining cats and dogs所表达的意义和猫、狗没有任何关系。因此,笔者认为,开展语料库短语学研究,通过对语言形式的描写与再认识,并且将语言形式纳入语言意义,重新建构语言意义单位,让人们意识到语言表达除了固定的习语表达和完全依靠语法规则的自由组合之外,还存在着许多诸如搭配的短语形式,这对于语言意义的建构具有重要的理论和应用价值。但是,我们也应意识到,对到底什么是意义单位的讨论尚无定论,就连Sinclair自己也承认意义包含着一些神秘的因素,并且这种神秘的因素一直存在,我们不可能全部掌握,最终也不可能完全精确地阐释,因为说到底“意义是个体心智里的一种感知,对此我们是无法仅靠语言学技术看透的……意义是临时性的、是特别的,不可能完全记录在参考书里”(Sinclair et al., 2004:xxviii)。但是意义始终是所有语言描述的“试金石”(touchstone),指引着语言描述的方向。
我们发现,Sinclair在讨论搭配时,并没有出现过诸如动词搭配、名词搭配、动名搭配的说法,但是许多学者却把这些“搭配”作为研究对象。对于Sinclair而言,搭配研究强调的是词的搭配,是词在线性关系上的共现,和语法没有太多关系。以just a minute搭配为例,Sinclair(Sinclair et al., 2004:xxvi)指出,just和a的出现,不是因为它们的词性,而是作为一个具体的词而被选择的,这种选择纯粹是词汇性的,而不是语法性的。对于minute而言,尽管在这个位置上还会出现其他的词,如second,但是数量极其有限,这同样也是词汇性的选择,而不是语法性的。其实,Sinclair并不是要故意贬低语法的价值,只是他认为在过去的语言学研究中语法占据太多的地位,而词汇则是个被忽视的领域。但是对于意义而言,Sinclair认为是词汇创造了意义,而语法则对意义起到管理(management)的作用,本身并不能够创造意义。他举下例说明:在on the strength of his CV he was offered a job和on the strength of this chemical solution中,同为介词的on the strength of却表达不同的意义。正是由于词的选择,才产生了意义。“没有选择,就没有意义”(Sinclair et al., 2004:xxvi)。因此,他批判了有些人将搭配看成必须落在语法界限范围之内的观点。但是,在短语研究中,语法具有什么的地位和作用?这个问题值得我们深入讨论。但可以明确的是,Sinclair并不主张完全抛弃语法,他在评价“型式语法”(pattern grammar)的时候指出:“型式语法向我们显示,当我们深入研究词汇-语法时,会发现语法范畴开始与意义区分紧密地连接在一起”(Sinclair et al., 2004:xxvii)。另外,Sinclair(2004a)也尝试去挖掘高频语法词具有的搭配模式,并且指出不管什么样的语法范畴,任何词都具有极其丰富的搭配模式。另外,他还批驳了传统词典学所主张的假设,即语法角色的变化不会影响词汇的语义值,而事实上,即便是单词的屈折变化都会引起词语搭配的变异。Sinclair(Sinclair et al,2004:16)在谈到未来搭配研究时指出要研究语法对搭配的影响,“语法对搭配的影响很大,语法时常遮蔽或者遮断词汇的搭配模式……因此我们无法忽视语法对搭配的影响,但是我们可以经过对语法进行足够精确的界定,以便于同词汇的影响区分开来。”语法对搭配的影响之一是,在某些搭配模式中,某些词性范畴之间相互吸引,但是具体到哪些词形出现并不受语法限制。Sinclair对配价语法(valency grammar)也持乐观态度:“在未来几年,对配价语法的研究兴趣会日益高涨”(Sinclair 2004a:18),而配价语法中就包含了多层语法范畴。种种事实表明,Sinclair并不是完全抛弃语法,相反,他自己也曾经写过几本有关语法的书。正如前文所述,他尽量避免语法,其中一个重要原因就是他认为语法研究太受关注,词汇研究备受冷落,然而,词汇能直接创造意义,离开词汇去谈语法是空中楼阁。
Sinclair在他的搭配研究中多次提到“词项”(lexical items)的概念:“一个词项就是一个语言单位,它代表了一个独特的意义范围,并且与其他词项具有一个特别的共现模式”(Sinclair et al., 2004:9)。在形式上,“词项”可以是:一个语素;同形异义词;一对或者一组按照纵聚合关系联系的词,如单词kick和它的屈折变化形式kicks、kicking、kicked;一对或者一组按照横组合关系联系的词组,如run to seed。但是在实际搭配研究中,词项分析并不简单,往往是先从一个具体的词语入手,通过分析其搭配行为来找到更为复杂的词项。从Sinclair的研究实践中,我们也可以看出,他在选择具体词语时多少带有一些任意性,彰显了一个语言学大师所具有的灵敏的语言直觉和敏锐的观察力。