3.搭配
下面我们讨论“搭配”,英文是collocation。我们在传统语法分析中区分各个层次,字、词、短语、句子、话语,等等,由下而上,层层组合为越来越大的结构。这儿有个问题:“搭配”也是一个语言单位,但不容易归入我们习用的这些结构单位。事实上,汉语中还没有一个为大家所广泛接受的术语,用来专指这种语言单位,有人称之为“组合”,有人称之为“搭配”,我们现在就暂时用“搭配”这个术语。作为语法单位,词和短语的区别为,短语是词的语法组合,只要符合语法规则,不合语义和逻辑的词组合在一起都能构成短语,如“五条边的四边形”,而搭配既涉及语法关系,又涉及语义关系,最重要的是涉及无法完全由语法和语义规律解释的习惯用法。例如,“小张嫁给了”,后面的宾语一般是个男的,语法上有这个限制吗?没有,语法上可以是任何名词。再举个例子,“遛”如用作及物动词,后面一定是个动物,如“遛狗”“是骡子是马,拉出来遛遛”。他带个孩子在街上散步,你不能说“他遛孩子”。语法上有这个限制吗?没有,但用作及物动词的“遛”,习惯上只能带某一小类宾语。一个词对哪些成分、哪些词能与它同现,有一定的偏好,很难完全将之归为语法或语义因素使然。通过不同语言的比较,我们可以对搭配缺乏充分理据看得更为清楚。汉语中说“违法”,英文相应的词语是“打破法律”(break the law);汉语说“刷牙”,英文中跟汉语一样brush the teeth,但德语和意大利语用的动词是“polish”,磨光擦亮,波兰语是“洗牙”,俄语是“清洁牙”;汉语说“吃药”,而英语中的“药”medicine,可不是用来eat 的,得说 take medicine,这其中并没有多少理据可言。词语和习惯与它同现的语言成分,构成我们所谓的搭配。对说母语的人来说,搭配是习以为常的现象,大概是太习以为常了,在语言学研究中长期没有受到应有的重视,语言学家大都没太拿它当回事情。
相比其他许多语言现象,搭配问题的研究历史不长。最早提出这种现象值得深入研究的人是英国首位普通语言学讲座教授、伦敦学派的代表人物J. R. Firth,他在1951年发表的一篇文章“Modes of meaning”中建议使用 collocation 这个术语指称有关现象,并同时提出“搭配度”“搭配性”(collocability)的概念(Firth 1951/1957)。Firth在文章中指出,有些词语因为惯常同其他某些词语连用,因此获得本身词义之外的其他意义。他首先举出的例子有 ass,因为前面最常用的形容词是 silly(蠢)、obstinate(顽固)、stupid(笨)、awful(糟糕),结果该词单独使用时也通常附着这些负面的意思。Firth 指出,因这种搭配而获得的意义是词语在横向组合平面上的抽象现象,与从概念或思维的角度研究词语意义没有直接关系(meaning by collocation is an abstraction at the syntagmatic level and is not directly concerned with the conceptual or idea approach to the meaning of the words(Firth 1951/1957:196))。Firth 的传人M. A. K. Halliday 1961年发表的一文给出了更为系统和准确的定义:搭配涉及的是词语在横向组合平面上的联系,可以在文本中定量分析为,成分a、b、c 等在与成分x 相距 n 个词语的位置上出现的概率(...the syntagmatic association of lexical items,quantifiable, textually, as the probability that there will occur at n removes(a distance of n lexical items)from an item x, the items a, b, c ...(Halliday 1961/2002:61))。该文发表五十多年了,我认为上面这段文字仍然是对搭配现象最言简意赅的定义之一,非常准确,操作性很强,同时引进了纵向聚合关系平面上的因素。我们现在有了许多大文本的语料库,研究词语的搭配及搭配性的强弱就更方便了。
如何确定词语与其他某个成分是否构成搭配?如何决定词语之间搭配性的强弱?我们只能根据“系统中的对立”来回答这些问题。首先,我们确定系统的范围,可以是包含各种文本的综合语料库,也可以根据时间、地域、体裁、作者、内容等划出有关文本的特定范围;呈对立的成分,一是词语a 和词语 x 从单纯概率分布来看应该在一定间距内共同出现的次数,二是它们在文本中实际共现的次数。为了举例说明,我利用英国 Lancaster 大学的汉语语料库(Lancaster Corpus of Mandarin Chinese),研究“吃”和“粥”这两个词与其他词语的搭配关系。该语料库目前开放给公众使用的部分共有 100 万字,由 500 篇文本组成,每篇文本约2000字。“吃”在这100万字的语料库中一共出现了478次,“粥”出现了18次,我将共现间距定在前三个字或后三个字,结果请看下面的表1:
表 1 “吃”和“粥”与其他词语搭配关系表
先看表1中给出的词频,“吃”在100万字中一共出现了478次,“饭”出现了100次;接着是预期搭配频次,指的是如果单纯根据概率,“饭”在“吃”前三个字和后三个字间距内出现的预期次数应该是0.286,一次都不到;再接着给出的是实际出现次数,高达45次,LL 也高达390.42,说明预期同现次数和实际同现次数的差异绝对不是偶然现象,这组数据就是“吃”和“饭”构成搭配的坚实证据。正是文本中预期同现频次与实际同现频次的对立,决定了两个词语是否构成搭配,决定了它们搭配性的强弱。同理,“亏”在100万字的语料库中一共出现了20次,根据概率分布,“亏”在“吃”的前三个字和后三个字以内出现的次数应该是0.057次,0.1次都不到,但实际上出现了10次,LL 为89.47,可见“吃”和“亏”也是搭配性很强的组合。其他三个与“吃”实际搭配次数最多的词分别是“粥”“面条”和“药”。
根据该语料库的检查结果,与“粥”搭配性最强的有两个词,一是“吃”,二是“喝”,“吃粥”的搭配性反倒强过“喝粥”,这个结果同我的预想不一样。我的语感是北方人,尤其是北京人一般都说“喝粥”。我判断这个现象至少可能由两个因素造成,一是“喝粥”是个比较口语化的词语,该语料库所收文本以书面语语体为主,口语化程度不高;二是许多文本的作者为南方人。这再次提醒我们,分析系统中的对立成分时,该系统的范围和性质对于分析结果会有很大的影响。
搭配问题很值得我们深入研究,它有很高的实际应用价值,也有很重要的理论价值。先说实际运用价值,搭配在外语教学和计算机自然语言处理领域里占据十分重要的地位。我们读学生写的外语作文,只要五分钟便能看出他们语言水平的高低。一般不是看语法,现在有语法检查程序(grammar checker)能自动改正语法错误,主要看词语搭配,一般情况下,没有十年二十年的功夫,很难达到接近本族人语感的那个水平。研究搭配问题,应该会大大有助于我们的语言教学。
IBM 公司20世纪80年代投入大量资金,研究包括机器翻译在内的计算机自然语言处理。研究人员当时主要分两大类,一是语言学家,二是计算机技术专家。语言学家一般走的是自1950年代开始的老路,根据语法/语义/词汇的有关规则,将文本分解成词、短语、句子等语言单位进行加工处理。计算机技术专家大都熟悉数据库技术和统计学工具,对语言学家的语法规则不感兴趣,惯用方法往往是利用统计学工具分析海量的双语数据库,以词语搭配和对应频率等统计数据为基础进行语言处理。语言学家所用方法进展缓慢,而随着计算机储存和处理能力的突飞猛进,基于大数据统计方法的语言处理系统效率越来越高,现在成了该领域里的主流,而基于传统语言规则的处理方法则被许多人摈弃。据说90年代 IBM 负责机器翻译的 Frederick Jelinek说过一句后来广为流传的话:“我每解雇一位语言学家,系统表现都会有所改善。”当然,基于大数据统计方法的机器翻译系统有内在的局限性,发展到一定程度后进一步改善的余地不大,目前的趋势是将基于语言规则和基于统计两种方法结合起来。
迄今为止,语言学家所做的语言分析大都是集中在语法规则,如单位、切分、分布、层次、组合、结构,等等,侧重组字成词、组词成短语/句子/话语等逐层向上的规则。随着对搭配现象和其他语言现象(如构式语法 construction grammar 研究的许多问题)的深入研究,以及包括机器翻译、机器学习在内的计算机自然语言处理领域所取得的成果给我们带来的越来越多的启发,我们也许有必要对语言学传统的研究途径做深入的反思,我们研究了多年的基于由小及大、层层组合原则的大量语言规律,到底在第一语言习得、语言使用、外语学习、计算机自然语言处理等同语言有关的过程中起着什么样的作用,有许多问题值得我们重新思考。近一二十年来,包括从事语料库研究在内的一些语言学家提出所谓“惯用语原则”(idiom principle)及类似的观点,为语言研究提供了许多新的思路。