第四节 术语与术语定义的界定
本书的研究范围包括术语学研究及术语信息处理研究两大部分,其中术语信息处理研究包括术语定义抽取、术语定义的领域聚类及术语识别三个核心问题,也就是说,我们的研究对象针对两个基本概念——术语与术语定义。本节我们提出一种术语与术语定义的界定方法。
一 术语的界定
(一)学界对术语的不同界定
什么是“术语”,一直是术语学界争议的一个问题。术语的界定是术语学的基础工作之一,只有明确了研究对象的性质、划定了研究对象的范围,才能在此基础上进行术语学的相关研究。
国际标准、国家标准、辞书、词典都曾给“术语”下过定义,一些专门从事术语研究的学者也分别发表了各自的观点。以下列举了18条“术语”的界定:
1.国际标准ISO1087-1 Terminology work-Vocabulary-Part 1: Theory and application以及在国家标准的翻译版本:“术语(Term)”就是指“专业领域中一般概念的文字指称(Verbal Designation)”,其中一般概念(General Concept),是指多个具有共性而形成概念的对象。
2.《现代汉语词典》:某一学科中的专门用语。
3.《辞海》:各门学科中的专门用语。
4.《汉语大词典》:各门学科中用以表示严格规定的意义的专门用语。
5.国家标准(GB 10112-1988)-《确立术语的一般原则与方法》:术语是指称专业概念的词或词组。
6.《中国大百科全书》:术语是某一学科或行业中的专门用语,术语可以是词,也可以是词组,用来正确标记生产技术、科学、艺术、社会生活等各个专门领域中的事物、现象、特性、关系和过程。
7.冯志伟:通过语音或文字来表达或限定专业概念的约定性符号,叫作术语。
8.粟武宾:术语是持有某一目的而使用的语言,是整个语言词汇的一部分。
9.全如瑊:术语是定义明确的专业名词,是专业学术体系中的知识单元。
10.刘建舟:术语是概念的语言表示形式,它集中体现和承载了一个学科领域的核心知识。
11.龚益:术语是在特定学科领域用来表示概念的称谓的集合,是通过语音或文字来表达或限定科学概念的约定性语言符号。
12.王强军:术语是经常在专业领域中出现,而很少在其他领域中出现词语。
13.隆多:术语在本质上是语言符号,是能指和所指组成的语言统一体。
14.陈原:在某一专门学科表示一个专门概念的单词或词组。
15.冯天瑜:术语指各门学科的专门用语,基本上都是名词,所含概念与某学科或某专门领域的整个概念系统相联系,并受其限定。
16.昝红英:术语是表达或者限定专业性概念的约定性符号。
17.郑伯承:各学科领域都包含许多具有专门意义的词项,这些词项就叫作术语。
18.pela Vintar:术语是关键词化(Keywordness)的词或词组,使用(TF×IDF)的值来决定是否为关键词。
(二)本研究对术语的界定
上述对术语的各种界定中,如什么是“专业领域”、“专门用语”、“专业概念”、“专业学科”、“关键词化”这些用词较为模糊,不同的人群可能有不同的理解。对某个领域的专家来说属于专门领域、专业概念、专门学科、关键词化的词语,对普通人群而言可能仅仅属于通用领域的普通词汇。这些抽象的概念如同术语一样也是需要预先界定的。
我们以一个简单的例子来阐述该观点。例如“门”这个称谓,对普通语言使用者来讲就是指“房屋等的出入口”;在建筑学里,“门是指在出入通道处所设可开关或转动的装置”;在生物学里“门”指“生物分类法中的一级,位于界和纲之间”。在电子学中“门”是“一种逻辑电路”。
如果按照上述列举的各种术语界定方式去判断,“门”被界定为普通词语的概率非常大,因为它可能出现在多个通用领域中,不具有领域特异性。如果按照常用的术语抽取的统计方法(如TF×IDF),无法识别出该词语的概率也很高,而实际上在三个专业领域中“门”确实是术语。基于此,我们提出了一种不同的术语界定方法。该方法建立在国家标准《GB/T 16786—2007术语工作-计算机应用-数据类目》的基础之上。其中关于术语的界定为:专门语言中表达已定义概念的词语的指称。
依据我们对术语的界定方式判断如下两个句子:
门是指在出入通道处所设可开关或转动的装置。
客厅的门通向卧室和厨房。
第一句中的“门”就可以被认作术语,第二句中“门”只是个普通词语。
本研究以语言信息处理为目的驱动,定义术语为:在某一特定领域内,有定义性描述的词或词组。
该界定方法的优点是将术语与被定义项的关系紧密结合起来。某种程度上我们可以认定术语是某一特定领域内的被定义项,由此可以得出这样的结论:一个词语是否术语,它所在的上下文环境即句子(我们将上下文窗口控制在句子的范围)起了决定性的作用。一个词语在一个上下文环境中可以是术语,在另一个上下文环境中则可能是普通词语。一个词语是否术语或普通词汇并不是一成不变的。
依照这一界定方法来抽取术语,有以下几点好处。首先概念的清晰度、准确度高。该界定方法排除了人名、地名等专用名词。因为这些专名指称现实中的唯一个体,而唯一个体是不可能有定义的。排除了各种修饰性的语言成分,如形容词、副词、成语、俗语、俚语等。能被识别出来的一定在某专业领域有定义性描述,符合前面所列的所有关于术语的界定。
同时该界定方法可操作性强。在以计算机为工具的语言信息处理中,上述传统的各种界定无法让计算机理解,很难具有实际的操作意义。在本研究的视角下,定义性描述是通过语言形式表现出来的,并根据这些语言形式特征建立起形式系统,设计出相应的算法,让计算机自动操作。形式语言理论(Formal Language Theory)是用数学方法研究自然语言和人工语言的产生方式、一般性质和规则的理论。形式语言采用数学符号,遵循一定的语法规则。描述手段是形式语言的重要内容,描述手段必须是严格的,且能使用有限的表述手段描述无限的语言。实际上,本书所述的术语识别工作即是据此实现的。
另一方面,该界定方法与专业领域直接建立起联系。纵观前面引用的各种术语界定的方法,其核心都是要同专业领域相关联,这也是所有界定方法的共同点。我们的方法是从术语定义中抽取出术语,而定义的语言内容本身及定义的上下文语境都会明确地指示该术语所在的专业领域类别。实际上,本书所述的术语定义聚类的工作也是据此实现的,并且这样的界定方法也解决了同一个词形用在不同领域充当术语的身份辨认问题。
对该术语界定方法可能会遭受到的批评或质疑,我们也分别做了如下预测。
问题一:大量的术语在文本中的出现都是使用性出现,并非定义性出现,按照这种方法就无法被抽取出来了。
问题二:这种方法能抽取出新术语,但抽取不出老术语。比如,能从网络里抽取出“上帝粒子”、“4G”、“网络锁”、“三维打印”、“PM2.5”这类相对较新的术语,因为这类术语通常都能在文本中找到定义,但是像“电灯”、“电话”、“电视”、“电冰箱”、“照相机”这类老术语由于在文本中找不到定义,所以抽取不出来。然而只要经过认真分析,就可以看出这两种批评其实是站不住脚的。
通常意义上,术语识别按照目标驱动分为两种类型:
一类以构建术语表为目的,从文本中抽取出术语的词形(Type),并识别其所属的专业领域,按专业领域进行归类。
另一类识别工作是在事先已有一个术语表的基础上,在上下文语境中识别出术语的各种词例(Token),目的是研究术语出现的频率、上下文语境、用法等动态性质。
本书的术语识别属于第一种类型,也就是以从文本中识别出术语的词形和所属领域为目的。我们的识别策略就是抓住术语出现的源头,将所有有定义性描述的词语给找出来。
第一种批评认为,没有定义性描述的术语可能在一篇文本中无法被识别,然而只要它是术语,就一定会有定义性的描述出现,因此一定有可能被抽取出来,并识别出其所在的领域,添加到术语表中。
当然在识别的具体操作中,要看能否把术语出现的源头文本都找到。诚如第二种批评所指出的,用这种方法抽取的术语多数是新术语。因为几十年前、几百年前出现的术语,其定义性描述所在的文本许多尚未数字化,更谈不上进入网络,基于互联网进行识别的过程中,暂时还无法抽取到,但是那些老术语早已被收进各种汉语词典、术语词典、术语数据库中,对于该类术语来说,第一种类型的术语识别工作根本没必要去做了。
采用本研究的方法抽取出的新术语,连同词典中原有的老术语整合在一起,就可以获取全部术语的词形,构造出完整的术语表,并不断扩充、发展。利用这样的术语表,采用一般的分词和词义排歧的方法,在大规模文本中抽取出术语的词例,完成第二种类型的工作。
以往术语抽取的工作没有区分这两种不同性质的工作,以致识别效果不佳。首先抽取出来的词语若果真是术语,绝大多数都是各种术语表中已经有的,从构造术语表的角度看并无很大实用价值。其次抽取出来的词语中包含着一定数量的非术语,还得花费大量的人力在识别结果中去筛选、鉴别。比如,使用TF×IDF的统计方法,抽取出来的只是领域特异词,即在某个领域中经常出现而在其他领域较少出现的词语,但这些词语中有可能是人名、地名、机构名、固定搭配、常用语、俗语、惯用语等大量非术语词汇。使用互信息的统计方法抽取出来的也会有一些非术语的固定词语搭配。最后把待处理文本中所有的词语一视同仁地都作为术语的初选对象,极为低效。术语与非术语的语义特征与上下文环境是不同的。本研究从文本中寻找到术语的粗边界,在此基础上进行术语的识别,提高了计算的效率。
使用我们对术语的界定方法进行术语抽取,对于未登录新术语的发现尤其有效。事实上在实际的应用过程中,所谓术语识别其实主要就是指新术语的识别。新术语的传播、普及、规范是术语标准化工作及研究学科领域发展动态的重要内容。将这部分术语识别出来,对建立与完善术语表极其关键。一个新术语必定指称一个新概念,一个抽象的概念必定以一个定义的语言形式来进行描述,被定义项就是系统所要识别的术语。基于上述分析,本研究将术语与术语定义关联起来,提出了一种从术语定义入手发现术语的识别策略。
二 术语定义的界定
(一)学界对术语定义的界定
相对于术语的界定,术语定义的界定研究较少,究竟什么是“定义”,以下列举几种不同的界定方法:
1.《GB-术语工作-计算机应用-数据类目》:描述一个概念并使其区别于同一概念体系内其他概念的表述。
2.《现代汉语词典》:对于一种事物的本质特征或一个概念的内涵与外延的确切而简要的说明。
3.互动百科:定义是认识主体,使用判断或命题的语言逻辑形式,确定一个认识对象或事物在有关事物的综合分类系统中的位置和界限,使这个认识对象或事物从有关事物的综合分类系统中彰显出来的认识行为。
4.百度百科:定义是通过列出一个事物或者一个物件的基本属性来描写或规范一个词、概念的意义。
5.冯志伟:用一个已知概念对一个概念做综合的语言描述。定义是揭示概念的逻辑方法,即指出概念所反映的事物的特有属性。
同样我们认为上述的定义模式在语言信息处理的实际操作中难以把握。比如,“已知概念”对一些人群来说可能是已知的,但对另外一些人群来说可能就是完全陌生的概念。同理,对“本质特征”、“确切”、“简要”、“综合”、“有关”、“基本”这样的词语都很难准确地界定,在计算机处理过程中操作性不强。
(二)本研究对术语定义的界定
一般来说,对一个词语的定义,可以采用词语式、描述式和定义式三种不同的释义方式。杜比钦斯基认为释义(包括词语式与描述式)是从素朴的世界图景的角度来解释语言单位的意义,通常对语文词典来说是比较典型的。定义式属于逻辑范畴的概念,对百科词典、术语词典来说是比较典型的,面向的是严整的科学世界图景。
词语式又称为词法定义或释义法,是用一个相对通俗易懂的词语解释另外一个较难理解的词语。一个词法定义提供一个与被定义词相当的表达。例如,“骄矜”意思是“骄傲”,“渴念”意思是“渴望”。当一个词语例如“既然”、“顺便”较难用一个同义词解释时,词典通过给出这个词语的特征并加以描述。
该方法对词语的释义一般是针对同义词或近义词之间而言的。一般来说词语式的释义方式,只是用一个同义、近义词替代另一个词语进行描述,不能算作词语真正的定义。
描述式是通过描写实物、叙述情节和说明用法来解释词义。例如:
高粱是指一年生草本植物,叶子和玉米相似,但较窄,花序圆锥形,生在茎的顶端,子实红褐色,品种很多,子实除了供食用外,还可以酿酒和制淀粉,秆子可用来编席、造纸等。
货币基金是聚集社会闲散资金,由基金管理人运作,基金托管人保管资金的一种开放式基金,专门投向风险小的货币市场工具,区别于其他类型的开放式基金,具有高安全性、高流动性、稳定收益性,具有准储备的特征。
该方法对词语的释义一般是对事物的各个方面的特征做相关性的描述。
词语的定义式一般具有特有的方式和特点,基本都不外乎以下三种方式。
1.内涵定义(Connotative Definition)
该定义式通过属概念和种差的描述来释义被定义项。内涵定义列举被定义概念的特征来描述概念的定义,其中被定义项是待解释的词语,用来解释的句子叫作定义项。定义项包括最邻近的上位概念和种差。内涵定义是定义式中的经典形式,其结构特点为:
被定义项=定义项
(被定义的概念)属概念+种差
例如:
电报是用电信号传递文字、照片或图片的通信方式。
低筋面粉是水分13.8%,粗蛋白质8.5%以下的面粉。
ISP是向广大用户提供互联网接入业务、信息业务和增值业务的电信运营商。
内涵定义简明扼要、准确清晰,概念之间的层级结构关系明确,用属概念与种差确定了被定义项在概念体系中的位置,在定义类型中使用最为广泛。缺点是对于那些非种概念的概念,也就是本身为属概念的概念,用这种定义结构方式难以描述被定义项。
2.外延定义(Denotative Definition)
通过概念的数量范围来描述概念的外延的定义,其下位概念的数目一般是可穷尽的。外延定义要求使用者具有一些先验知识,这种定义假定定义接受者对于所列举和描述的概念已经比较熟悉。例如:
太阳系行星包括水星、金星、地球、火星、木星、土星、天王星、海王星、冥王星。
人文社会科学包括文学、历史学、哲学、政治学、经济学、语言学、宗教学和伦理学等学科领域。
开放式基金主要包括股票基金、混合基金、债券基金、货币市场基金四大类。
外延定义通过列出一个词语的所有元素来阐述一个概念。
3.上下文定义(Contextual Definition)
上下文定义也称作情境定义。有些词语很难在一个句子中被准确地定义,这时可以通过引证被定义概念在文本中出现的上下文语境来描述它的内涵,也就是说,通过使用一个不出现被定义项的句子来解释这个被定义项在句子中的意义。
同一个术语的定义可以根据概念描述的侧重点的不同,选择采用内涵式定义或外延式定义。例如:
化石能源是一种碳氢化合物或其衍生物,是由古代生物的化石沉积而来的一次性能源。
化石能源包含的天然资源有煤炭、石油和天然气。
术语定义抽取系统的目标,一是给术语工作者提供足够的参考信息,辅助他们完成术语定义的编订工作;二是帮助专业工作者全面、客观地理解本领域内术语的意义;三是帮助大众了解新概念、新事物、新知识,促进该术语相关知识的传播。本研究中术语定义抽取系统制定的原则是宁多勿漏,因此我们将描述式与定义式的词语释义全都视为合法的术语定义。事实上术语定义抽取研究中所指的术语定义也包含术语的释义,即一般的意义描述,与术语标准化工作中所指的严格的术语定义一并都是系统的抽取对象。