第三节 主题检索语言
主题检索语言又称主题法。它采用语词直接作为文献主题标识,按字顺排列主题标识,提供各种检索词语的途径。主题检索语言从描述事物的特性角度出发,按文献所论述的事物(即主题)集中文献,用规范化的名词术语标引和表达文献的主题概念,用参照系统显示事物概念主题词之间的关系。
主题检索语言与分类检索语言同样都是表现文献内容特征的检索语言,描述和揭示的对象都是各种各样的文献,它们都是建立在概念逻辑和知识分类的基础上,即利用区分概念的各种逻辑规则来显示词与词之间的关系,利用概念分析与综合的逻辑方法来构造标引语词。在应用知识分类方面主要是应用事物分类原理。
一、主题检索语言的类型及特点
(一)主题检索语言的类型
主题语言包括很多的类型,根据选词原则、词的规范化处理规则的不同,主题语言可分为标题词语言、关键词语言、单元词语言和叙词语言。
1.标题词语言
标题词语言是一种先组式语言,它选择标题词作为文献内容的标识和检索依据,具体表现为标题词表的利用。
2.关键词语言
关键词语言是直接选用自然语言,基本上不作规范化处理的一种检索语言。关键词指从文献题名或文摘以及正文中抽取的,能够表达文献主题并具有实质意义的未经规范化处理或略加规范处理的自然语言词汇。关键词标引迅速、容易,方便简单。同时,检索点比较多,可以从多个入口进行查找,非常有利于计算机检索系统的使用。
3.单元词语言
单元词语言是以单元词作为语词标识对文献进行标引与检索的主题检索语言,是一种后组式语言。
4.叙词语言
叙词语言是应用最广的主题语言,叙词语言是以叙词作为文献检索标识和查找依据的一种检索语言,概念组配是叙词语言的基本原理。
(二)主题检索语言的特点
主题法是使用语词标识的检索语言。语词标识几乎都是名词和名词性词组。它具有较好的按事物集中文献和便于从事物出发检索文献的功能。目前,在机检数据库的检索中,主题法是最常用的检索语言,占有十分重要的地位。
主题检索语言与分类检索语言相比,具有明显的优点:
1.专指性高
主题语言主要以规范化的名词术语为基础,着眼于事物及事物的各个方面。任何一个语词标识都能表达一个或大或小的、不受某一学科统辖、不被各个学科分割、基本上是独立完整的事物概念。凡是论述某一事物的文献,几乎都被标引在表达该事物概念的语词标识之下。从一个语词标识下即能检索到它所表达的事物的比较完全的有关文献。
2.直观性好
主题语言直接采用主题词作标识,可以直呼其名,依名查检。主题语言不同于分类号,对用户来说,主题词易读、易记、易理解。而且按照字顺排列主题标识,更增强了它的直接性优点。
3.灵活性强
主题语言根据需要对主题词进行灵活组配,故特别适合计算机的逻辑组配功能。主题语言对于从事物出发的比较狭小的检索提问,以及关于新事物、新学科、新概念的检索提问,检索效果特别好。主题语言的主要缺点表现为:由于按字顺排列,所以同一门类学科的文献易被分散在各处,在族性检索方面不及分类。
标题词法是主题检索语言中使用最早的一种类型。标题词是从自然语言中选取的、经过规范化处理的、表示事物概念的词、词组或短语。标题词按字顺排列,词间语义关系用参照系统显示,并以标题词表的形式体现。
标题词一般分为主标题和副标题两级,通过主标题词和副标题词的固定组配来构成检索标识,因而只能选用定型标题词进行标引和检索,所反映的主题概念必然受到限制。尤其是代表现代科技主题的内涵与外延越来越复杂,几乎不可能用一对主、副标题词完全、确切地表达出来。因此,标题法已不适应时代发展的需要,目前已较少使用。比较典型的标题词表有《工程标题词表》。
《工程标题词表》(Subject Headings for Engineering,简称SHE)由美国工程信息公司编辑出版,它是和《工程索引》(The Engineering Index,简称EI)检索工具配套使用的规范词表,在1987年修改补充的基础上,1990年又作了新的修订,之后定名为EI Vocabulary。它的标题词由两级构成:主标题词及副标题词。主标题词表达概念、产品、过程、特征、材料等主题内容,使用名词、动名词,以单元词或复合词的形式出现。副标题词起对主标题词的限定和修饰作用,表达主题的某一方面的特征,比如应用、现象、环境、制作、性能、地理位置等。除了专用副标题词外,SHE有通用副标题词表。这些通用副标题词不再出现在SHE主词表中,它们可以和主词表中的任一词配合使用,体现其通用特性,比如:控制(control)、模型(models)、研究(research)、实验(testing)等词有明显的通用性,另外,国家名称也可作副标题词。SHE词表中全部标题词按字顺编排,标题词下的副标题词再按它们的字顺排序。从1993年起,工程信息公司放弃了标题词语言,改用叙词语言编制,由《工程索引叙词表》(EI Thesaurus)取代。
(三)单元词法
单元词又称元词,是从自然语言中选取,经过规范化处理,表达主题最小的、最基本的、字面上不能再分的名词术语。例如,物理是一个单元词,它表示了一个完整而独立的概念。
单元词表比较简单,它按照字顺,记录了一个检索系统所使用的全部单元词。单元词法采用后组配的方式,在标引时不组配单元词,在检索时才对单元词下所列的文献号进行对比,号码相同的就表示有组配关系。例如:
不锈钢
861081862522863519866330866332867573868582868996;
焊接
862111866332863519863981864530869091。
如果想查找关于不锈钢焊接方面的文献,863519号文献和866332号文献可以满足我们的查寻需求。在这两篇文献中,同时包含不锈钢和焊接两个概念。
单元词具有相对的独立性,词与词之间没有隶属关系和固定组合关系,标引时可根据需要加以组配。在单元词法中,组配功能得到了充分的应用。但单元词常常采用字面组配,容易产生组配误差,而且词之间也缺乏语义关系,现已被叙词语言取代。
(四)关键词法
关键词作为信息存储和检索依据的一种检索语言,是直接从原文的标题、摘要或全文中抽选出来的,具有实质意义的,未经规范化处理的自然语言词汇。但在实践中一般也要对关键词进行极少量的规范化处理。
1.关键词法的原理和特点
关键词法是适应目录索引编制过程自动化的需要而产生的,出现比较早,广泛使用却是近二三十年的事。随着文献量的急剧增长,传统的手工标引方法越来越不适应情报工作的需要。随着计算机技术和信息处理技术的应用范围不断扩大,借用计算机来编制索引,以缩短索引的编辑出版时间,加快文献的报道速度,关键词法就成为一种极有效的方法。
关键词法的原理是:运用关键词语言编制的关键词索引,其关键词按字顺排列构成索引款目,所抽选的关键词都可以作为标引词在索引中进行轮排,作为检索入口词进行检索。例如,文献标题可以在相当程度上反映文献内容,因此,可以把文献标题中著者所用的具有实质意义的原词即关键词作为标引—检索用词,在编制索引时,对关键词进行轮排,这样,文献标题中每一个具有实质意义的词都可以作为检索的入口,可以从多条途径入手对该文献进行检索。
关键词法具有如下特点:
(1)查准率比较高。关键词是文献著者所用的原词,对文献内容的专指度较高,特别是在保留上下文的各种关键词索引中,其专指度更高,所以查准率比较高。
(2)检索途径多。关键词采用的轮排方式,可以多途径检索文献。
(3)标引简单。关键词接近自然语言,是由计算机自动抽取的,不用人工标引,不但节省人力,而且可以降低对人员水平的要求。
(4)族性检索功能差。关键词索引不显示词间关系,不能进行缩检和扩检,对提高检索效率有一定的限制。
此外,由于关键词具有表达事物、概念直接、准确,不受词表控制,能及时反映新事物新概念等特点,目前,关键词语言已被广泛地应用于手工检索和计算机检索系统的索引编制中,并采取了编制禁用词表和关键词表等方法,以提高关键词抽取的准确性和对词间关系进行控制,提高检索效率。
2.关键词法的类型
关键词索引的主要类型有题内关键词索引、题外关键词索引、词对式关键词索引等。
(1)题内关键词索引
题内关键词索引(Keyword in ContentIndex,简称KWICIndex),又称上下文关键词索引,它以文献篇名为基本素材,以篇名中的关键词作为索引款目的标目,以关键词的上下文作为说明语。如美国《化学题录》(Cr)中的题内关键词索引。
题内关键词索引存在着一定的不足,标引词仅来自篇名,数量有限,来源不充分,个别篇名也不一定能真正反映文献内容。由于标引词不规范,有时会直接影响检索效果。
(2)题外关键词索引
题外关键词索引(Keyword OutofContextIndex,简称KWOCIndex),改进和精简了题内关键词索引。这时的关键词不仅限于在篇名当中抽取,还可以根据需要从其他地方抽取。同时,改变了题内关键词索引检索入口在中间的做法,将关键词作为独立标目排在题目的前头。
(3)词对式关键词索引
它是将篇名关键词相互组配,从某一篇名所含的全部关键词中每次取两个来作为一个款目的标目,故又称词对式关键词索引法(Paired Keyword lndexing)。
关键词法只有与计算机结合,才能显示其优点。关键词法的轮排方式在计算机检索中得到了广泛的应用,也正是在关键词法的基础上,逐步产生了自动标引和全文检索,促进了自然语言在信息检索领域的应用。
(五)叙词法
1.叙词法一般原理
叙词法是以表示单元概念的规范化语词为基础,以概念组配为基本原理,对文献主题进行描述的后组式检索语言。
叙词是指一些以概念为基础的、经过规范化的、具有组配功能并可以显示词间关系和动态性的词或词组。叙词有这样一些特点:
(1)直观性。叙词标识比较直观,按字顺排列,序列明确。
(2)规范性。叙词都经过了规范化处理,包括对词义、词类、词形等的规范。
(3)组配性。叙词可以灵活、自由地组配在一起,表达各种复杂的概念,比较适应计算机检索,在检索中可以充分采用布尔逻辑检索法、加权检索法等。
叙词法吸收了其他多种检索语言的原理与方法,吸纳了体系分类法的基本原理,编制了叙词范畴索引和词族索引,从多方面来反映主题词之间的等同关系、等级关系和相关关系等;保留了单元词法的组配原理,采用了组配分类法的概念组配来代替单元词法的字面组配,并取代了单元词法;吸收了关键词法的轮排方法,编制了各种叙词索引;采用了标题词法对语词进行严格规范化的方法,保证了词与概念的一一对应,采用并进一步完善了标题法的参照系统。
2.叙词表的编制
叙词表是叙词法的核心体现。目前,国内的叙词表已有七八十种之多。常用的有《汉语主题词表》《化工汉语主题词表》《机械工程主题词表》《电子技术汉语主题词表》《国防科学技术叙词表》等。常见的国外叙词表有《INSPEC叙词表》《电机工程师协会主题词表》《工程与科学叙词表》等。
叙词表一般由一个主表和若干个附表构成。主表是叙词字顺表,该表将叙词完全按字顺排列,并有标注事项和参照系统。附表主要包括:叙词分类索引、词族索引、轮排索引、双语种对照索引、专有叙词索引等。叙词分类索引也称分类表或范畴索引,便于从学科或专业分类的角度来选用叙词。词族索引也称等级索引,具有属分关系的一组主题词称为一族,构成一个从泛指叙词到专指叙词的等级系统。轮排索引,也称轮排表,将有相同单词的词组叙词集中在一起,排列在这个单词之下,可以方便人们从该单词出发,查出某一个或全部含有该单词的词组叙词。双语种对照索引如英汉对照索引。专有叙词索引如地区索引、人物索引、机构索引等。
在叙词表的编制过程中尤其要注意以下问题:
(1)主题词的选择与规范
主题词也称叙词,在叙词表中它是表达一定意义的最小词汇单元。主题词不仅反映了一定事物的概念,而且它作为事物概念的表达形式而存在。因此,主题词是表达概念的一种形式,而概念则是主题词所表达的内容。
主题词包括普通主题词和专有主题词两种。普通主题词是表示各种事物及其属性的名词,它所表达的常是普通概念,如反映各学科、各种职能活动的基本术语等。专有主题词是表示某一特定事物的专有名词,它所表达的是单独概念,如地名、民族名、语言名、时代和年代、人名、机构会议名称、产品名称、历史事件名称、法规名称、主义、学说、学派、定理等专有名称。
在编制叙词表的过程中,主题词的选择要以所编叙词表规定的专业或职能范围为依据。综合性叙词表和多学科叙词表选词时,各专业、各类职能的名词术语的选用要大致平衡。专业性叙词表的选词,要突出专业特色,兼顾相关专业和相关职能。同时,选词要考虑文献检索的具体要求,以及被标引文献的数量和增长速度。还要考虑被选词的使用频率和检索意义,一般不选用使用频率过高或过低的词作为主题词。对于一个使用频率过高的词,应增选它的下位词;对于使用频率过低的词,可以不选该词,选用它的上位词即可。但对于那些反映新事物、新学科的词,即使开始时可能在文献中出现频率不高,也应给予收录,而对于一些反映旧学科、旧事物的词,即使过去某一时期在文献中出现频率较高,也不一定要选取(对于标引历史资料的主题词表除外)。此外,基本词汇要完备而精练。要注意选用词义明确、符合科学性和通用性的词作为主题词。
叙词法规范化处理的内容包括三个方面:
a.同义规范。对自然语言中的同义词、准同义词进行规范处理。如学名与俗称、新称与旧称、全称与简称、不同译名等都需要进行同义规范处理。
b.词义规范。是指对自然语言中的多义词、同形异义词进行规范处理。词义规范的内容包括两种类型:一是范围注释,是指对同一主题词在不同学科领域或在不同语言环境下所具有的不同概念进行注释,用来阐明其使用范围。二是含义注释,是指对在某些概念上混淆不清的主题词做简明扼要的说明,用来明确其含义和用法。
c.词类规范。是指对主题词选定范围进行控制。比如,主题词一般只能从名词或动名词等具有实际意义、并能反映事物本质属性的词中选取,其他的词类应尽量避免或控制使用。
(2)主题词之间关系的显示
叙词表的主表是按照主题词的字顺排列起来的,不能直接显示各主题词之间的逻辑关系,展示主题词的语义性。为了解决这个问题,叙词法采用了多种方法。除了采用词族索引、范畴索引、轮排索引外,最主要的是采用参照系统。
参照系统对于主题词的语义关系的揭示,是通过制定各种符号来加以联系和反映的,具体体现在三个方面:
a.同义关系,又称等同关系或代用关系,是指两个或多个词所表示的概念相同或相近并且可以互换的关系。同义关系的规范化处理,是从同义词中选出一词作为正式主题词,其他的词则作为引导词。同义关系用“用”“代”来表示。
b.属分关系,又称为等级关系,是指专指度深浅不同的两个主题词之间的关系,属分关系采用“属”“分”两个参照符号来显示,“属”用于下位主题词指向上位主题词;“分”则用于上位主题词指向下位主题词。“属”与“分”互为反参照。
c.相关关系,是指主题词之间除了同义关系和属分关系之外的某种比较密切的关系,也称类缘关系。相关关系用“参”来表示。
综上所述,参照系统所显示的叙词之间的关系有:等同关系(代、用)、等级关系(属、分)和相关关系(参)等,具体如表6-2所示。
表6-2 参照系统所显示的叙词关系
(3)主题词的组配
叙词法的组配吸收了组配分类语言的概念组配原理,采用了单元词法的后组方式,超越了单元词的字面组配,实现了概念组配。
概念组配是叙词法的基本原理。概念组配依据概念的分析与综合,与字面组配有时相同,有时不同。通过组配可以增强叙词法的表达能力,控制词表的词汇量,提升叙词法的匹配能力,提供多途径检索,提高查全率,还可以及时反映新事物、新学科。
(六)主要主题词表介绍
目前,国内外的主题词表有许多,如国外使用最广的综合主题词表《美国国会图书馆主题词表》(LibraryofCongressSubjectHeadings,简称LCSH)、专业叙词表《医学主题词表》(MedicalSubjectHeadings),国内比较有影响的主题词表有《汉语主题词表》《中国分类主题词表》《社会科学检索词表》《中国档案主题词表》等。下面重点介绍《汉语主题词表》和《中国分类主题词表》。
1.《汉语主题词表》
《汉语主题词表》是我国第一部大型的综合性的叙词表,由中国科技信息研究所和北京图书馆负责主持,1975年开始编制,1980年正式出版。分为社会科学、自然科学和附表3卷,共10个分册,全表收录主题词108568个。其中正式主题词91158个,非正式主题词17410个,词族数3707个,一级范畴数58个,二级674个,三级1080个。
《汉语主题词表》结构体系比较全面,由主表(字顺表)、附表、词族索引、范畴索引和英汉对照索引组成。
主表(字顺表)包括社会科学和自然科学两部分,是词表的主体部分,由全部正式叙词款目和非正式叙词款目组成,所有款目严格按汉语拼音音序排列。叙词款目是主表的基本单元(如图6-3所示),每一个叙词款目的结构包含叙词、汉语拼音、英文译名、范畴号、注释项及其语义关系项等。
图6-3 《汉语主题词表》主表款目示例
附表包括四种专有词汇表:世界各国政区名称表、自然地理区划名称表、组织机构名称表和人物表。世界各国政区名称表收录了世界各国、地区及重要城市名称,中国各省、自治区、直辖市以及部分重要城市和地区名称。自然地理区划名称表收录了世界重要地理区划名称,如山、川、河、湖、海、洋、岛屿、平原、盆地等的名称。组织机构名称表和人物表分别收录重要的机构和人物。
词族索引又称族系索引、等级索引,是将主表中具有属分关系的正式主题词集中在一起,显示词间从属关系的一种索引系统。词族索引用来揭示主题词之间族系关系,满足族性检索的需要。词组索引中,通常从族首词出发,按照词族中的关系展开各级叙词,以小圆点作为等级符号。
范畴索引又称分类索引,是主表中全部叙词的分类索引。它将全部叙词和非叙词按社会科学和自然科学两大范畴划分为58个大类,方便人们从分类角度查找与某一范畴内容有关的主题词。
英汉对照索引,将主表和附表中的正式和非正式主题词的英文按字母顺序排列的一种索引,是通过英译名来选择主题词的辅助工具。
2.《中国分类主题词表》
《中国分类主题词表》是在《中图法》编委会主持下,经全国40个单位160位专家学者的共同努力,历时8年编制而成的,于1994年6月正式出版。《中国分类主题词表》是在《中图法》第三版(含《资料法》第三版)和《汉语主题词表》的基础上编制的我国第一部分类检索语言和主题检索语言相互兼容对照索引式的一体化词表。全表共分两卷6册,收录分类法类目5万余个,主题词及主题词串21万余条,包括《分类号—主题词对应表》和《主题词—分类号对应表》两部分。为提高文献主题标引和文献分类标引质量,由《中图法》编委会组织编写了《(中国分类主题词表)标引手册》,1998年由北京图书馆出版社出版。
第1卷《分类号—主题词对应表》以《中图法》的类目体系为基础,将《汉语主题词表》的全部主题词以及增加的主题词兼容对应于各级类目之下,起着类目注释的作用,并且在编制过程中,对《中图法》第三版500多处类目和注释进行了增补,可视作一部以主题词作注释的新版《中图法》。该卷分左右两栏编排,左栏是《中图法》的类表,右栏是相对应的主题词和主题词串。其主要功能是文献分类标引和通过分类的途径查找主题词,进而进行主题标引。
第2卷《主题词—分类号对应表》是从主题词到分类号的对照索引体系。它按主题词款目和主题词串标题的字顺排列,其后列出对应的分类号。主题词款目结构与《汉语主题词表》大体相同。在编制过程中,以《汉语主题词表》原有的主题词为依据,进行了大量的增补、删除和修改,增加了14000个反映新学科、新事物的主题词,删除了一批陈旧过时的词,调整了一些主题词的参照关系,把词族索引直接纳入主表之中,扩大了检索人口范围和族性、相关性检索的可能性。其主要功能是进行文献主题标引和通过主题查找相关的分类号,作分类标引的辅助手段。
《中国分类主题词表》是分类与主题、先组式检索语言与后组式检索语言相结合的一体化检索语言体系。使用该表不仅可以使分类标引、主题标引在经过同一主题分析、采用同一标引工具的过程中一次完成,而且能够降低主题标引的难度,提高标引的一致性。同时,由于分类号与主题词之间建立了对应联系,有利于在检索系统中实现分类号与主题词之间的相互转换,从而提高检索效率。
《中国分类主题词表》也存在一些不足,如没有编制主题词轮排索引和英汉对照索引,标引组配不够灵活,而且,在分类号与主题词的对应过程中,受到主观因素的影响,也很难做到完全的科学和准确。