任务三 信息检索语言类型及发展
1.信息检索语言概论
检索语言是检索系统的重要组成部分,是信息存储人员和检索人员都要使用的语言工具。检索语言,是根据信息检索需要而创制的人工语言,从不同角度又被称为情报语言、情报存储与检索语言、文献语言、标引语言等。目前世界上有一两千种检索语言。例如中国图书馆图书分类法、《汉语主题词表》、国际十进分类法、杜威十进分类法、《NASA叙词表》等,都是检索语言的一个语种。有数以千万计的信息机构和检索刊物的工作人员和读者正在使用这类语言。
检索语言与检索效率有最密切的关系,它在信息检索过程中起着十分重要的作用。
如前所述,信息检索的全过程包括信息的存储和检索。检索语言起着沟通这两个过程的桥梁作用。当存储信息时,文献标引人员首先要对各种文献进行主题分析,即把它所包含的信息内容分析出来,使之形成若干能代表文献主题的概念,并用检索语言的语词(标志)把这些概念标示出来,然后纳入检索工具或检索系统。当检索信息时,信息检索人员首先对检索课题进行主题分析,即把它所涉及的检索范围明确起来,使之形成若干能代表信息需要的概念,并把这些概念转换成检索语言的语词(标志),然后从检索工具或检索系统中查找正好用该语词标引的文献,从而找到包含所需信息的文献。
由此可见,检索语言是信息存储和检索系统的重要组成部分,在检索系统中起着语言保证作用,直接影响着检索效率。如果没有检索语言作为标引人员和检索人员的共同语言,就很难使标引人员对文献信息内容的表达(标引用语)和检索人员对相同内容的信息需要的表达(检索用语)取得一致,信息检索也就不可能顺利实现,甚至根本不能实现。
(1)检索语言的构成和特点。
检索语言就其实质来说,是表达一系列概括文献信息内容的概念及其相互关系的概念的标志系统。它可以是从自然语言中精选出来并加以规范化的一套词汇,可以是代表某种分类体系的一套分类号码,也可以是代表某类事物的某一方面特征的一套代码(如化合物的各种代码),用以对文献内容和检索课题进行主题标引、特征描述或逻辑分类。
检索语言由词汇和语法两部分组成。词汇是指登录在分类表、词表中的全部标志。一个标志(分类号、检索词、代码)就是它的一个语词,而分类表、词表则是它的词典。检索语言词典有书本式,有机读式。检索语言的语法是指产生、控制和运用检索语言的标志来正确表达文献信息内容和检索课题的一整套规则。对于信息用户来说,了解这些规则,就能更加准确、全面、迅速地选择表达检索课题所需的检索语言标志,并将它们组合成正确的检索提问式。
在文献信息检索中,之所以要使用专门的检索语言,是因为检索语言具有适合检索需要的一些特点。具体如下。
①进行词汇控制,实现概念与语词的唯一对应,排除多词一义(同义词),一词多义(多义词)和词义含糊现象,实现概念表达的唯一性和准确性。例如,在自然语言(在人类交际中自然演变形成的语言)中,“电子计算机”、“计算机”、“电脑”这三个词表达的是同一事物。如果在检索系统中有3篇文献分别用这3个词表达,并按字顺排在不同的地方,当用户需要这方面内容的文献时,若只用其中一个词进行检索,就会漏掉符合需要的其他文献,降低查全率。在此类情况下,若想查全,检索者就得想出与检索课题有关的所有语词,这是比较困难的。为此,检索语言进行了词汇控制,在多个同义词、准同义词中选一个最通用、最科学的词作为标引和检索用词。相反,为了提高查准率,就得把多义词限定为单义词,而消除词义不清的现象,可以同时有利于提高查全率和查准率。
②根据词所表达的概念之间的关系,显示词间关系,或将大量的词组织成有内在联系的逻辑系统,借此实现大量文献信息的系统化、相关文献信息的集中化,从而有利于文献信息检索。例如,将电子计算机、电子模拟计算机、电子数字计算机、大型计算机、微型计算机、浮点计算机等表示各种计算机并各有相关文献信息的词集中起来,联系起来,对需要关于计算机文献信息的用户就很有好处。
③相当简明的标志,借助一定的语法规则,既能比较确切地表达概括文献信息内容及检索课题的概念,又方便将标志及其所代表的概念和相应的文献信息进行系统排列和组织,并便于将文献信息标志与检索提问标志进行相符性比较。
检索语言的质量高低及其使用正确与否,对检索效率有重大影响。
(2)对检索语言的基本要求。
在信息检索中,决定检索效率有4个方面的因素,即检索语言的质量、标引质量、检索质量、其他方面的因素。其中,检索语言的质量与检索效率关系最密切。为了保证较高的检索效率,对检索语言的基本要求如下。
①保证较高的查全率和查准率。或者说,漏查率和误查率要能控制在允许的范围内。这是对检索语言最基本的要求。查全率主要与一种检索语言是否能比较全面地显示概念之间的等级关系和相互关系,以及在它的词汇中是否能排除同义现象有关;查准率主要与它的标志(单个标志或若干标志的组合)是否能达到较高的专指度,在它的词汇中是否能排除多义现象和同形异义现象,以及它是否能正确地、恰如其分地显示概念之间的关系有关。检索语言的选词是否能符合文献主题的实际情况和细腻检索的实际需要,则与查全率和查准率有关。
②能满足多种检索要求。社会的信息需求是多种多样、千变万化的,即使是同一个人,也会提出不同类型的检索要求。检索语言对各种检索要求的适应性,主要与它们的构成原理有关,即与它们用什么方式来构成概念标志,以及按哪些原则、方式来排列、组织概念标志和显示概念之间的关系有关。
一种检索语言能否满足多种检索要求,主要看它的下列各种性能如何:
a.是否既能从学科、专业出发进行检索,又能从事物出发进行检索;
b.是否既能较好地进行族性检索,又能较好地进行特性检索;
c.是否能视检索过程中出现的具体情况而自由地扩大、缩小或改变检索范围;
d.是否能进行多途径检索;
e.是否能进行多因素检索,即按任何特征组配检索,或者用布尔代数表达检索课题和进行逻辑运算,实现精确检索。
所谓族性检索和特性检索是两个相对的概念,在它们之间没有明确的界线。一般认为,从学科、专业出发的范围较广泛的检索要求是族性检索,从事物出发的、范围较狭窄的检索要求是特性检索。在检索语言中,分类法系统各种语言的职能主要是满足族性检索的要求,主题法系统各种语言的职能主要是满足特性检索的要求。其实,无论是从学科、专业出发的检索(可称学科检索或分类检索),还是从事物出发的检索(可称事物检索或主题检索),都有族性检索和特性检索。任何检索语言,都应采取一定的方法和手段,从而既适合于族性检索的要求,又适合特性检索的要求。
③易于标引,易于检索。是否易标易检,不仅与标引、检索的速度有关,而且与标引、检索的质量有关。因为一种检索语言如果不是易于为标引人员和检索人员所掌握,将会导致标引误差和检索误差的增加。保证易标易检的条件是多方面的,主要包括如下几点。
a.语词或符号含义的明确性。例如,在体系分类法中通过类名措施、等级隶属结构(形成语言环境)、类目注释、类目划分细则等来明确分类号的含义。
b.语法的严密性。即凡是会出现分歧的地方都要有明确规定,规则不能模棱两可或自相矛盾。例如,在叙词法中明确规定“凡词表中已有专指词者不得用泛指词组配标引”,“凡可以用组配标引又可以用上位词标引者优先用组配标引”。
c.标志的直观性及其排列次序易于理解。在这方面,语词标志比符号标志直观性好,先组式的标题词比组配式的叙词直观性好,组配分类法的分类号比体系分类法的分类号直观性好,层累制的分类号比顺序制的分类号直观性好。号码或语词的排列,应尽量避免特殊的、使人不易理解的规定。
d.查词查号手段的多样性。例如,体系分类表编有类目索引,叙词表编有分类索引、等级索引、轮排索引、多语种对照索引等,使标引人员和检索人员从各种方便的角度都能查到所需的标志。
e.整个语言包含概念的丰富和完备性。所谓包含概念丰富,如体系分类表中类目多,以类目注释方式列出的概念多;叙词表中叙词多,作为检索“入口”的非叙词多等。所谓包含概念完备,是指不论任何主题的文献都能有类可归,有适当的语词可以用来标引,即使是用泛指类目和泛指词也可以。
④具有对先进的检索方式和检索设备的适应性,以及对多种检索方式和检索设备的适应性。检索方式即文献信息存储与检索方式,可以分为文献单元方式和标志单元方式。文献单元方式也称顺检方式、顺排档,其特点是文献标志直接加在文献款目上作为标目。文献款目即按文献标志排列,查到文献标志即可见到文献著录事项。我国文献信息机构使用的卡片式目录都是属于文献单元方式。标志单元方式也称为逆检方式、倒排档,其特点是检索工具分两部分,一部分是文献卡(文献款目),另一部分是标志卡,标志卡上只记录有关文献号,标志卡与文献卡之间用文献号(较多的是顺序号)联系,检索时先查标志卡(可以组配),得到有关的文献号之后再转查文献卡,才能见到文献著录事项。各种组配索引都属于标志单元方式,计算机检索系统中的倒排档也是属于标志单元方式,附有索引的检索刊物绝大多数可以认为是标志单元方式(更正确地说是文献单元方式和标志单元方式的结合系统)。
检索设备可以分为传统检索设备和非传统检索设备。传统检索设备有普通卡片式目录、书本式目录等,非传统检索设备有比号卡、比孔卡、穿孔卡、机械式检索系统、光电式检索系统、计算机检索系统等。
各种检索方式和检索设备都有一定优缺点和适用范围,它们与检索语言是互相配合的。一种检索语言的优点是否能充分发挥,与所选用的检索方式和检索设备密切相关。一种先进的检索方式,检索设备要能充分发挥它的优异性能,也必须对检索语言提出一定的要求。总之,各种检索语言对各种检索方式和各种检索设备的适应性是各不相同的。例如,上下文关键词法比较适用于电子计算机系统却不太适用于卡片式目录。当前,信息检索的计算机化已成为提高检索效率的一个重要途径。结合计算机检索设备特点设计的检索语言,有助于充分发挥计算机的优异功能。但是,也应考虑到一种检索语言能适应多种检索方式和检索设备,使其发挥更大的效用。例如,我国的《汉语主题词表》就兼顾了计算机检索系统和手工检索系统两个方面的需要。
⑤具有对多种学科和多种类型文献的适应性,以及对多种类型文献信息机构的适应性。一般来说,专业性或专用性检索语言在处理本专业或特定类型文献上效率比较高,但在处理其他专业或其他类型文献上效率就比较低,甚至完全不适用。综合性检索语言比较适用于综合性文献信息机构处理多种学科和多种类型的文献,效率虽不甚高,但那些单位不可能同时使用多种专业性和专用性的检索语言。因此,提高综合性检索语言的效率无疑是必要的,但也是比较困难的。
⑥具有对文献信息机构各个工作环节的适应性。在这方面,体系分类法(包括体系组配分类法)的适应性较强,除了适用于信息检索外,还适用于文献排架、文献资源建设计划、服务部门的划分、文献报道、统计等工作。其他语言则几乎只能用于信息检索和文献报道。
⑦具有与其他检索语言的兼容性和一国通用性及国际通用性。每种检索语言都是根据一定需要而创制的,不但具有适应某些具体需要的特点,而且往往带有某个国家的特点和某种自然语言的特点。这样,造成各种检索工具和检索系统之间缺乏“互换性”,不能互相利用标引成果,检索也很不方便。所以,要力求检索语言的一国通用性和国际通用性,即标准化。特别是目前信息检索网络化发展的需要,更迫切要求解决各种检索语言的兼容性问题。各个检索系统都使用同一种检索语言是不可能的,因为至今还没有,大概也不可能有一种检索语言能满足一切实际需要。但是,如果能使各种检索语言特别是同类型的检索语言接近起来(如尽可能用同一个语词来表达同一概念等),就有助于克服障碍和提高效率。
⑧具有不断进行修改的可能性,即要能跟上科学技术和社会的发展。科学技术领域中新学科新知识不断出现,各学科之间的关系在不断变化,社会也在不断发展,检索语言要易于扩充修改,及时增补新概念,反映新事物,以及改变旧的结构和概念联系,以适应信息检索的需要。
以上是对检索语言的一些基本要求。但是,实践中还没有一种语言能完满地达到上述全部要求,所以目前在信息存储和检索实践中是多种检索语言共存的局面。
(3)检索语言的分类。
各种检索语言的基本原理是一致的。但是,它们在表达各种概念及其相互关系和在解决对它们提出的那些基本要求时所采用的方法不同,因而形成了不同的类型和语种。
①按照构成原理分为分类检索语言、主题检索语言、代码检索语言。分类检索语言是用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列的语言。分类检索语言包括等级体系型分类检索语言(体系分类法)和分析综合型分类检索语言(组配分类法)。
主题检索语言用语词来表达各种概念,使各种概念不管其相互关系完全按字顺排列。主题检索语言包括标题词型检索语言(标题法)、单元词型主题检索语言(单元词法,现已淘汰)、叙词型主题检索语言(叙词法)和关键词型主题检索语言(关键词法)等。标题法的检索标志是在编表时就固定组配好,即所谓“先组式”的;单元词法和叙词法的检索标志一般是在检索时才组配起来,即所谓“后组式”的。标题法、单元词法和叙词法都要对取自自然语言的语词加以规范化,而关键词法一般认为是直接使用自然语言不加规范,其实它也要进行某种程度的规范化处理。标题法、单元词法和叙词法在表达各种概念及其相互关系的方法上各有特点,但许多方法是通用的。所以在它们之间没有明确的分界线。事实上,目前分类检索语言和主题检索语言也相互渗透,各种方法互相采用。例如,叙词法就采用了多种检索语言的方法。
代码检索语言是一般只就事物的某一方面特征,用某种代码系统加以标引和排列。例如,依据化合物的分子式这种代码语言可以构成分子式索引系统,允许用户从分子式出发,检索相应的化合物及相关文献信息。
②按照标志组合的先后分为先组式语言和后组式语言。使用检索语言和使用自然语言一样,当表达简单概念时,只用单词即可;当表达复杂的概念时,则要用词组或若干词、词组构成的短语。检索语言有两种方式提供表达文献信息内容和检索课题概念所需的词组或短语,因而形成了两类检索语言。
先组式语言。这是一类将表达各个概括文献信息内容或检索课题的复杂概念所需的词组或短语,与表达简单概念的单词一样,在检索语言的词典(分类表、主题词表、代码表)中基本列出的检索语言。也就是说,在标引文献信息之前,就已将需要用到的词组或短语(标志的组合)组配好了。目前所用的大多数分类语言是先组式分类语言,如中国图书馆图书分类法等。主题语言中的标题语言也是先组式语言,如《美国国会图书馆标题表》等。先组式语言一般只能以先组方式在检索系统中使用。
后组式语言。这类语言仅提供表达文献信息内容和检索课题概念所需的基本标志——单词或部分词组,当需要表达文献信息内容和检索课题的复杂概念时,可根据需要,依据一定的规则,用若干个表达简单概念的基本标志来组合(组配)表达相应的复杂概念。由于它在使用检索语言的时候才进行标志组配,因而被称为后组式语言。后组式分类语言使用得不多。叙词语言是后组式的主题语言,如我国的《汉语主题词表》。后组式语言在检索系统中有两种使用方式:
a.在检索系统中将表达特定文献信息内容的几个标志组配好,构成一个完整的复杂标志。因而检索者根据课题可能要用检索语言的几个标志,并组配在一起进行检索。这种检索系统用的是后组式语言,但却是先组式检索系统。
b.检索系统并不将表达特定文献信息内容的几个标志在形式上组配起来,而是分散在各处,检索时才与检索者所用的若干个标志分别匹配。这种系统称为后组式检索系统。计算机检索系统一般都是后组式检索系统,手工检索系统则多为先组式检索系统。
③按照检索语言所适用的学科范围可分为综合性语言、多科性语言、专业性语言。
④按照检索语言适用的地区范围可分为国际语言、国内通用语言。
⑤按照检索语言适用的机构范围可分为各类文献信息机构通用的语言、某类文献信息机构专用的语言、某一文献信息机构专用的语言。
⑥按照检索语言适用的文献信息类型可分为多类型文献信息适用的语言和某一类型文献信息专用的语言(如专利分类法)。
⑦按照检索语言所适用的检索系统可分为手工检索工具适用的语言、计算机检索系统适用的语言。
另外,由于检索语言都是利用各种通行文字来表达概念的,所以检索语言有单语种语言、双语种语言、多语种语言之分。单语种语言又可按自然语言的语种细分,因为它们还会带有各种自然语言的某些特点。
在上述划分检索语言类型的角度中,按构成原理划分是最基本的,按标志的组合使用方法划分也很重要,这是决定检索语言性能的两个重要因素。
小资料
什么是波普尔世界三理论?
1967年,在第三次国际逻辑性、方法论和科学哲学大会上,波普尔作了题为《没有认识主体的认识论》的报告。在这次报告中,他提出了著名的第三世界理论,他认为,在所有存在的宇宙客体中,“可以区分出下列三个世界或宇宙:第一,物理客体或物质状态的世界;第二,意识状态或精神状态的世界,或关于活动的行为意向的世界;第三,思想的客观内容的世界,尤其是科学思想、诗的思想以及艺术作品的世界。”
2.分类语言
分类语言的具体表现形式主要是分类表(分类语言的词典),但规定分类标引规则的使用说明或手册也是一个必要的组成部分。由于用分类表和分类规则来标引、组织、检索文献信息的方法被称为分类法,所以习惯上将某种分类语言称为分类法。
目前使用最广泛的一般是先组式的分类法,称为体系分类法或等级列举式分类法。
体系分类法是一种直接体现知识分类的等级制概念标志系统。它是对概括文献信息内容及某些外表特征的概念进行逻辑分类(划分与概括)和系统排列而构成的。体系分类法的主要特点是按学科、专业集中文献,并从知识分类角度揭示各类文献在内容上的区别和联系,提供从学科分类检索文献信息的途径。
由于人们一般都是在某个专业范围内从事科研、生产、教学、管理等活动的,习惯于从学科、专业的角度出发去获取知识和信息,而体系分类法对于有系统地掌握和利用一个学科或专业范围的知识和信息来说,是很方便和有效的,因此,它成为一种对文献信息进行系统化处理的重要方法,成为一种历史最久,使用最普遍的检索语言。
(1)分类表的结构。
一部完整的分类表,大体可分为下列几个组成部分。
①编制说明。包括分类表的编制经过,所依据的编制原则,部类及大类的设置及其理由,对各种分类问题的处理办法、标记方法、使用方法等,可以让使用者对分类表有一个初步的全面的认识。
②类目表。类目表是分类法的主体,它决定分类号的含义,是选用分类号表达文献信息内容和检索课题的主要依据。各种具体的分类法,其类目表的结构不尽一致,但都是由大量的类目以并列关系和等级关系为主组成的分类体系。以我国的中图法为例,它的类目表就是由基本大类、简表、详表和复分表组成的。
a.基本大类是分类法中的第一级类目,是对一定学科领域的基本划分。中图法共有22个基本大类。
b.简表,又称基本类目表,是分别对每个基本大类,依据它的某些属性,做若干次逐一划分后得出的类目表,起承上启下的作用。由于一部大型分类表详表(正文)的类目很多,在线性排列的情况下,不易掌握整个分类表的内容,因此在查表时可以从简表入手,由简表再转查详表,不致迷失方向。简表也可供简略分类之用,一般列出第一、二、三级类目。
c.详表,又称主表,是分类表的正文,由简表进一步逐级展开划分而成。主表由类目、分类号和类目注释3部分组成。
类目是分类法的“语词”,它限定所表达的事物概念的内涵和外延。
分类号是类目的代号,是分类标志的具体形式。它简明、易于排列,有时还反映类目的层次。分类号可以用一种号码(如数字或字母)组成,也可由两种符号混合组成。分类号的构造方法可分为:层累制,即分类号的位数与类目级别基本上相对应,一位号码表示一级类目,两位号码表示二级类目,如此类推;顺序制,分类号是按类目的先后顺序(不是等级)从小到大安排;混合制,混合采用前两种方法构成分类号。
类目注释,是说明类目的含义、范围、使用规则等事项,以便正确理解和使用该类目的文字。
d.复分表,又称辅助表,是供主表中某些类目共同细分而从主表中抽出的一部分类目表。辅助表可分通用复分表和专用复分表。通用复分表都附在主表之后,专用复分表则插在主表中的相关部分中。例如中图法设有总论复分表、世界地区表、中国地区表、国际时代表、中国时代表、中国民族表等整个主表通用的复分表。在主表内还有大量的专用复分表和依照复分类目。
③索引。根据标题法的原理,将类目及其注释改成标题形式,按字顺排列,并注明相应的分类号。这样不仅可方便查表,而且还可将分类表中因为按学科分类而被分散的同一事物不同方面的类目集中,使分类法在某种程度上兼有主题法的性能。
④附录。是文献分类标引中经常要查阅的参考资料,一般不属分类表的有机组成部分。
(2)分类法在信息存储和检索中的应用范围。
①分类编排手工检索工具的正文(主体)部分。
分类目录:我国文献信息机构用于从内容角度提示所藏图书、期刊的目录。不管所藏文献是印刷型还是机读型,均习惯以分类目录为主。依照分类号或加上书次号来排列文献著录款目就形成了分类目录。
检索工具正文的分类编排:大多数文摘型或题录型检索工具的正文(文摘、题录)部分是按分类编排的。大多数检索工具用来编排正文的分类体系和类号都较为简单。例如,美国《化学文摘》(CA)的正文首先分为5个部(一级类目):生物化学、有机化学、高分子化学、应用化学和化学工程、物理和分析化学,这5个部不用号码表示;每个部再细分出80个二级类目,并依顺序编类号为l~80。美国《生物学文摘》(BA)的正文分为84个类(不再细分),不编类号,而按类名的字顺排序。
②检索工具中的分类索引。由于大多数检索工具的正文已按分类编排,因此,检索工具的辅助索引中,提供分类索引的不多。但是在专利文献的检索工具中,用特定专利分类法(如《国际专利分类法》)编制的专利分类索引是一个重要部分。例如美国《生物学文摘》的“生物分类索引”和“类属索引”,就是按生物分类体系编制的。
③计算机检索数据库的分类号字段。在一部分供计算机检索的数据库记录中设有分类号字段,提供分类途径检索。
小资料
什么是“中图法”?
“中图法”是“中国图书馆图书分类法”的简称,是我国目前通用的类分图书的工具,读者掌握了这部分类法的有关知识,便能迅速、有效地查询全国各图书馆的馆藏。分类法的基本结构如下。
(1)基本部类:如中图法分五大类部,即马列毛邓;哲学;社会科学;自然科学;综合性图书。
(2)基本大类:构成分类表的第一级类目。中图法为22个基本大类。
(3)简表:由基本大类与由其直接展开的一、二类目所形成的类目表。
(4)详表:由简表展开的各种不同登记的类目所组成的类目表,是文献分类的真正依据。
3.标题语言
标题语言,又称标题法、标题词法、标题词语言、传统主题法。它是以受控的自然语言语词作为标题(标题语言的标志),以先组方式直接表达文献主题或检索课题,用参照系统间接显示标题之间的关系,以事物为中心聚集文献信息,提供字顺检索途径的一种检索语言。
标题语言是主题语言中最早出现的一种语言,目前仍在一定范围内使用。例如,美国《国会图书馆标题表》(Library of Congress Subject Headings,简称LCSH)是国内用于组织西文图书的主题检索工具(系统),提供主题检索途径的一种著名标题语言;美国《化学文摘》(CA)的“索引指南”(Index Guide)是编制和检索CA的“化学物质索引”和“普遍主题索引”所依据的标题语言。标题语言的主要优点是标志系统直观易懂,易扩充,表达主题直接性和专指性强,组配固定,可减少误差,能较好满足特性检索的要求,但也有系统性差,不便于族性检索,表达概念时缺乏灵活性,难以表达较深主题概念等不足。
标题语言的具体表现形式主要是标题表。标题表是标题词的汇编,是对文献进行标题标引和主题检索的依据。
(1)标题表的结构。
一部标题表一般由以下3部分组成。
①编制说明:包括标题表的编制经过、收录标题词的学科或专业范围、选词标准、规范化措施、标题形式、参照系统、词款目著录格式、各种符号的意义、标引规则、标题款目排列法等。
②主表:是标题表的正文,包括全部标题词和非标题词,并有参照和注释,按字顺排列。
③副表:相当于体系分类表中的各种复分表,可利用它们对标题进行细分,所以也叫标题细分表、细目表和子标题表。副表如分类表中的复分表那样,分为通用的和专用的。通用副表有地区细分表、时代细分表、文献类型细分表等。专用副表有地方标题细分表、人物标题细分表、机构标题细分表、著作标题细分表、产品标题细分表、人物标题细分表等。副表中的细目,一般只能作为副标题和标题限定词。地区副表中的国家细目,也可构成主标题。
(2)标题及其类型。
标题(标题词)是作为主题标志的经过规范化的语词或事物的“名”,是指主题标志的具体字面。标题法是按事物集中有关文献的,因此,在一个标题下,常常集中了关于一种事物的许多方面的资料,涉及相当于分类法中的多个类目的范围。例如,在“羊”这个标题下,就可能包括羊的生理、解剖、遗传、选种、育种、繁殖、饲养管理、育肥、饲料、放牧、疾病及其防治、用途以及畜牧经济等方面的资料。这些资料,如果集中在同一个标题下而不加区分,对检索也造成困难,导致甄别量增加,使查准率降低。所以,同一标题下的内容有细分的必要。为了对同一标题下的内容加以细分,为了一些其他目的(如集中同族事物),实践中采用了一些不同的方法,形成了标题的不同类型。
①单级标题。即一个标题仅由一个名词术语构成。它可以是一个单词,称单词标题或元词标题(如“肠”);也可以是一个词组,称词组标题或复词标题(如“肠梗阻”),但都只有一级,所以称为单级标题。
②带说明语的单级标题。例如,“液压传动,用于机床的”;“期刊,化学的”。这相当于一个复词标题。用说明语表达复杂概念比较自由,既能表达事物的特称,也能表达事物的方面,可以达到较高的专指度;但比较冗长,排列次序不够明确。
③多级标题。即在标题下再加标题。例如,“肿瘤——治疗”。横线后的标题称为子标题,用于表示该标题所表示事物的某一方面。子标题之下还可以有子标题,称为次子标题。次子标题下还可以有子标题,称为再次子标题。但一般来说,超过3级的标题形式是很少用的。各级子标题可统称为副标题,第一级标题则称为主标题。子标题、次子标题都必须是规范化的语词,这是区别于说明语的地方。子标题、次子标题的形式比较简明,有明确的排列位置,使同一主标题下的资料比较系统。
此外,还有倒置标题、带限定词的标题和混合标题等多种标题类型。
(3)标题法在信息存储和检索中的应用范围。
①按标题字顺组织卡片式馆藏图书目录。这在国外曾经很普遍,但现在已逐渐被机读目录取代。我国一些图书馆在20世纪50年代以前曾用LCSH组织西文图书主题目录,20世纪90年代以来,LCSH的使用重新受到重视。
②按标题字顺组织检索工具的正文,这种使用方式也很少。但美国的《工程索引》(Ei)在1993年之前就是这样使用的,现在已改为按单个叙词(单词或词组)编排。
③用于编制检索工具的字顺主题索引。这曾是标题法使用比较多的一种方式,但现已用得不多。Ei以前的主题索引是用标题语言编制的;美国BA的概念索引实际上是标题索引,CA的“普通主题索引”和“化学物质索引”也是标题索引。
④构造计算机检索数据库中的主题字段,但其使用方式也趋向叙词语言化。
总之,标题语言在编制和使用上,一方面向叙词语言靠近,另一方面又可用叙词语言来代替(即用若干叙词组合成一个标题)。因此,真正意义上的标题已使用得不多。像《工程索引》的正文和主题索引均已改用叙词语言。
小资料
什么是RSS?
RSS是在线共享内容的一种简易方式(也称聚合内容,Really Simple Syndication)。通常在时效性比较强的内容上使用RSS订阅能更快速地获取信息。网站提供RSS输出,有利于让用户获取网站内容的最新更新。网络用户可以在客户端借助于支持RSS的聚合工具软件,在不打开网站内容页面的情况下阅读支持RSS输出的网站内容。用户一般需要下载和安装一个RSS阅读器,然后从网站提供的RSS目录列表中订阅感兴趣的内容。订阅后,将会及时获得所订阅的最新内容。
4.叙词语言
叙词语言,又称叙词法、主题词法。它是20世纪50年代后期为适应计算机检索需要而发展起来的,在综合了其他多种检索语言原理方法的基础上,以后组式概念组配(不同于字面组配)为基本原理而创制的检索语言。它已成为当今检索语言的主流,许多检索系统(工具)采用的是叙词语言。
(1)叙词语言的构成原理。
叙词法吸取了多种检索语言的原理和方法,包括如下几点。
①它保留了单元词法单词组配的基本原理。
②采用了组配分类法的概念组配来代替单元词法的字面组配,以及适当采用标题法的预先组配方法(采用词组),以克服某些词分拆后再组配时产生意义失真的缺点。
③采用标题法对语词进行严格规范化的方法,以保证词与概念的一一对应。
④采用并进一步完善了标题法的参照系统,采用了体系分类法的基本原理编制叙词分类索引(范畴索引)和等级索引(词族索引),采用了与关键词法类似的方法编制叙词轮排索引,从多方面显示叙词间的相互关系,以保证准确、全面地选用叙词进行标引和检索。
由此可见,叙词语言是多种检索语言的原理和方法的综合,它力图取各法之长而避各法之短,体现了检索语言的发展趋势。叙词语言按其基本性质,是一种采用表示单元概念的规范化语词的组配来对文献信息内容进行描述的后组式词汇型标志系统。
概念组配是叙词法的基本原理。在叙词法所采用的多种检索语言原理和方法中,概念组配决定着它的特点的基本原理。
概念组配与字面组配在形式上有时相同,有时不同;而从性质上来说,两者区别甚大。字面组配,其实质是词的分拆与组合(拆词);概念组配,其实质是概念的分析与综合(拆义)。两者的检索效果有很大差异。例如:
在以上三例中,第一例“脑”和“肿瘤”两词的组配,无论是字面组配还是概念组配,其结果都是“脑肿瘤”。“脑肿瘤”既是“脑”的下位概念(一个方面问题),也是“肿瘤”的下位概念(种概念)。所以,如果用单个词来检索的话,无论用“脑”,还是用“肿瘤”,“脑肿瘤”的文献都不会被漏检和误检。用两个词组配检索,也不会产生误差。
第二例“河北”和“梆子”两词的组配,情况也差不多。但如果单用“河北”一词检索,范围就太广泛。不如用“河北地方剧”一词更符合概念组配原理,也更切合实际的族性检索要求。
第三例“香蕉”和“苹果”两词的组配则不然。根据字面组配原理,“香蕉”和“苹果”的组配是“香蕉苹果”;而根据概念组配原理,这两个词的组配结果应是指“一种香蕉和苹果的杂交品种”,而这样的品种是不存在的,即不符合概念逻辑。如果关于“香蕉苹果”的文献用这两个词来组配标引,则在用“香蕉”这个词单独进行检索时,就会产生误检,因为“香蕉苹果”并不是“香蕉”的一种;而如果用“香蕉”和“苹果”两个词组配,则又可能把兼论“香蕉”和“苹果”的文献检出,但该文献却没有论述“香蕉苹果”。所谓“香蕉苹果”实际上是一种“香蕉口味的苹果”,按照概念组配的原理,这个概念应当用“香蕉味食品”(或“香蕉味水果”)和“苹果”两个词来组配表达,才符合概念逻辑。无论用哪两个词来分别检索或是组配检索,都不会产生误差。
字面组配与概念组配之所以发生差异,有时一致,有时不一致,是由于构词方法是多种多样的,有些构词方法与概念逻辑相吻合,而有些则不相吻合。许多词组是不能分拆或不能随便分拆的。如果简单地把它们拆开,往往有一方不能独立(不具备检索意义)或会失真。由此可见,严格遵守概念组配原则,是使叙词法具有优异性能和高质量的主要保证。
(2)叙词表的结构。
叙词表是提供用以标引和检索的叙词并显示其语义关系、族性关系和使用规则的词汇表,有时又称“主题词表”,是叙词法的具体体现和进行词汇管理的工具。第一部用于信息检索的叙词表是美国杜邦公司于1959年前后编制的。目前世界上有500多种叙词表,中国有60多种叙词表,例如《汉语主题词表》。叙词表主要由编制使用说明、主表、附表、辅助索引等几个部分组成。
①叙词字顺表。叙词字顺表一般是叙词表的主表,它是将叙词和非叙词完全按字顺排列,并有标注事项和显示词间关系的参照系统。利用这种排列表可不考虑概念之间的隶属关系,而仅从表达概念的语词的字面形式出发,直接地找到相当的叙词;或者再通过参照系统,从该词的上下左右间接地找到更恰当的叙词。
②附表。有的叙词表,如《汉语主题词表》,将一些专用叙词,如地理和区域名称、组织机构名称、人物名称等叙词款目独立按字顺编排,作为附表。其结构和功用与主表完全相同,都是标引和检索选择叙词的最终依据。
③辅助索引。为了查词方便,并以多种方式展开叙词之间的关系,叙词表一般都编有下列一种或几种辅助索引。
a.叙词分类索引,也称为分类表或范畴索引,是一种重要的辅助索引。它是将叙词按其概念所属学科或范畴分成若干大类,在大类之下再分成若干小类,在小类之下则将叙词按字顺排列,形成一个类似体系分类表的概念分类系统。这种索引便于从学科或专业的角度来选用叙词,可使叙词法在某种程度上具有分类法的性质。
b.叙词等级索引,也称为族系表或词族索引。它是利用概念的等级关系(概念成族原理)将叙词汇集在一起成为一族,构成一个从泛指叙词到专指叙词的等级系统,可以从一族中外延最广的叙词(族首词)出发,找到一系列同族的叙词,并且可以明确它们之间的层层隶属关系。这种索引可弥补主表族性检索功能差的缺点。
c.叙词轮排索引,又称为轮排表。它是利用字面成族的原理,将有相同单词的词组叙词汇集在一起,排列在该单词之下,从而可以查出含有该单词的某个或全部词组叙词。一个词组叙词由几个单词构成便可轮排几次,在几处都能查到它。这种索引的功能类似词典,查找比较方便。在某种程度上可以弥补叙词法族性检索功能差的缺点。
d.叙词双语种对照索引。它是将主表中的词与其外语译名相对应,提供从外语词字顺查找主表叙词的一种索引。例如,《汉语主题词表》的英汉对照索引。
e.专有叙词索引。如地区索引、人物索引、机构索引、产品索引等。这些索引一般与主表不重复,实际上是主表的一个组成部分。将这些专有叙词单独编成索引,可避免主表庞大,方便查找。
此外,有些叙词表还有正式叙词索引和款目词索引、叙词关系图等辅助索引。
上述辅助索引并不是每种叙词表都具有的。叙词表的结构体系随其学科或专业范围、所用自然语言的语种、收词数量等不同而变化。
(3)叙词语言的应用范围。
①我国的文献信息机构用来组织图书主题目录。这实际上是作为标题语言的代替品来使用。
②用于编排检索工具的正文。这种使用方式不多见,但现在的《工程索引》(EI)正文编排是使用这种方式的典型。
③用于编制检索工具的辅助主题索引。
④在计算机检索的数据库记录中构成主题字段,提供主要检索途径。此时,每个叙词都可以成为检索入口,表达同一主题的不同叙词之间可以响应这些叙词的不同组配方案的检索课题。这是越来越普遍的使用方式。
总之,叙词法既适用于手工检索系统,又适用于计算机检索系统,是目前检索效率较高的情报检索语言。
小资料
什么是马斯洛人类需求五层次理论?
美国心理学家马斯洛1943年发表的《人类动机的理论》(A Theory of Human Motivation Psychological Review)一书中提出了需要层次论:
1.生理需要,是个人生存的基本需要,如吃、喝、住处;
2.安全需要,包括心理上与物质上的安全保障,如不受盗窃的威胁,预防危险事故,职业有保障,有社会保险和退休基金等;
3.社交需要,人是社会的一员,需要友谊和群体的归宿感,人际交往需要彼此同情、互助和赞许;
4.尊重需要,包括要求受到别人的尊重和自己具有内在的自尊心;
5.自我实现需要,指通过自己的努力,实现自己对生活的期望,从而对生活和工作真正感到很有意义。
5.关键词法
(1)关键词与非关键词表。
关键词是指文献的题名、文摘甚至正文中出现的、能够表达文献信息内容的重要语词。用这些词来表达文献信息内容,并编成关键词索引,提供检索途径的方法称关键词法。
关键词法一般不编关键词表,而是相反,编制“非关键词表”或称“停用词表”。非关键词表是将没有检索价值的词,如介词、连词、冠词、代词、感叹词、某些副词、某些形容词、某些名词(如“理论”、“报告”等)、某些动词(联系动词、情态动词、助动词)等,收集起来编成的词表,计算机据以自动排除题名、文摘中的非关键词,从而产生关键词。
(2)关键词法的特点。
关键词法的特点主要有:采用语词作为概念标志,直接从文献题名或文摘、正文中抽取关键词;不编制受控词表,进行词汇控制,不显示词间关系;进行轮排,建立字顺排序体系。主要适用于电子计算机处理和自动标引。主要优点是标引要求低,操作简单,比较容易实现;关键词是自然语言,表达文献主题较直观;参加轮排的每一关键词都是检索入口,可提供较多的检索途径;易于实现自动化,标引速度快。采用关键词法的检索系统是时差最短和最经济的检索系统。主要缺点是词汇质量较粗糙,影响文献检索的查全率和查准率。
(3)关键词索引的类型。
关键词法的原理得到了广泛的应用,出现了多种关键词索引形式,大致可分为两类:一类是带上下文的关键词索引,包括题内关键词索引、题外关键词索引、双重关键词索引;另一类是不带上下文的关键词索引,包括单纯关键词索引、词对式关键词索引和简单关键词索引。
①题内关键词索引。题内关键词索引也称上下文关键词索引。这是最早出现的一种利用电子计算机编排的索引,实现了索引工作自动化。这种关键词索引是将文献标题中的关键词和非关键词都保留,并保持标题原文的词序,使每个关键词都有一次机会轮流排到作为检索词的固定位置(中栏开头),将处于检索词地位的关键词按字顺排列起来,每条款目附文献地址(该文献在文献题录部分的地址)。这样的索引与文献题录结合起来便成为一种检索工具。例如美国《化学题录》索引。
有些题内关键词索引除文献标题外,还从文摘和正文中抽取关键词作为补充,一起参加轮排。例如美国《生物学文摘》的题内关键词索引。
②题外关键词索引。它与题内关键词索引的区别是将关键词的检索位置放在题名之外(左方或左上方)。
③词对式关键词索引。此索引是将关键词进行两个配对,一个作为主标目,一个作为副标目,可以相互交换位置。美国的《科学引文索引》的“轮排主题索引”就是词对式关键词索引。
④纯关键词索引。纯关键词索引是指索引标目中只有若干关键词,不保留非关键词的关键词索引。
⑤简单关键词索引。简单关键词索引是只用一个关键词作为标目的关键词索引,如美国《化学文摘》的索引。
使用关键词检索与使用叙词进行检索的最大不同是检索词是检索者所想到的用来表达检索课题的任何词,而不必经过词表核实。因此,使用关键词进行检索的关键是检索者应该尽可能多地想出表达检索课题的词,并按字顺进行检索;查到某个关键词时,尽量准确判断包含该词的索引款目的含义与检索课题的相关性。
小资料
什么是维基百科?
维基百科(Wikipedia)是由Bomis网站的总裁吉米·威尔士发起的,是一个自由、免费、内容开放的百科全书协作计划,参与者来自世界各地。维基百科既是一个基于wiki技术的多语言百科全书协作计划,也是一部用不同语言写成的网络百科全书,其目标及宗旨是为全人类提供自由的百科全书——用他们所选择的语言来书写而成的,是一个动态的、可自由访问和编辑的全球知识体,也被称作“人民的百科全书”。
6.信息检索语言的发展趋势
(1)自然语言的应用是当今信息检索领域的一种重要发展趋势。
随着计算机在文献信息部门及其他行业应用的日益普及,自然语言检索正在我国流行起来。自然语言的应用是以计算机检索为前提的,不使用计算机,自然语言的检索就难以实现。促使自然语言在我国流行的原因,除了计算机应用的日益普及所创造的各种条件以外,还有:
①自然语言检索本身的某些突出优点。
②国外对自然语言的应用已相当广泛,国外的检索技术可供借鉴;国内以汉语分词技术为主的自然语言研究的进展;某些提供自然语言检索功能的软件的商品化。
③许多单位急于开发文献资源,为了尽快建立数据库,在既缺乏标引力量和充足投资,也无充裕时间按分类表和词表作为仔细标引,又希望数据库成本和定价较低的情况下,单用自然语言虽不能达到高检索效率,但可能是较为可行的选择。或者,在进行人工标引的同时,也提供自然语言检索途径,使数据库更完善,使用更方便。
④国际互联网络和联机检索网络环境。国外数据库现在一般都具备自然语言检索功能。
可以说,自然语言的应用是当今我国信息检索领域的一种重要发展趋势。
自然语言在信息检索中应用的方式很多,其中无标引的文本关键字词匹配检索是自然语言检索最普通的方式。所谓文本关键字词匹配检索,是指数据库中存储的是文本(文献全文或摘要或论文题名),不进行任何标引,检索时则用检索者认为合适的关键性字词,在文本中进行匹配查找,检索表达式可以由词、词的片断或若干词的组配构成。
(2)受控语言将与自然语言紧密结合,信息检索语言将向易用化方向发展。
信息检索语言的易用化,既包括对标引人员的易用性,也包括对检索用户的易用性。易用化,主要是信息检索语言自然语言化、智能化的过程。“傻瓜词表”概念的提出,就生动反映了信息检索用户对检索语言易用性的要求。易用化程度越高,对信息检索语言的功能要求越高,大量的词汇控制、转换等工作将交给计算机后台处理,而交给用户的是直观、易学、易用、智能化的前台。
值得引起注意的是:有效的信息检索必定是受控的。但信息检索过程绝对不能没有控制,信息检索语言的控制原理将依然被保存,但将来的控制模式不再会是现在的控制模式。随着自然语言的流行,传统的信息检索语言受到严重的挑战,于是有人认为自然语言必将取代信息检索语言,其实这是一种片面的认识。自然语言在语词检索、事实检索等方面的确有独特的功能,有利于快速开发数据库产品,但无控制的检索的代价是检索效率大大降低。
关键术语
信息检索技术;信息检索语言;布尔逻辑检索;分类语言;主题语言;叙词表、关键词法。
核心提示
1.计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献的特征标志及其逻辑组配关系进行类比、匹配的过程。
2.传统的信息检索技术主要有布尔逻辑检索、位置检索、截词检索、限制检索和加权检索等。
3.检索语言是信息存储和检索系统的重要组成部分,在检索系统中起着语言保证作用,直接影响着检索效率。
4.检索语言就其实质来说,是表达一系列概括文献信息内容的概念及其相互关系的概念标志系统,由词汇和语法两部分组成。在信息检索中,决定检索效率有4方面的因素,即检索语言的质量、标引质量、检索质量、其他方面的因素。
5.检索语言按照构成原理分为分类检索语言、主题检索语言、代码检索语言。按照标志组合的先后分为先组式语言和后组式语言。
6.自然语言的应用是当今信息检索领域的一种重要发展趋势,受控语言将与自然语言紧密结合,信息检索语言将向易用化方向发展。
课后练习
1.计算机信息检索技术都有哪些?
2.什么是信息检索语言,检索语言都有哪些类别?它们的特点、使用范围分别是什么?
3.信息检索语言的发展趋势如何?