第四节 检索工具的类型与功能
一、检索工具的定义与类型
检索工具是人们用来报道、存储和查找各类信息的工具。包括传统的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。
按照检索手段的不同,检索工具可分为手工检索工具、机械检索工具和计算机检索系统。按照著录形式的不同,可分为目录型检索工具、题录型检索工具、索引型检索工具、文摘型检索工具、全文型检索工具等。
按照载体形式的不同可分为书本式检索工具、卡片式检索工具、缩微式检索工具和机读式检索工具等。
检索工具是随着信息检索技术的不断发展而发展的。随着时间的推移,有些检索工具曾在一定历史时期为信息检索的发展做出过重要贡献,但已经完成了历史使命而现在不再使用了,例如机械检索工具在当前信息检索利用中已经很少使用了。
(一)手工检索工具
手工检索工具是传统的检索工具,主要是各种类型的工具书。工具书是人们根据一定的需要,广泛收集某一范围的有关资料,按特定体例或方式编排,提供基本知识和文献线索的一种特殊类型的图书,是检索文献信息的重要工具。根据工具书的体例和功用,可分为检索类工具书、词语类工具书、资料类工具书、表谱类工具书、图录类工具书和边缘类工具书六种类型。
(二)检索类工具书
按著录内容划分,检索类工具书大致可分为以下四种:目录、题录、文摘、索引。目录(Bibliography/Catalogue)通常是以文献的“本”“种”“件”等为单位,对一批相关文献外表特征的揭示和报道。例如:《全国新书目》《全国总书目》《全国报刊简明目录》等。题录(Title)报道和揭示单篇文献的外表特征,是在目录的基础上发展起来的一种检索工具。它与目录的主要不同点在于著录的对象不同,目录的著录对象是整部文献,而题录的著录对象是文献中的论文或部分内容。例如:美国《化学题录》、《中文科技期刊题录数据库》等。文摘(Abstract)是系统著录、报道、积累和揭示文献信息外表特征和内容特征的检索工具,是重要的二次文献。它是对文献中的论文或内容进行浓缩,概括地描述其主要论点、数据、结论等,并注明其出处,按一定的规则编排起来的一种检索工具。文摘分三种:指示性文摘、报道性文摘和评论性文摘。例如:《新华文摘》《经济学文摘》等。索引(Index)是将文献信息中的题名、人名、地名、字句及参考文献等分别摘录出来,并注明出处,按一定的规则编排起来的一种检索工具。例如:《经济科学论文索引》《社会科学引文索引》(Social Science Citation Index, SSCI)等。
(三)词语类工具书
词语类工具书包括各类字典、词典,主要提供字词的形、音、义和使用方法,以及学科名词术语的含义、演变和发展。字典以字为单位,按一定次序排列,说明形体、读音、意义和用法;词典,也作辞典,以词语为单位,按一定次序排列,解释词汇的概念、含义和用法。例如:《辞海》《汉语成语大词典》《社会科学大词典》等。
(四)资料类工具书
资料类工具书能够为读者提供各种基本知识或某一课题的具体资料。主要包括百科全书、年鉴、手册、名录、类书、政书等。
百科全书是人类知识的总汇,是记录人类知识最全面、最系统的大型综合性工具书。它概述了人类一切知识领域的基本资料,对每一学科提供定义、原理、方法、历史及现状、系统和参考书目等方面的资料,被誉为“工具书之王”“没有围墙的大学”。年鉴是汇集一年内时事动态、学科发展和各项统计资料等重要资料,按年度出版的工具书。手册也称指南、便览、大全等,是把某一学科或某一专题的概括性又具体实用的知识、资料和数据汇编在一起。名录是专门收录人名、地名、机构名以及其他事物名,按照一定规则进行排序,并予以简要揭示和介绍的工具书。类书是收录古代文献资料,按类别或韵目编排,提供检索、征引使用的工具书。政书是汇集历代或某一朝代的政治、军事、经济、文化、外交等方面的法律、法令和法规制度史料的工具书。
(五)表谱类工具书
表谱类工具书是以表格或其他较为整齐的形式,记录史实、时间、地理等资料,并附以简略的文字说明,以反映史实和时间。主要包括年表、历表和专门性历史表谱3种类型。年表是按年代顺序编制,专供查考历史年代、历史纪元及历史大事的检索工具,如《中华人民共和国大事记》等。历表是一种把不同历法的历日按一定的次序汇编在一起,以相互对照的表格,提供查找和换算不同历法的年、月、日的工具书。专门性历史表谱主要用于查考人物、职官、地理和数据等专题资料,如《中西回史日历》等。
(六)图录类工具书
图录类工具书是以图形、图像、符号等为主体,附以简略的文字说明,以反映各种事物、人物的空间特征和形象特征的工具书。它包括地图、历史图录、文物图录、人物图录、艺术图录、科技图像等。地图是地球表面自然和社会现象在表面图上的缩影,以反映各种事物和景象的地理分布及其在空间与时间上的相互制约、内在联系和发展动态。历史图录是以图形、图像等揭示历史人物和事物的工具书。
(七)边缘类工具书
边缘类工具书主要指那些介于工具书与非工具书之间,既具有一般图书的阅读功能,又具有工具书的查检功用的文献。它主要包括资料汇编、史书、方志等。资料汇编有针对性地摘编文献信息的片断或全文,按专题或学科分类编排,提供读者阅读或查检。包括法规资料汇编、条约资料汇编、统计资料汇编等。
(八)机械检索工具
机械检索工具是手工检索工具向计算机检索系统过渡的中间检索工具。它主要包括两种类型:机电检索工具(如打孔机)和光电检索工具(如缩微机)。机械检索工具利用机械装置改进信息资源的存储和检索方式,但是只能对某一固定存储形式的信息资源进行特定检索,过分依赖于设备,检索操作复杂,成本很高,并且检索质量和效率也不理想,所以很快被计算机检索系统所取代。
二、数据库
数据库是发展历史最久、影响最广的一种电子信息资源,它产生于20世纪50年代末60年代初,在70年代得到迅速发展,到80年代逐步走向成熟。进入80年代后期,世界上一些著名的联机数据库系统将过去以提供书目与索引等二次文献服务为主变为以全文数据库、数值数据库为主,提供的信息内容除了书目、索引外,几乎涉及了自然科学、社会科学和人文科学的各个领域,尤其侧重经济领域的经济信息、产品信息、金融信息、专利信息和各类标准的提供。数据库是计算机检索系统的信息源和核心。
(一)数据库的概念
数据库(DB, Database)是长期储存在计算机内,有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度,较高的数据独立性和易扩展性,并可在一定范围内为各种用户所共享。数据库、数据库管理系统和数据库系统是三个不同的概念。
数据库管理系统(DBMS, Database Management System)是位于用户与操作系统之间的一个数据管理软件,它的基本功能包括:①数据定义,用户通过它可以定义数据库中的数据对象;②数据操纵功能,使用它可以实现如插入、删除和修改等数据库的基本操作;③数据库的运行管理,包括数据的安全性、完整性、多用户对数据的并发使用及发生故障后的系统恢复;④数据库的建立和维护等。
数据库系统(DBS, Database System)是指在计算机系统中引入数据库后构成的计算机应用系统。数据库系统一般由数据库、操作系统、数据库管理系统及相关管理工具、应用系统、数据库管理员和用户构成。
(二)数据库的类型
数据库的类型多种多样。数据库有网状数据库、层次数据库、面向对象数据库、Web数据库、多媒体数据库、移动数据库、智能数据库、实时数据库、并行数据库、分布式数据库、联邦式数据库、模糊数据库、演绎数据库和统计数据库等。数据库的划分根据不同的标准有不同的结果。
1.按信息处理层次划分
按信息处理层次,可分为书目数据库、文摘数据库和全文数据库。
(1)书目数据库
存储对文献信息进行加工后的书目数据,提供文献信息外表特征的查询。如图书馆联机公共检索目录(OPAC),是一种通过联机书目检索,以实现图书馆书目信息资源共享的现代化检索系统,借助图书馆或情报中心的OPAC,用户可以在任何时间、地点检索该机构的馆藏目录。
(2)文摘数据库
存储原文经过浓缩后所得的文摘、索引等信息,主要提供各种文献信息的题名、责任者、原文出处、主题词及文摘,一般不提供全文。如CSCD、Web of Science等。
(3)全文数据库(Fulltext database)
全文数据库是将文献全文以机读版的形式存储起来,并可与相应的软件配合提供文中检索和全文输出的数据库。全文数据库的类型,按出版方式可分为:与印刷型文献平行出版的全文库、纯电子出版物;按存储内容可分为直接原文型和摘录型;按应用领域可分为法律法规全文库或条法库、期刊文献全文库、商情全文库、新闻消息全文库和医学文献全文库。
1959年美国匹兹堡大学最早建立了法律全文检索系统,1973年美国米德数据控制公司的全文数据库LEXIS投入使用,开创了情报检索新阶段。目前Dialog系统已有86个全文数据库。我国较早建立的全文数据库有:深圳大学的《红楼梦全文数据库》、上海交大的《法律条目全文数据库》、《人大报刊复印资料》全文数据库、《中国学术期刊》全文数据库等。
2.按照收录的文献类型划分
分为期刊论文数据库、书目及图书全文数据库、专利数据库、学位论文数据库和产品数据库等。
3.根据收录文献信息的范围划分
分为综合性数据库和专业性数据库。
4.按媒体信息划分
分为文本数据库、数值数据库、声音数据库、图像数据库、视频数据库和多媒体数据库。
5.按服务模式划分
分为单机数据库、联机数据库和网络数据库。
(三)数据库的结构
数据库一般由文档、记录、字段这三个自上而下的层次构成。
1.文档(File)
文档是数据库中数据组织存储的基本形式,是数据和信息的有序集合,由若干条记录组成,一个或若干个文档构成一个数据库。通常一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是按文献记录的输入顺序(即文献序号)排列的文档,又称为主文档。它将全部记录按照存取号的大小顺序依次排列形成文献信息集合,是数据库的主体内容。但是,在顺排文档中检索,对每个检索式都得按顺序从头到尾进行扫描匹配,存贮的记录愈多,扫描的时间愈长,从而会严重影响检索的速度。为此,倒排文档应运而生。倒排文档是把顺排文档中的标引词抽出,按标引词的字母顺序依次排列而成的文档。每个标引词在顺排文档中的不同物理地址构成倒排文档中该标引词的地址集合。它既可以按不同类型的字段分别组织不同的倒排文档(如主题词倒排文档、作者倒排文档等),也可以把不同的字段组成一个混合倒排文档。如果将顺排文档看作是某种印刷型检索工具的正文部分,那么倒排文档就相当于它的辅助索引。二者的区别在于:顺排文档以完整记录作为处理和检索的单元,倒排文档以记录中的字段作为处理和检索的单元。倒排文档数量越多,检索的途径就越多。
2.记录(Record)
记录是数据库的基本单元,是对某一实体属性进行描述的结果。一个数据库可以有一个或多个文档,一个文档由若干条记录构成,而一条记录由若干字段组成。在文摘数据库中,一条记录相当于检索刊物中的一条文摘款目。
3.字段(Field)
字段是记录的基本组面的信息,组合在一起形成对一篇文献信息的内容特征和外表特征的完整描述。在文摘数据库中,一条记录应包含原始文献的题名、作者、出处、出版时间、分类号、文摘、主题词或关键词等字段。每一个字段都有一个相应的标识符,以便计算机识别。
(四)计算机检索系统
计算机检索系统是借助计算机技术、通信技术、光盘技术、网络技术等信息技术建立的存储和检索信息的检索工具。检索系统由硬件和软件组成,硬件主要包括计算机主服务器、检索终端、数据输出设备等。软件主要包括检索程序和数据库等。检索软件是检索系统的灵魂,负责管理数据库和处理检索提问,它决定系统的检索能力。数据库是检索系统的信息源和信息存储仓库,是检索作业的对象。存储时,将大量的各种信息以一定的格式经加工处理后输入可供检索的数据库。检索时,将符合检索需求的提问式通过检索终端向检索系统发出请求,检索系统在选定的数据库中执行匹配运算,然后将符合要求的检索结果按一定的格式输出。
计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。
1.光盘检索系统
光盘检索系统是指利用计算机、光盘驱动器和光盘数据库及其检索软件建立起来的信息检索系统,由计算机、光盘数据库、检索软件等组成。光盘最初是由荷兰菲利浦公司和日本索尼公司共同研制的密集只读光盘存储器,20世纪80年代中期研制成光盘检索系统。除了单机光盘检索系统,目前国内普遍采用光盘网络检索系统,它是由光盘服务器、计算机局域网、光盘库或光盘塔、检索软件等组成。
根据光盘刻写次数,光盘可分为只读光盘(CD-ROM, Compact Disc-Read Only Memory)、只写式光盘(CD-R, Compact Disc-Recordable)和可擦写磁光盘(CD-RW, Compact Disc-Rewritable)三大类。
与手工检索相比,光盘检索的可检信息量大,一套《四库全书》印刷版有3000多册,而光盘版10多张盘片即可容纳下。光盘检索功能强大,检索入口多,检索速度快,检索及输出灵活方便。与联机检索相比,光盘检索价格低廉,检索方法简单容易,规格统一,容易复制,便于保存。其缺点是时效性不够,检索范围受光盘数据库的限制,更新不够及时,一般是定期更新(快则1个月,慢则1年),因此信息的获得比国际联机检索慢。
2.联机检索系统
联机检索(Online Retrieval)是20世纪60年代发展起来的一种提供人机对话的检索技术,是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信网络,与本地计算机检索系统或远程计算机检索系统的主机连接,从而检索世界各地存储在计算机数据库中的信息资料。联机检索系统是一个典型的计算机检索系统,能完成数据收集、分析、加工处理、存储、传递通信和检索信息的全过程,由联机服务中心的主计算机、检索终端、通信网络、联机数据库、检索软件等组成。我国国内用户采用该方法查找国外计算机检索系统中的信息被称为国际联机检索。目前国际联机检索系统大约有600多个,其中著名的国际联机检索系统有:Dialog系统、STN系统、ORBIT系统、ESA系统等。我国自1980年首次开通国际联机情报检索业务起,目前已经在50多个城市建立了130个国际联机检索终端,并通过国际卫星与国外12个国际联机情报检索服务系统联机。
联机检索系统主要有以下四种服务方式:
(1)回溯检索(RS, Retrospective Search)
回溯检索是用户对检索系统中积累多年的文献信息数据库进行检索,查找一定时间范围内或特定时间以前的文献信息的一种联机检索方式。通过RS进行专题检索或情报调研,可全面系统地了解有关文献信息的线索。
(2)定题检索(SDI, Selective Dissemination of Information)
定题检索是指在回溯检索的基础上,定期从文献数据库中检索出回溯检索日之后出现的新的文献信息的一种联机检索方式。具体地说,是由检索人员将用户的信息需求转换成一定的检索提问式,存入计算机中,检索系统定期从新的文献信息中为用户检索,并按用户指定的格式加以编排和打印的过程。利用SDI服务,用户可定期获得所需要的最新信息,及时掌握同类专题的动态和进展。
(3)联机订购
联机订购联机检索的结果通常是一些文摘或题录形式的二次文献。联机检索系统可以为用户提供原始文献的联机订购服务。
(4)电子邮件
联机检索系统为用户提供E-mail和电子邮件的功能。用户输入E-mail号码和通信内容,就可以在几秒钟内接收到本需耗时几天的信件投递。电子邮件功能可以满足用户与系统之间、用户与各机构之间、用户与用户之间发送、接收、存储各种信息的需要。
联机检索系统的优点是数据库数量大,检索全面;检索功能强大;检索速度快,检索途径多,方便灵活;内容新,实时性强;可共享性好,安全性强;完善的检索辅助功能(人机对话、检索结果输出方式灵活、输出格式多样并可以联机订购原文)。其缺点是检索系统及其文档(数据库)的收录、标引等规则较为复杂,检索技术和技巧不易掌握,设备要求高,检索费用昂贵。
3.网络检索系统
网络检索是指通过因特网检索和获取网上电子信息。网络检索系统是通过因特网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系统。一般由计算机服务器、用户终端、通信网络、网络数据库等组成,其特点是方法简单、灵活、方便、时效性强、费用低。网络检索系统与联机检索系统最根本的不同在于网络信息检索是基于客户机/服务器(Client/Server)的网络支撑环境的,这是目前计算机网络运行的主流支撑环境。
早期的网络检索工具主要是基于传输和下载网上信息,包括远程登录(Telnet)、文件传输服务(FTP)、电子邮件(E-mail)、电子公告栏(BBS)、新闻组(USENET)等。
FTP获取信息资源的最大问题是查找需要的资料必须预先知道这些资料存放在哪个文件服务器中,随着FTP服务器的增多,这个问题变得越来越严重,于是人们就开发出Archie、WAIS、Gopher系统,以解决寻找FTP资源的困难。
Archie Server又称为文档查询服务器,是检索匿名FTP资源的工具。为了从匿名FTP服务器上下载一个文件,用户必须知道这个文件的所在地,即必须知道该文件存放在哪台服务器的哪个目录上。Archie就是帮助用户在因特网的FTP服务器上寻找文件的工具,用户只要知道所要查找文件的全名或部分名字,Archie Server就会查找在哪些FTP服务器上存放着这些文件,然后用户可以使用FTP软件下载该文件。WAIS(广域消息服务)是一种数据库索查询服务。Archie所处理的只是文件名,而WAIS则可以对文件内容进行查询。Gopher是基于菜单驱动的因特网文本信息检索工具,提供的信息仍然有限。
具有WWW检索功能的检索系统是随着网上巨量信息的出现而开发的,常用的如网络数据库检索系统、搜索引擎、多媒体信息检索系统等。