第三节 信息检索的步骤
信息检索是从确立检索需求到信息满足的过程。其检索的全过程大致可分为分析课题与确定检索要求、选择检索方式与检索工具、确定检索途径与方法、优化检索提问与策略、检索结果整理、获取原文六个步骤。
一、分析课题与确定检索要求
分析课题是检索的准备阶段,要求分析仔细、全面。
首先,明确检索需求,确定最终要获得的信息的文献资源的相关信息,如:信息要求是数据、事实还是相关文献;信息最终的出版形式是图书、期刊还是其他,这可根据10类出版形式的特点来确定;信息的语种是中文还是其他语种;时间是当年还是其他年代;需要的是原文信息还是一次信息、加工过的二次信息或只需一些相关线索;检索的侧重点重在查全还是查准;等等。
其次,对课题概念进行分析,归纳出检索需要的外部的或内部的特征线索,如分类号、主题词、关键词、人名、机构名、地名、代码及专业术语等。
二、选择检索方式与检索工具
在确定是通过手工检索还是计算机检索的基础上,根据检索目的和信息需求选择最恰当的权威的检索工具、参考工具或数据库。任何检索工具都是针对特定的目的和读者群编制的,检索工具选择是否适当将直接影响到检索效果的好坏。
要根据课题确定是选择参考工具书,还是检索工具。参考工具书,如年鉴、手册、名录、百科全书、词典等,种类多,各有自己的适用范围,可满足对数据与事实的检索需求;而检索工具用于对文献类信息的查找,根据所需信息被加工的深度再进一步选择是一次信息检索工具或是二次信息检索工具,后者指引人们从书目、索引等检索工具中找到所需文献的线索,但不提供所需信息或事实本身。具体的如在计算机检索中是选择全文型数据库还是文摘型数据库,使用检索工具的光盘版还是网络版等。
三、确定检索途径与方法
根据分析出的主题的外表与内容特征确定检索的途径。题名、著者、分类、主题及代码等都是信息检索的途径,但外表特征所形成的途径所检信息是特定的,不全面,而从主题与分类途径所检信息面广,相关信息多,因而检索途径选择的不同,所获得的检索效果也将不同。这就需要根据检索需求利用一种或多种检索途径配合使用,同时在计算机检索系统中还要考虑到检索系统能否支持等因素。
在确定检索工具后就需确定检索要采用的主要的检索方法,如确定是从信息源的正文中还是从参考文献中去获取,这就涉及是否使用引文法和相关的引文索引;根据对所检信息时间性的要求又可确定选用由近及远还是由远及近地查找,同时注重各种检索系统所提供的检索技术是什么,针对课题应选用几种。在数据库检索中要用高级检索、二次检索和多种下拉菜单的限制选择来缩小检索范围,提高检准率,又要利用相关与相近概念以及扩检技术来达到高的检全率,充分体现检索方法与技术在检索过程中对结果的质量与范围的控制。
四、优化检索提问与策略
除直接利用自然语言检索外,用户的需求是通过检索提问式表达的。目前支持自然语言检索的多为外文检索系统,中文的检索系统还没有完全支持自然语言检索,所以对国内用户来说要使用自然语言检索首先还需无语言障碍,故科学地将表达检索要求的词语构造成检索提问式就显得非常重要,它是检索技能的综合体现。编制检索提问式要综合、灵活地运用计算机检索系统提供的组配、限定、加权、扩展、截词等多种检索功能构造表达式,获得第一次查检结果,若满意度高则可不调整检索策略,若不满意或满意度不高就需要做调整。在过去手工检索年代,由于受到检索方式的限制,在得到一次检索结果后对检索策略调整的可能性很少,而对检索策略调整是计算机检索的优越性所在,所调整的方面包含对检索途径、检索工具、检索方法与检索技术的选用调整,从而获得最佳的检索效果。
五、检索结果整理
传统的检索过程在获得一批相关检索结果后便算检索任务完成,而现代的检索强调的不只是获得知识信息,更注重对结果的分析、整理、组织与重组,因为获得的检索结果往往是凌乱的、不系统的,存在交叉和重复甚至是互相矛盾的情况,这就要求对它们加以分析,去粗取精、去伪存真,提取有用的信息。
(一)对资料进行鉴别、比较
对搜集来的原始资料进行质量上的评价和核实:
(1)判断结果与查找主题的真伪,若资料本身不真实则应舍去,有时也可作为反证的证据;
(2)判断是否全面,若不全则调整检索策略,进行二次或三次检索;
(3)判断相关的程度,对最相关信息加以详细研究,部分相关的取相关部分,不相关的则舍去。
判断的过程也是一种研究学习的过程,可以产生许多新的灵感。对结果的整理,最简单也最常用的资料整理方法是利用分类的方法,我们可就以下几方面对结果加以分类:
①将与主题相关的信息内容集中,不相关信息作为备用记录或舍去;
②将论点与论据信息分别汇总,便于调用信息;
③将马上要用到的信息与以后可能用到的信息分开,并作简要说明。
(二)比较分析
比较分析即运用科学的分析方法和研究方法对所占有的信息资料进行分析,研究特定课题的现象、过程及内外各种联系,找出规律性的东西,构成理论框架,把所占有的信息转化成自己的东西。
检索的过程是对信息综合查找与分析利用的过程,在不具备很高检索技巧的情况下通常需经过多次反复实践以上五个步骤才能获得比较满意的检索结果,因此检索中我们要实践、实践、再实践。
六、获取原文
(一)识别原文的特征信息
尽管我们有时需要的是关于原文的线索与综述,但从普遍的检索目的来讲是为了获得原文信息。通过检索工具处理加工过的信息具有一些特定的标识、格式与特征,要想获取原文首先要能认识与识别各种检索工具的著录格式以及打印输出格式。在手检工具中不同的工具均有自己固定的格式,如SA、CA、KI对期刊的著录格式均不相同。在网络数据库检索中不同的库,其输出的格式也不同。下面两项是获得原文关键性的特征。
1.出版物名
在检索工具中,出版物名通常以缩写的形式出现,要获取原文需利用附录中或者单独出版的出版物一览表(出版物索引、摘引期刊等)来转换为全称。中文、日文、俄文刊名在英文文摘中一律采用拉丁文音译著录,故在翻译时应首先将缩写刊名还原为全称,然后查阅有关音译转化工具书。
2.文献类型
中文检索工具常使用专利、会议、图书、标准等标识区别不同的文献类型。西文检索工具中文献类型的区分则主要依据各种文献所特有的标识来识别,如:凡有ISSN、年份、卷期号(多用Vol, NO.表示)的一般是期刊论文;有专利代码的是专利文献;有出版商简称和出版地、出版年、ISBN号的是图书;有会议类属词(Proceeding、Conference、Meeting、Symposium、Workshop、Colloquium及Con, entlon等)及主办单位、召开地点及时间特征的是会议报告;科技报告有收集科技报告的机构或编写科技报告单位的代号;学位论文有学位名称、导师姓名,授予学位的大学名称、地点与授予年份等;标准有Standard、Specification等。检索刊物前的缩略语及符号一览可供参考。计算机检索可依据打印单上文献类型字段中的代码鉴别出版物类型。
(二)获取原文的途径
获取原文的途径有四种:一是利用本单位图书情报获取原文;二是利用联合目录通过协作获取原文;三是利用全文数据库直接下载全文;四是利用检索结果中提供的著者或出版机构的E-mail地址,与之联系获取原文。前两种方式在手工检索或计算机检索中均可使用,后两种方式只能在计算机检索状态中实现。