信息检索
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第二章 信息检索

第一节 信息检索概述

一、信息检索的起源与发展

作为信息资源使用者,既需要了解和掌握传统手工检索的方法,也需要熟悉和掌握计算机检索,尤其是网络信息检索的理论和技术,这是信息时代对社会人员信息素质的要求。

(1)手工检索阶段(1876—1954年)

信息检索源于参考咨询和文摘索引工作。较正式的参考咨询工作是由美国公共图书馆和大专院校图书馆于19世纪下半叶发展起来的。到20世纪40年代,咨询工作的内容又进一步,包括事实性咨询、编目、文摘、专题文献检索、提供文献代译。检索从此成为一项独立的用户服务工作,并逐渐从单纯的经验工作向科学化方向发展。

(2)脱机批量处理检索阶段

1954年,美国海军建立了世界上第一个计算机检索系统,虽然只是批处理试验系统,仅包括文献号和少量检索词,却是计算机技术应用于信息检索的首创。这也预示着以计算机检索系统为代表的信息检索自动化时代的到来。单纯的手工检索和机械检索都或多或少显露出各自的缺点,因此极有必要发展一种新型的信息检索方式。

(3)联机检索阶段(1965年—20世纪70年代初)

1965年美国系统发展公司研制成功BIT联机情报检索软件,开始了联机情报检索系统阶段。与此同时,美国洛克公司研制成功了著名的Dialog检索系统,向全美提供联机信息检索服务。

(4)国际联机检索阶段(20世纪70年代—20世纪90年代初)

20世纪70年代卫星通信技术、微型计算机以及数据库产生的同步发展,使用户得以冲破时间和空间的障碍,实现了国际联机检索。计算机检索技术从脱机阶段进入联机信息检索时期,实现了跨国联机检索,成为社会上“信息产业”的一部分。它打破了时间和空间的限制,为快速获取全球性科技资料和经济信息提供了十分方便的条件,从而极大地提高了信息的可获得性和利用价值。

(5)网络信息检索(1991年至今)

20世纪90年代是联机检索发展进步的一个重要转折时期。随着互联网的迅速发展及超文本技术的出现,基于客户服务器的检索软件的开发,实现了将原来的主机系统转移到服务器上,因特网已成为世界最大的信息资源宝库,信息检索进入了一个崭新的时期,各种网上检索工具应运而生,计算机检索进入了一个多媒体时代。多媒体技术将文字、声音、音乐、图形、图像、动画,以及视频等各种信息加以数字化,再辅以现在流行的触摸频技术,即使从未使用过计算机的人,也可以非常方便地操作计算机,获取自己所需的信息。

二、信息检索概念

信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。于光.信息检索[M].北京:电子工业出版社,2010:18.广义中信息检索则是信息存储的逆向过程,信息检索必须先有信息存储,而信息存储就是为了更快捷地查找信息。狭义的信息检索为“信息存储与检索”的后半部分,对于信息用户来说,信息检索仅指信息的查找过程,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。同上。

信息检索根据检索对象的不同,可分为数据检索、事实检索、概念检索、文献检索四种。

(1)数据检索(Data Retrieval)

数据检索是以文献中数据为对象的一种检索,是将经过选择、整理和评价(鉴定)的数据存入某种载体中,并根据用户需要从某种数据集合中检索出能回答问题的准确数据过程或技术。经检索出的数据能回答一个确定的数据或数据范围。例如,查找地理信息系统中空间数据、空气湿度、化学分子式,某一数学公式、数据图表,某一种产品的性能、价格,某化学分子式,某种设备如汽车、手机的型号与参数等,都属于数据检索的范畴。例如,它可以回答“长白山的海拔高度”“2010年中国人口增长率是多少”之类的提问。

(2)事实检索(Fact Retrieval)

事实检索是以特定的事实为检索对象。凡是对某一事物、事件、主题的事实情况进行查询均属事实检索。广义的事实检索既包括数值数据的检索、算术运算、比较和数学推导,也包括非数值数据(如事实、概念、思想、知识等)的检索、比较、演绎和逻辑推理。它要求检索系统不仅能够从数据(事实)集合中查出原来存入的数据或事实,还能够从已有的基本数据或事实中推导、演绎出新的数据或事实。例如,查找第三届中国好声音比赛从开始至结束的时间、参赛人数、竞赛规定、具体导师等,电热水器哪些厂家生产、哪个牌号最好,中国所有985高校简况、分布等,均属于事实检索。事实检索回答一个确定的事实。

事实检索是情报检索的一种类型。例如,该系统中存储有如下事实:①杨洋是贵州师范学院的学生。②贵州师范学院的学生都必须学古汉语。如果该系统是一个事实检索系统,则它应当能回答某用户提出的“杨洋学古汉语吗?”这种问题。事实检索是情报检索中最复杂的一种。它允许用户用自然语言提问,并能用自然语言作答。更重要的是,系统必须具有一定的逻辑推理能力和自然语言理解功能。

(3)概念检索(Concept Retrieval)

概念检索就是查找特定概念的含义、作用、原理或使用范围等解释性内容或说明。最常见的传统概念检索是各种参考工具,如字典、百科全书、名录、手册、指南等参考工具书。

传统检索的核心是关键词的机械式匹配,只要发现某个网页或文献资源中含有这个关键字符,就将该网页或文献作为查询结果返回给用户,还可以结合布尔逻辑运算提供更为复杂的查询表达方式,但都是以关键字符匹配为基础的,由于参与匹配的是字符的外在形式,而不是它们所表达的概念,所以会出现检索不全,答非所问的结果。概念检索是一种突破了机械式匹配局限于表面形式的缺陷,从词所表达的概念意义层次上来认识和处理用户的检索请求的检索方法。在查询有关“期刊”的信息时,输入“期刊”作为关键字,所得到的结果中一定含有“期刊”但期刊实际上是头脑中形成的一个概念,“期刊”只是一种表达方式,“杂志”“连续出版物”都可以表达相同的概念,再比如“计算机”,也可称作“电脑”“微机”,但却由于词形上的差异不能满足关键词匹配的要求,不能在结果中出现。另外,随着地域的改变,对同一概念的表达也会不同,如贵州人说的“炖肉”,深圳人却表达为“煲汤”。现代化的概念检索可以实现语义蕴涵扩展、语义外延扩展、语义相关扩展,如检索“期刊”,相应的“杂志”“连续出版物”都概念能相应检索出来,能够提供比传统检索更为智能化,知识化的服务。

(4)文献检索(Document Retrieval)

文献检索是以文献为检索对象,是将存储于传统文献或数据库中的关于某一主题文献的线索查找出来的检索,是从一个文献集合中找出专门文献的活动、方法与程序。因此它是利用检索系统或工具查找文献线索,获取查询信息的过程。本质是文献需要与文献集合的匹配。以前通常通过目录、索引、文摘等二次文献,以原始文献的出处为检索目的,可以向用户提供有关原文献的信息。有的书中又称它为“书目检索”。随着现代网络技术的发展,文献检索更多是通过计算机技术来完成。凡是查找某一课题、某一著者、某一地域、某一机构、某一事物的有关文献的出处和收藏单位等,均属于文献检索的范畴。例如,要查找有否与“中国毛南族婚姻习俗”相关的文献,以及相关文献的出处为何处,即属于文献检索。文献检索是一种相关性的检索,带有很大的不确定性。