大学图书馆信息服务与信息素养教育理论与实践研究
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第二节 搜索引擎的起源和分类

搜索引擎(Search Engine)是互联网上专门用于信息搜集、信息组织和信息检索的一种工具。它是基于Web平台提供网络信息检索服务的工具,因此广义上可以说,搜索引擎是指在互联网上或通过互联网能够响应用户提交的搜索请求,返回相应查询结果的信息技术和系统,这里所说的信息可以是任意的信息,如网站信息、商品信息等。从狭义角度上来看,Search Engine主要是利用网络自动搜索软件,对Internet网络资源进行收集、整理与组织并提供检索服务的一类信息服务系统。

一、搜索引擎的起源

Archie是一个可搜索的FTP文件名列表,1990年,蒙特利尔大学学生Alan Emtage发明了Archie,虽然当时World WideWeb还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便。因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。美国内华达System Computing Services大学的研究员受到Archie的启发,在1993年开发了另一个与之非常相似的搜索工具Veronica,不仅能检索文件,还能检索网页。美国犹他大学也随即推出了另一个检索工具Jughead。

虽然Archie、Veronica、Jughead等这些检索工具虽然算不上是真正意义上的搜索引擎,但作为网络信息搜索的探索和先驱者,它们为后来搜索引擎的研制积累了宝贵的经验。

1994年前后,网络上出现了最早的一批搜索引擎系统,至此,搜索引擎进入了快速发展阶段。最初的搜索引擎在解决信息查询问题时主要采取两种不同方式:一种主要采用关键词检索方式提供信息查询,如Alta Vista、Excite;另一种采用分类目录浏览方式服务于用户,如Yahoo。随后的几年中,一些著名的全文搜索引擎收集网页的数量已经达到千万计,提供的检索功能和一些附加服务功能也有了很大的提高。

1998年以后,随着Google、AnTheweb等功能更为强大的新一代全文搜索引擎的出现,网络搜索的范围已达数十亿网页,并且在搜索速度、准确性和服务功能等方面有了更加显著的进步。

目前,互联网上的搜索引擎非常多,其检索的信息量也与从前不可同日而语。随着互联网规模的急剧膨胀,一家搜索引擎已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商,如国内的百度就属于这一类,搜狐和新浪用的就是百度的技术。它们也被称作是搜索引擎的搜索引擎。

二、搜索引擎的发展方向

(一)更精确的搜索

搜索引擎技术本身的一个最重要的发展方向是提供更精确的搜索。当前的搜索引擎很多是关键词搜索,不能处理复杂语义信息,功能比较强的也只能提供一些基本的条件组合查询功能和简单的语义查询。要想大幅度提供搜索引擎和搜索结果的准确度,必须建立在对收录信息和搜索请求的理解之上,即必须处理语义信息。未来人工智能技术将在搜索引擎方面大有作为。

(二)个性化搜索

提高搜索精确度的另一方面是提供个性化搜索,也就是将搜索建立在个性化的搜索环境之下,个性化将使搜索更符合每个用户的需求,而不仅仅是准确度。

(三)更专业化的搜索引擎

各种专业搜索引擎和专门信息搜索引擎如雨后春笋般迅速发展起来。专业化的搜索引擎在提供专业信息方面有着大型综合引擎无法比拟的优势,它可以在某一个专业面上做得更好、更完善。

三、搜索引擎的分类

搜索引擎按其工作方式主要可分为3种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Index/Directory Search Engine)和元搜索引擎(Meta Search Engine)。

(一)全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外最具代表性的有Google、Fast(All the web)、Alta Vista、Inktomi、Teoma、Wise Nut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库。检索与用户查询条件匹配的相关记录,并且按一定的排列顺序将结果返回给用户。

从搜索结果来源的角度,全文搜索引擎又可细分为两种:一种是拥有自己的检索程序,俗称蜘蛛(spider)程序或机器人(robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的Google等搜索引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。

(二)目录索引类搜索引擎

目录索引类搜索引擎虽然有搜索功能,但在严格意义上讲,它算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。目录索引类搜索引擎中最具代表性的莫过于雅虎。其他著名的还有Open Directory Project、Looksmart、About等,国内的搜狐、新浪、网易搜索也都属于这一类。

(三)元搜索引擎

元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中最具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

(四)集合式搜索引擎

集合式搜索引擎,能同时运用多个搜索引擎的搜索能力来实现搜索,查找更多的网址。集合式搜索引擎避免了人们为某一检索课题在多个单一引擎或目录上一次次地进行检索,同时还要将每次结果进行比较筛选等的烦琐工作。如HotBot在2002年底推出的引擎,该引擎类似Meta搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎中选择,因此称它为集合式搜索引擎更确切些。

(五)门户搜索引擎

如AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。

(六)免费链接列表(Free For All Links, FFA)

这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起雅虎等目录索引类搜索引擎要小得多。

上述搜索引擎中,前三大类使用较多,我们通常将其称为主流形式搜索引擎。后三大类只是为用户提供搜索查询服务,也就是简单的网站查询功能,为方便起见,我们通常将其统称为非主流形式的搜索引擎。

从总体上说,不论是分类目录式的搜索引擎还是全文搜索引擎,它们大都具备以下特点:搜集网络信息资源广泛全面,一切人类知识的各个领域都被包括在搜索引擎的搜集范围之内;具有完善的检索手段,能够支持分类检索和全文检索,既能满足一般用户的浏览检索(简单检索),又能满足专业用户的专指检索(高级检索);具有较高的智能化,搜索引擎在学科领域知识和语言知识方面给予用户充分的支持,用户不需要记忆任何符号,可以完全按照书写习惯输入查询要求,得到检索结果;输出及时而形式多样,用户根据不同的需要选择搜索结果的显示格式、详略程度和排序标准。