
3.2 搜索引擎的定义及分类
搜索引擎的定义:搜索引擎(search engine)是一个对互联网资源进行搜索整理和分类,并储存在网络数据库中供用户查询的系统,包括信息搜索、信息分类、用户查询三部分。搜索引擎按其工作方式主要可分为四种:全文搜索引擎(full text search engine)、目录索引类搜索引擎(search index/directory)、元搜索引擎(meta search engine)和垂直搜索引擎(vertical search engine)。
3.2.1 全文搜索引擎
全文搜索引擎是从网站提取信息并建立网页数据库,搜索引擎的自动信息搜集功能分为两种:一种是定期搜索,即搜索引擎每隔一段时间(Google一般是28天)主动派出“蜘蛛”程序对一定IP地址范围内的互联网站进行搜索,一旦发现新的网站,它会自动提取网站的信息和网址并加入自己的数据库;另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向网站派出“蜘蛛”程序,扫描网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到并自动将网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法(通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等)计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
3.2.2 目录索引类搜索引擎
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果与搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素更多。
与全文搜索引擎相比,目录索引有许多不同之处。搜索引擎属于自动网站搜索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览用户的网站,然后根据一套自定的评判标准甚至根据编辑人员的主观印象,决定是否接纳用户的网站。搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,如果工作人员认为提交网站的信息不合适,可以随时对其进行调整。
目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而像Yahoo这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内的搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo(Yahoo已于2004年2月正式推出自己的全文搜索引擎,并结束与Google的合作)。
3.2.3 元搜索引擎
元搜索引擎在接受用户查询请求的同时从其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具有代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
3.2.4 垂直搜索引擎
垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎相对于普通的网页搜索引擎的最大优势在于对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,即网页搜索以网页为最小单位,基于视觉的网页块分析以网页块为最小单位,而垂直搜索以结构化数据为最小单位,再将这些数据存储到数据库,进行进一步的加工处理(如去重、分类等),最后分词、索引再以搜索的方式满足用户的需求。整个过程中,数据由非结构化数据抽取成结构化数据,经过深度加工处理后以非结构化的方式和结构化的方式返回给用户。垂直搜索引擎的应用方向有很多,如企业库搜索、供求信息搜索、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索等,几乎各行各业的各类信息都可以进一步细化成各类的垂直搜索引擎。
除上述四大类搜索引擎外,还有以下几种非主流形式搜索引擎:
(1)集合式搜索引擎 如HotBot在2002年底推出的引擎,该引擎类似META搜索引擎,但不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此也称为“集合式”搜索引擎。
(2)门户搜索引擎 如AOL Search、MSN Search等,虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
(3)免费链接列表(free for all links,FFA) 这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo!等目录索引来小得多。由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。