
第3章 信息搜索引擎
3.1 概述
20世纪90年代以来,Internet的飞速发展使其逐渐变成各种信息资源传递的重要载体,化学信息的网络化趋势也在日趋显著,化学与Internet正在成为一个非常活跃、发展惊人的新兴交叉领域。美国化学会1997年秋季会议(ACS Fall Meeting,1997年)关于计算机应用的会议主题为“Internet for the Practicing Chemists”,会议中一方面介绍了在化学与Internet领域相关研究工作的进展,另一方面也向化学家介绍了如何利用Internet上化学信息资源的方法。1998年9月12~15日在美国加州的Irvine召开了第一届“Chemisty and Internet”国际会议。
在Internet上查找信息与在图书馆里查找信息是不同的,图书馆使用了检索系统(如国会图书馆系统)来分类图书馆的资料,帮助读者找到所需的信息。目前获取Internet化学资源可以利用的工具主要分为两类:一类是Internet通用资源搜索引擎(search engine)如Yahoo!、Alta vista;另一类就是Internet化学化工专业站点,即宏站点,它把网上许多有关化学化工的信息加以组织,形成一个专业型的导航站点。这两类工具各具优点,也都存在不足,前者的优点是更新及时,可以作为化学宏站点信息搜集来源之一,缺点是所索引的信息覆盖面过广,面向大众的信息量偏多,所索引的科学信息较少,另外检索搜索引擎常遇到的问题是检索结果中包含很多相关性很小的内容,用户必须用大量时间进行剔除。后者利用人工的方法对Internet上的化学领域或与化学有关的某个主题进行系统的收集、分类和索引,最大的优点是专业化程度高,缺点是时效性和广度不够。鉴于二者的互补性,应将这两种工具结合运用。
3.1.1 搜索引擎的原理
尽管搜索引擎技术仍在不断发展,其最基本的结构和原理仍然十分相似,搜索引擎的基本结构可以分为:网络爬行机器人、网页分析器、索引器、检索器、用户接口五部分。
网络爬行机器人:也称为spider、crawler、wander、robot,其主要任务是在互联网中漫游,发现和下载信息,尽可能多、尽可能快地搜集新信息和定期更新旧信息,避免死链接和无效链接,并采用广度优先或者深度优先策略,跟踪万维网(环球信息网,亦作web)上的超级链接。
网页分析器:对网页爬行机器人下载的网页进行分析并建立索引库。分析器的分析技术主要包括分词、过期网页过滤和转换、重复网页去重等。
索引器:由于存储的信息量很大,不便查询,针对这种情况,索引器理解数据库中的信息,从中抽取出索引项并生成索引表。索引器的质量是web信息检索系统成功的关键因素之一,其算法主要包括集中式索引算法或分布式索引算法。
检索器:从索引器中找出用户查询请求相关的信息。也就是说在用户提交查询请求时,运用典型的Rank算法、PageRank(网页排名)对索引数据库进行一个相关度的比较,按照相关度大于阈值并且递减的顺序返回给用户。
用户接口:为用户提供可视化的查询输入和结果输出界面。在查询输入界面中,用户按照搜索引擎指定的检索条件输入检索词。在输出界面中,搜索引擎将检索结果展现为一个线性的文档列表,而每个文档包括一个文档标题、摘要和链接地址等信息。
搜索引擎基本结构见图3-1。

图3-1 搜索引擎基本结构
根据搜索引擎基本结构信息,我们将搜索引擎的基本工作原理概括为:网络爬行机器人按照一定规律和方式对网络上的各种信息资源进行搜索,与此同时,网页分析器对网页爬行机器人下载的网页进行分析并建立一个临时数据库,索引器对临时数据库中的页面信息进行索引,经过整理形成各种倒排文档,建立起相应的索引数据库,当用户提交查询关键词时,检索器根据其相关度列出。用户查询接口则提供友好的查询界面,接受用户提交的查询任务,将符合要求的结果按一定检索器所排列的排序输出。
3.1.2 搜索引擎的历史及发展趋势
早在web出现之前,互联网上就已经存在许多旨在让人们共享的信息资源,那些资源当时主要存在于各种允许匿名访问的FTP(文件传输协议)站点,内容以学术技术报告、研究性软件居多,它们以计算机文件的形式存在,文字材料的编码通常是PostScript或者纯文本[那时还没有HTML(超级文本标记语言)]。
为了便于人们在分散的FTP资源中找到所需的东西,1990年加拿大麦吉尔大学(University of McGill)计算机学院的师生开发了一个软件——Archie。该软件通过定期搜集并分析FTP系统中存在的文件名信息,提供查找分布在各个FTP主机中文件的服务。在只知道文件名的前提下,Archie能为用户找到该文件所在的FTP服务器的地址。Archie实际上是一个大型的数据库,并拥有与其相关联的一套检索方法。该数据库中包括大量可通过FTP下载的文件资源的有关信息,包括这些资源的文件名、文件长度、存放该文件的计算机名及目录名等。尽管所提供服务的信息资源对象(非HTML文件)和本书所讨论搜索引擎的信息资源对象(HTML网页)不一样,但基本工作方式是相同的(自动搜集分布在广域网上的信息,建立索引,提供检索服务),因此人们公认Archie为现代搜索引擎的鼻祖。
值得一提的是,以web网页为对象的搜索引擎和以FTP文件为对象的检索系统具有一个基本的不同点——搜集信息的过程。前者是利用HTML文档之间的链接关系,在web上一个网页、一个网页地“爬取”(crawl),将那些网页“抓”(fetch)到本地后进行分析;后者则是根据已有的关于FTP站点地址的知识(例如得到了一个站点地址列表),对那些站点进行访问,获得其文件目录信息,并不真正将那些文件下载到系统上来。因此,如何在web上“爬取”,就是搜索引擎要解决的一个基本问题。1993年Matthew Gray开发了world wide web wanderer,它是世界上第一个利用HTML网页之间的链接关系来监测web发展规模的“机器人”(robot)程序。最初它只用来统计互联网上的服务器数量,后来则发展为能够通过它检索网站域名。鉴于其在web上沿超链“爬行”的工作方式,这种程序有时也称为“蜘蛛”(spider)。因此在文献中crawler、spider、robot一般都指的是相同的事物,即在web上依照网页之间的超链关系一个个抓取网页的程序,通常也称为“搜集”。在搜索引擎系统中,也称为网页搜集子系统。
现代搜索引擎的思路源于Wanderer,不少人在Matthew Grey工作的基础上对它的蜘蛛程序做了改进。1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos,成为第一个现代意义的搜索引擎。在那之后,随着web上信息量的爆炸性增长,搜索引擎的应用价值也越来越高,不断有更新、更强的搜索引擎系统推出。其中,特别引人注目的是Google,虽然出现较晚(1998年才推出),但由于其独特的PageRank技术很快便后来居上,成为当前全球最受欢迎的搜索引擎。
当我们谈及搜索引擎的时候,另外一个几乎同期发展出来的事物也不容忽视——基于目录的信息服务网站。1994年4月,斯坦福(Stanford)大学的两名博士生David Filo和杨致远共同创办了Yahoo门户网站,并成功使网络信息搜索的概念深入人心。从技术上讲,像Yahoo这样的门户网站提供的搜索服务和前述的搜索引擎是有很大的不同。它依赖的是人工整理的网站分类目录,一方面,用户可以直接沿着目录导航,定位到所关心的信息;另一方面,用户也可以提交查询词,让系统将其直接引导到和该查询词最匹配的网站。随着网上信息逐渐增多,单纯靠人工整理网站目录取得较高精度查询结果的优势逐渐退化,对海量的信息进行高质量的人工分类已经不太现实。所以利用文本自动分类技术,在搜索引擎上提供对每篇网页的自动分类成为了搜索引擎的发展趋势。
互联网上的信息量及信息种类都在不断增加,除了我们前面提到的网页和文件,还有新闻组、论坛、专业数据库等,同时上网的人数也在不断增加,网民的结构也在发生变化。仅用一个搜索引擎要覆盖所有的网上信息查找需求已出现困难,因此各种主题搜索引擎、个性化搜索引擎、问答式搜索引擎等纷纷兴起。这些搜索引擎虽然还没有实现如通用搜索引擎那样的大规模应用,但随着互联网的发展,我们相信它们的生命力会越来越旺盛。另外,通用搜索引擎的运行也开始出现分工协作,产生了专业的搜索引擎技术和搜索数据库服务提供商,例如美国的Inktomi,其本身并不是直接面向用户的搜索引擎,但为包括Overture(原Go To)、Looksmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜集服务,是搜索引擎数据的来源。搜索引擎的出现虽然只有10多年的历史,但在web上已经有了稳固的地位。据CNNIC统计,它已经成为继电子邮件之后的第二大web应用。虽然它的基本工作原理已经相当稳定,但在其质量、性能和服务方式等方面的提高空间依然很大,研究成果层出不穷,是每年WWW学术年会的重要论题之一。
发展是Internet的永恒主题,也是搜索引擎未来的主题。随着Internet技术的发展,通过搜索引擎获取信息已成为人们的一种最普通和日常的活动,也已成为人们检索信息、利用信息的一种主要手段和形式。搜索引擎在人们信息生活中开始扮演重要的角色,其研究和发展日益成为人们关心的话题。针对当前互联网和搜索引擎的发展状况,我们对搜索引擎的发展趋势做如下概括。
3.1.2.1 专业化
历经多年的发展,互联网的应用正在发生着结构性的变化,互联网上的信息仍然在以爆炸性的速度增长,根据权威的统计数字,截至2008年7月,全球web网页总数已超过1万亿个,仅靠一个大而全的搜索引擎已经不可能与用户各种各样的需求完全合拍,尤其是当我们需要查询更深层次信息的时候,因而我们更加需要专业性的搜索引擎,专门收录某一行业、某一学科、某一主题或某一地区的信息。相对于通用搜索引擎的海量化和无序化,它以“专、精、深”而备受用户的青睐。前面我们已就专业搜索引擎的概况和一些专业搜索引擎做了简要介绍,除了针对学科需求,市场需求多元化也决定了搜索引擎的服务模式必将出现细化,针对不同行业提供更加精确的行业服务模式。可以说通用搜索引擎的发展为专业搜索引擎的出现提供了良好的市场空间,因此专业搜索引擎势必将在互联网中占据部分市场,这也是搜索引擎行业专业化的必然趋势。
3.1.2.2 智能化
用户在搜索引擎上进行信息查询时,更为关注的是搜索结果的相关度而不是数量。现存的搜索引擎都意识到了相关度对于检索的重要性,并致力于减少不相关搜索结果的出现,搜索引擎的智能化能够让搜索引擎更加懂得用户的查询需求,更好地返回用户查询的结果。智能化主要是从技术的角度来讨论搜索引擎的发展,我们所说的智能化主要包含两个方面:一是对搜索请求的理解,也就是针对用户的检索词,让搜索引擎更加懂得用户的查询需求;二是对网页内容的分析,利用智能代理技术对用户的查询计划、意图、兴趣方向进行推理,自动进行信息搜集过滤,将用户感兴趣的对用户有用的信息提取出来。
3.1.2.3 个性化
个性化搜索引擎就是在对搜索结果重新分级的时候,考虑到用户的偏好信息。因此,获得用户的兴趣模型并将其整合到搜索引擎中是个性化搜索引擎研究的核心内容。这种搜索行为分析技术是一种正在发展中的很有前途的搜索引擎人机界面技术。通过搜索行为分析技术提高搜索效率的途径主要有两种:“群体行为分析”(比如“相关检索”就是这种分析的运用结果)和“个性化搜索”。“群体行为分析”通过对一段时间内用户的大量检索词进行分析,从而得出与某一个检索词的相关信息,而“个性化搜索”是搜索行为分析技术最有前途的方向,通过积累用户搜索的个性化数据,将使用户的搜索更加精确。除了搜索结果的个性化之外,还有其他的个性化服务,但目前就搜索引擎来说,用户的选择余地极小。搜索引擎中的百度、Google和Yahoo都有可以栏目定制的个性化选项,但从本质上来说,用户能做的选择仍然为数不多,仅仅有几种颜色的变化和栏目的增减无法满足用户的个性化需求。当然,除了这些表面的个性化之外,还应该深入对用户搜索习惯和搜索要求的个性化,这就对搜索引擎的智能化程度提出很高的要求,首先应为每个用户开设独立的账户,区别对待,然后自动跟踪记录用户的上网习惯,方便用户后续使用,从而大大提高搜索引擎的搜索效率,帮助人们快捷地从庞大的互联网上找到相关的信息。
3.1.2.4 多媒体化
随着宽带技术的发展,互联网逐渐进入多媒体数据的时代。图形、图像、视频、音频、动画、影视等多媒体信息资源在互联网上越来越丰富,用户对多媒体信息资源的检索需求也越来越多。伴随着这样的一个发展趋势,开发出可查询图像、声音、图片和电影的多媒体搜索引擎必将是一个新的方向。多媒体搜索引擎可以分为两类:基于文本描述以及基于内容描述。基于文本的多媒体搜索引擎是区别于纯文本的搜索引擎,它们能够支持除了文本之外的图像、声音、影像等多媒体信息。基于内容的多媒体搜索引擎是直接对多媒体内容特征和上下文语义环境进行的检索。基于文本的多媒体搜索引擎已经有很多了,而基于内容描述的多媒体搜索引擎还不多见,因为这类多媒体搜索引擎技术仍不成熟,理论上和实用上均有许多问题尚待解决,尤其在系统模型优化、通用性设计、图像声音特征相关性及在Internet上实用化等方面需要着力加强研究。随着网络资源的丰富,多媒体搜索引擎的发展成为了搜索引擎发展的必然趋势。