化学信息学(第二版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

3.4 常用的全文搜索引擎

自从国际互联网进入中国以来,各类中文搜索引擎网站如雨后春笋般相继建成,但无论是管理、技术还是服务,中文搜索引擎仍很不完善,潜存着一些问题,使得很多搜索引擎如昙花一现地出现在中文搜索引擎的舞台上,如悠游等几乎都转向了其他的领域。现在的中文搜索引擎除了有智能化的趋势外,还出现了互相支持的现象。目前市面上出现了以谷歌、百度、搜狗、网易等搜索引擎共荣的局面。下面针对几个搜索引擎做一个简要的对比介绍。

3.4.1 百度

百度(http://www.baidu.com/)是在2000年1月于北京中关村创立的全球最大的中文搜索引擎、最大的中文网站。百度属于关键词型搜索引擎,提供的关键词检索主要包括基本检索、高级检索、主题目录浏览检索。百度的特色服务很多,网页的覆盖量也很大,是一个综合性很好的搜索引擎,其搜索的概念已被中国用户广泛接受。百度搜索引擎具有高准确性、高查全率、快速且服务稳定等特点,能提供网页、新闻、音乐、图片、视频、地图、文库等多种类型的搜索功能。和其他的中文搜索引擎相比,百度崇尚的是简单、可依赖,因而深受中文用户的喜爱。百度主页见图3-2。

图3-2 百度主页

3.4.2 Google中国

Google(http://www.google.com.hk/)是当今最佳的搜索引擎之一,它属于综合性的搜索引擎。Google中国的检索界面简洁直观、方便快捷,同时提供关键词检索和主题目录浏览检索,从而对网页、图像、新闻、网上论坛等进行检索查询,支持100多种搜索语言。Google中国可以检索多种类型的文件,包括HTML和13种非HTML文件(PDF、PPT、XLS等)。2010年3月,Google将内地的搜索服务转至香港,并于4月废除谷歌的使用,开始专属使用Google中国。和百度相比,目前Google的检索速度有些差强人意,但是丝毫没有影响用户的使用,此外Google还推出了谷歌学术(Google scholar),帮助用户搜寻学术性文献。Google主页见图3-3。

图3-3 Google主页

3.4.3 维基百科

维基百科(Wikipedia,http://www.wikipedia.org/)是一部综合性的网络百科全书,同时也是一个包含多种语言的、动态的、可自由访问和编辑的全球知识体系,它由来自全世界的志愿者共同编写和更新,访问者只需依据维基百科设定的编辑方针即可参与撰写维基百科条目或者编辑已有的百科条目,进行注释或添加参考文献信息等。当然,一些可能引起争议的或者不符合标准的条目会被维基百科的维护者移除,因此用户不必担心在添加信息时会破坏维基百科,同时其他编辑者也会对编辑后的条目提出建议或进行修订。自2001年1月维基百科成立以来,经过不断的更新与成长,目前的维基百科已成为世界上最大的资料来源网站之一,迄今为止,该网站包含了95万多条中文百科条目。

图3-4所示为维基百科的主页,用户可以在页面下端的文本输入框中直接输入关键词进行百科条目的检索,检索之前还需要在下拉框中预先设定好检索条目的语言,提供了50多种可供选择的语种。在默认的情况下,用户输入的关键词只会在维基百科的条目中进行搜索,服务器不会搜索相关的图片、对话记录等信息,如需要对多种类别的信息进行检索,可参见维基百科的帮助文档,在高级检索界面中进行设定及搜索;在一般的搜索引擎中,逻辑运算符“AND”“OR”、括弧以及“NOT”常常被用来减少不相干的条目,维基百科提供的搜索引擎也支持这些功能。需要注意的是,在所有逻辑运算符与关键词之间必须要加入空格;该搜索引擎不区分大小写,因此在输入英文时不需要过多关注大小写的情况,例如输入County、COUNTY或者county得到的检索结果是一样的;维基百科还提供了一些小的检索功能,例如在页面的末端的“list redirects”选项,取消它后可以排除所有重定向页面,有效减少了检索结果的数目。点击“跨语言Wikipedia搜索”链接可以在不同语言的Wikipedia中搜索相关条目,但目前该项功能还无法搜索中文Wikipedia。

图3-4 维基百科主页

维基百科采取多种知识分类体系和检索手段展示百科全书中的信息,如按词条字母排序浏览(browse)、学科目录分类(categories)、维基百科导航(category Wiki navigation)、网站地图(road maps)、Q&A问答、最新变更词汇(change summary)、词条搜索(searcher)、新加条目和热点条目等。其中以分类目录体系为主要展示手段,并辅以多种检索方式,以便用户查找、编辑和阅读。因此,除了在页面的检索框中直接输入关键词进行检索外,用户还可以使用其他几种检索方式:

①点击页面左边导航栏的“随机页面”链接,用户将随机链接到一个条目;

②通过浏览的方式从维基百科提供的分类导航系统中选取相应的条目;

③在某个条目的说明页面中,对于其中一些已提供了链接的词语,可通过链接跳转到该词语的说明页面。

图3-5为维基百科提供的参考目录,目录将数据库中的条目分为了10类:生活、艺术与文化,世界各地,中华文化,人文与社会科学,社会,自然与自然科学,宗教及信仰,工程、技术与应用科学,常用列表以及主题首页。用户根据自己需要查阅的主题,点击相应的分类及子分类,即可浏览其中的百科条目信息。

图3-5 维基百科提供的参考目录

这里我们以检索化学信息学(cheminformatics)为例看看维基百科中的条目信息,在主页的文本输入框(图3-4)中,我们输入关键词“cheminformatics”,同时将语言设为英语,点击检索按钮,即可获得关于化学信息学的百科条目信息(见图3-6)。该条目详细叙述了化学信息学的基本概念、发展历史、简单应用以及相关的参考文献。另外,用户可通过点击每个栏目右方的“edit”链接对该条目进行修订,点击段落中一些提供了链接的词语,如“chemistry”“drug discovery”“in silico”等即可跳转至相应主题的百科条目。

图3-6 在维基百科中检索“cheminformatics”所显示的百科条目信息