1.5 商业搜索引擎技术概述
本节介绍的是一些常规的搜索引擎,除此之外,还有一些特别的搜索引擎,如WolframAlpha是一个特殊的可计算的知识引擎,可以根据用户问句式的输入精确地返回一个答案。使用http://openie.allenai.org可以实现问答式搜索。
1.5.1 通用搜索
目前,通用搜索引擎的组织方式主要有网络综合搜索引擎和网络主题资源搜索引擎这 2 种。其中,网络综合搜索引擎能够广泛地采集各 Internet 站点资源,并对其进行页面搜索,将索引结果存入索引数据库,供网络用户检索,提供 Internet 网络资源导航功能的工具,如Google、Baidu、Bing等。
1.5.2 垂直搜索
一些垂直整合的健康医疗领域的文本处理可以采用垂直搜索技术。垂直搜索是针对某个行业的专业搜索引擎,如职位搜索(http://www.jobui.com)。垂直搜索是搜索引擎的细分和延伸,是对网页库中的某类专门的数据进行处理后,再以某信息进行一次整合,定向分字段抽取出需要的形式返回给用户。
垂直搜索需要从互联网中获取行业信息,信息按行业过滤和分类是必不可少的。与普通的网页搜索引擎相比,垂直搜索引擎对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索以网页为最小单位,基于视觉的网页块分析则以网页块为最小单位,而垂直搜索以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理,如去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
在整个过程中,数据由非结构化方式抽取成结构化方式,经过深度加工处理后,以结构化方式返回给用户。
垂直搜索引擎的应用方向很多,如企业库搜索、供求信息搜索、购物搜索、房产搜索、人才搜索、地图搜索、图片搜索等,几乎各行各业的各类信息都可以进一步细化成各类的垂直搜索引擎。
垂直搜索引擎大体上需要以下几方面技术。
● 定向的网络爬虫。
● 网页结构化信息抽取技术或元数据采集技术。
● 中文分词、全文检索。
● 其他信息处理技术。
垂直搜索引擎的技术评估应从以下几点进行判断。
● 全面性:应该可以从众多的来源采集信息。
● 更新性:用户最好可以在几秒钟或几分钟之内看到最新发布的信息。
● 准确性:数据分类准确,不能包含冗余信息。
● 功能性:功能完善,可以同时搜索文字信息、图片、视频、地理信息等。
垂直搜索的进入门槛很低,但是竞争非常激烈。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势,但它们是没有技术优势的,并不是几个人就可以搞定垂直搜索的全部技术,作为一个需要持续改进可运营的产品而不是一个项目,对技术的把握控制程度是垂直搜索成功的重要因素之一。与专业的搜索技术提供商合作是一种现实的解决方法。
1.5.3 站内搜索
站内搜索有如下3种流行的实现方式。
● 基于数据库的搜索:如SQL Server或MySQL内部都支持对全文检索列。
● 基于Spider抓取的站内搜索:Google通过从外部抓取网页的方式提供免费的站内搜索。
● 站内搜索软件系统:通过和数据库的同步,利用Lucene或Solr建立独立的全文索引的站内搜索系统。
真正的全文检索应具备相关性排序技术和分词索引功能。分词、索引、排序是全文检索的基础和核心,缺一不可。
所以,简单考查一个站内搜索引擎的真伪只需要知道:能否实现相关性排序、国际标准的搜索语法、动态摘要、飘红、支持海量数据和高并发快速查询、搜索耗时极短。
表1-2所示是几种常用的站内搜索技术。
表1-2 几种常用的站内搜索技术
续表
猎兔(http://www.lietu.com)企业搜索正是这样一种站内全文搜索的实现。