大数据搜索引擎原理分析
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1 基本工作原理

虽然搜索引擎技术基于传统的全文检索技术,但是二者之间也存在不同点,包括数据的处理量、处理性能、体系结构等方面。

(1)数据的处理量。搜索引擎技术面向的是互联网海量数据整合,并提供检索服务;而全文检索技术针对的是小规模数据,如针对企业内部数据提供的检索服务。

(2)处理性能。搜索引擎技术不仅需要快速获得互联网信息,还需要在最短的时间内反馈用户的请求;而全文检索技术需要的大多数数据已经存在,而且数据差异性较小,它仅需对数据进行全文索引,对检索时间性能的要求也没有搜索引擎技术高。

(3)体系结构。搜索引擎技术是一套完整的技术体系,包括网络爬虫(Web Crawler)服务、索引服务、缓存服务、搜索服务、日志服务等一系列技术;而全文检索技术更多地针对索引服务与搜索服务。

正是由于存在上述不同点,所以从工程应用的角度来看,搜索引擎技术的难度远远大于全文检索技术的难度。至于搜索引擎的工作原理,简单地说,搜索引擎后台首先进行互联网信息采集,建立结构化网页数据库;然后对数据建立索引并构建索引库;在用户访问搜索服务器之后,通过缓存服务器获得可能缓存的搜索数据,如果在缓存服务器中未命中相关数据,则通过后台建立的索引查询出与用户搜索相关的网页;最后利用网页存储服务器在搜索结果中显示网页标题及部分内容摘要等信息。如图2-1所示为搜索引擎工作原理的简单结构示意。

图2-1 搜索引擎工作原理的简单结构示意