1.2 搜索引擎的现在
过去代表着历史,但历史终将是尘埃。随着互联网技术的不断发展,现在的搜索引擎已经是具备个性化、多样化、智能化、社会化的现代搜索引擎。
(1)个性化。个性化是指根据用户特征提供定制化的搜索服务,其核心在于发现和理解用户的搜索行为,以及理解隐藏的用户特征价值,从而辅助用户进行搜索,使得个性化搜索满足用户的搜索需求。
(2)多样化。用户的一次搜索不再是局限于网页文档的搜索,更多的信息类型(如音乐、图片、视频等)也会根据用户的搜索需求适机展示。
(3)智能化。智能化是现代搜索引擎的基本特性之一,越来越多的搜索引擎从对搜索结果数据量的重视转向对搜索结果精准智能化的重视。智能化搜索通过与用户交互最大限度地了解用户意图,并给予最佳排序结果,甚至最终答案。
(4)社会化。在搜索引擎集中研究网页之间关系、链接之间关系的时候,社会化试图通过加入用户,研究在搜索过程中人与人、人与信息之间的关系。用户可以通过共享的方式将知识分享出来,使得搜索结果更加准确,可以通过问答、共享百科、圈子讨论等方式实现。社会化依赖具体的社交平台,通过这些社交平台进行知识分享,然后搜索引擎将这些信息进行索引。社会化搜索是在Web 2.0中诞生的产品。在Web 2.0诞生不久,各类百科网站、博客网站、问答网站、交友分享社区层出不穷,经过多年的发展,它们将互联网信息进行了高度的总结和扩展,社会化搜索是搜索引擎利用Web 2.0中的互联网产品对搜索服务和体验做出的一次改进。随着移动互联网的兴盛,社会化搜索愈加明显。
现在,无论是兴盛的移动搜索,还是日渐衰落的传统PC搜索,从技术角度来看,它们的本质并没有太多改变。当前的搜索引擎已经发展出全网搜索引擎、垂直搜索引擎、元搜索引擎三大重要分支。
(1)全网搜索引擎。网民使用最多的是全网搜索引擎,它在当前几乎成为整个互联网的入口,面向所有网民。各大搜索引擎厂商都曾在全网搜索引擎领域激烈竞争,目前它们正在利用人工智能技术不断提升全网搜索的价值。
(2)垂直搜索引擎。垂直搜索引擎的数据限于特定的垂直领域。垂直领域针对某一行业或者细分领域,是全网搜索引擎的子集。垂直搜索引擎的采集数据源具备针对性,面向特定领域或特定人群使用,如学术、图片、视频搜索等。
(3)元搜索引擎。元搜索是指在用户输入搜索词之后,根据其他多个搜索引擎合理组织出新的数据,从而返回组织后的结果。元搜索引擎没有自己的爬虫。
当代搜索引擎的输入方式也发生了重要变化,不仅可以通过文本输入,还可以通过图片、语音等输入。尤其是语音输入,它是当代搜索引擎在移动互联网发展下的重要变化。语音识别技术的发展给语音搜索的发展创造了机会,从而产生了更加便捷的搜索方式,尤其是在移动搜索方面。
知识图谱是对常识、领域知识等建立的一种关系图结构。知识是对信息总结性的描述。搜索引擎之所以会逐步发展到知识图谱,是因为世界并不是由文字组成的,而是通过各个实体之间的相互作用形成的,因此搜索引擎从研究文本本身转向研究自然界知识实体之间的关系。每个知识实体或者概念知识都在知识图谱中拥有全局唯一的标识。知识图谱目前主要在互联网大数据领域、图书情报领域(如引用分析、思维导图、复杂社会网络等领域)的发展比较迅速,这些领域基本上是以互联网大数据领域为基础的。如果说未来的搜索引擎是机器人的大脑,那么知识图谱就是这个大脑的知识库,任何决策都依赖此知识库。当前各大互联网公司已经在大力发展知识图谱相关项目,可谓战略意义重大。
在搜索引擎使用知识图谱之前,使用的是名为“知识卡片”的中间产品,但是很快就成功过渡到知识图谱。“知识卡片”可以理解为知识图谱中的众多实体中的某个实体的信息,拥有该实体的各项描述信息。
当前搜索引擎的数据除通过分布式爬虫获取之外,还通过开放平台使数据更具实时性和有效性,例如,针对火车票、飞机票等的搜索都是基于搜索引擎开放平台的。
此外,在大数据和云计算的发展推动下,更多的互联网厂商也逐步涉足搜索引擎垂直搜索领域,如电商、房地产等领域。这些垂直搜索引擎与丰富的商业模式结合,使搜索引擎更加专业和智能化。也正因如此,搜索引擎与传统领域相互结合,成为“互联网+”的重要体现之一。