2.1.2 搜索引擎的发展史
20世纪90年代,Tim Berners-Lee开启了互联网时代,并使其获得大规模发展。1990年,Tim Berners-Lee开发出世界上第一个Web服务器和第一个Web客户端,被命名为万维网(World Wide Web,WWW)。次年,世界上第一个WWW网站info.cern.ch成立,伴随该网站成立的还有HTTP传输协议及相应的HTML等Web服务技术的诞生。1993年,NCSA发明了第一个显示图片的浏览器Mosaic,随后客户端浏览器逐渐趋于成熟。这些技术为互联网的快速发展奠定了基础。
互联网的快速发展使得搜索引擎的出现成为必然。1990年,第一个互联网搜索引擎Archie出现,主要用于搜索FTP服务器上的文件。在用户准确输入文件名的前提下,Archie可以准确地告诉用户该文件的位置。虽然Archie搜索的内容不是网页,但工作原理与网页搜索相似:自动搜索信息资源、建立索引、提供检索服务。
1995年,Excite搜索引擎正式上线,它是早期流行的搜索引擎之一。Excite的出现可以追溯到1993年2月,起由是6名斯坦福大学生想通过分析字词关系对互联网的大量信息进行有效检索。Excite以概念检索闻名,是搜索引擎技术——文本检索的代表。文本检索一般包括布尔模型、向量空间模型等,主要用于计算用户查询关键词和网页文本内容的相似度。
1995年4月,Yahoo正式成立。其由斯坦福大学博士杨致远和大卫·费罗创建。随着访问量和收录链接数的增长,Yahoo对互联网上重要站点的目录进行分类整理,迎合了用户需求,从而得到快速成长。Yahoo也成为“目录导航”搜索引擎技术的代表。该技术提高了被收录网站的质量,但不便于扩展且收录网站数量较少。
1998年9月,拉里·佩奇和谢尔盖·布林共同创建Google公司,其以PageRank链接分析等新技术大幅度提高搜索质量,成为占有搜索引擎市场份额最大的公司。Google是PageRank链接分析技术的代表,其充分利用网页之间的链接关系,考虑网页链入的数量和质量,从而计算网页的排名,提升搜索质量。
2000年1月,中国最大的搜索引擎公司百度成立,并一举成为国内最大的搜索引擎。目前,百度不再只是某一搜索引擎技术的使用,其试图通过用户查询、地理位置以及历史行为(搜索、点击、浏览)去理解用户此刻真正的需求。
STATCOUNTER统计的2019年1月~12月全球搜索引擎市场份额中,Google占比高达92.63%,微软的Bing和雅虎分别位居第二和第三,百度排在第四位。
STATCOUNTER统计的2019年1月~12月中国国内搜索引擎市场份额占比中,百度依靠本地化优势,以67.51%的占比排在第一位,搜狗和神马排在第二和第三。
在互联网快速发展的今天,信息正呈爆炸式增长,如何在信息过载的环境下快速有效地定位到目标信息成为关键问题。搜索是解决信息过载较为有效的方式。搜索引擎通过对互联网资源整理和分类,并将其存储在数据库中为用户提供查询服务,包括信息搜集、信息分类、用户查询等。因此,作为互联网网站和应用的入口,搜索引擎的地位越来越重要。