大数据云图:如何在大数据时代寻找下一个大机遇
上QQ阅读APP看书,第一时间看更新

谷歌的大数据行动

谷歌的规模使其得以实施一系列大数据方法,而这些方法是大多数企业根本不曾具备的。谷歌的优势之一是其拥有一支软件工程师队伍,这些工程师能为该公司提供前所未有的大数据技术。多年来,谷歌还不得不处理大量的非结构化数据,例如网页、图片等,它不同于传统的结构化数据,例如写有姓名和地址的表格。

谷歌的另一个优势是它的基础设施。就谷歌搜索引擎本身的设计而言,数不胜数的服务器保证了谷歌搜索引擎之间的无缝连接。如果出现更多的处理或存储信息需求,抑或某台服务器崩溃时,谷歌的工程师们只需添加服务器就能保证搜索引擎的正常运行。据估计,谷歌的服务器总数超过100万个。

谷歌在设计软件的时候一直没有忘记自己所拥有的强大的基础设施。MapReduce和Google File System就是两个典型的例子。《连线》杂志在2012年暑期的报道称,这两种技术“重塑了谷歌建立搜索索引的方式”。

许多公司现在都开始接受Hadoop开源代码——MapReduce和Google File System开发的一个开源衍生产品。Hadoop能够在多台计算机上实施分布式大数据处理。当其他公司刚刚开始利用Hadoop开源代码时,谷歌在多年前就已经开始大数据技术的应用了,事实上,当其他公司开始接受Hadoop开源代码时,谷歌已经将重点转移到其他新技术上了,这在同行中占据了绝对优势。这些新技术包括内容索引系统Caffeine、映射关系系统Pregel以及量化数据查询系统Dremel。

如今,谷歌正在进一步开放数据处理领域,并将其和更多第三方共享,例如它最近刚刚推出的BigQuery服务。该项服务允许使用者对超大量数据集进行交互式分析,其中“超大量”意味着数十亿行的数据。BigQuery就是基于云的数据分析需求。此前,许多第三方企业只能通过购买昂贵的安装软件来建立自己的基础设施,才能进行大数据分析。随着BigQuery这一类服务的推出,企业可以对大型数据集进行分析,而无须巨大的前期投资。

除此以外,谷歌还拥有大量的机器数据,这些数据是人们在谷歌网站进行搜索及经过其网络时所产生的。每当用户输入一个搜索请求时,谷歌就会知道他在寻找什么,所有人类在互联网上的行为都会留下“足迹”,而谷歌具备绝佳的技术对这些“足迹”进行捕捉和分析。

不仅如此,除搜索之外,谷歌还有许多获取数据的途径。企业会安装“谷歌分析”(Google Analytics)之类的产品来追踪访问者在其站点的“足迹”,而谷歌也可获得这些数据。利用“谷歌广告联盟”(Google Adsense),网站还会将来自谷歌广告客户网的广告展示在其各自的站点上,因此,谷歌不仅可以洞察自己网站上广告的展示效果,对其他广告发布站点的展示效果也一览无余。

揭秘大数据

将所有这些数据集合在一起,我们可以看到:企业不仅可以从最好的技术中获益,同样还可以从最好的信息中获益。在信息技术方面,许多企业可谓耗资巨大,然而谷歌所进行的庞大投入和所获得的巨大成功,却罕有企业能望其项背。