第1篇 大数据管理系统基础
第1章 大数据技术简介
1.1 大数据技术的起源
“大数据”一词最早出现于SGI公司首席科学家John R.Mashey博士在1999年USENIX年度技术会议上做的特邀报告中。在该报告中,Mashey博士论述到:“人们对网络应用的期望正在不断提升,人们希望网络应用能够创建、存储、理解大数据,数据量越来越大(图片、图像、模型),数据类型越来越多(音频、视频)[1]。”Mashey博士的论述总结了我们对大数据最初的两点认识:①互联网应用是大数据的驱动型应用;②大数据的特征是数据量大、数据类型多。随后,Laney博士在一份未公开的研究报告中进一步将大数据的特征定义为数据量大、数据类型杂、数据产生速度快(即3V)[2]。Laney博士的定义构成了我们普遍接受的对大数据的描述性定义。
然而,大数据的概念在提出后并没有受到人们的关注,甚至在相当长的时间内被人们遗忘。2000年3月10日美国纳斯达克指数创造了5048.62点的历史性新高。不幸的是,在随后的黑色星期一(即3月13日),发生了互联网泡沫破裂,以.com公司为代表的科技股票遭受大规模抛售。在纳斯达克上市的企业有500家破产(其中90%的企业为互联网企业),惨淡的股市使人们再没有理由不关注互联网应用以及与之相关的大数据技术。
互联网泡沫破裂的原因是多方面的,但是其中最重要的原因是当时的互联网企业无法找到稳定的盈利模式。与传统企业不同,互联网企业并不经营实物资产,而是经营虚拟的数据资产。因此,传统企业研发的实物资产管理和变现技术并不适用于互联网企业。而互联网企业也没有研发出适应自身特点的资产管理和变现技术。由于缺乏有效的资产变现手段,在互联网泡沫破裂前,几乎所有的互联网企业都处于严重亏损状态。糟糕的营收绩效极大地打击了投资者的信心,从而引发了大规模的股票抛售。
幸运的是,互联网产业并没有从此消失。一些互联网企业如亚马逊、谷歌、雅虎等存活了下来。他们反思企业运营中出现的问题,投入大量的精力研发适合自身特点的资产管理和变现技术,向技术要红利。经过近十年的摸索,亚马逊的股价在2011年升至246.71美元,相较2001年泡沫破裂后的5.51美元,增长了近50倍!如此戏剧性的惊天逆转震惊了所有人。人们纷纷追问两个问题:①互联网企业成功的秘诀是什么?②能否将互联网企业成功的秘诀复制到非互联网企业?
经过研究,人们发现互联网企业成功的秘密在于研发出了适应自身资产特点的“开源节流”技术。首先,互联网企业研发出云计算技术,有效地降低了维护海量数据资产的运营成本;其次,互联网企业研发出大数据管理技术,高效地管理其数据资产;最后,互联网企业研发出大数据分析技术,有效地从数据资产中发现规律,提升数据资产的变现效率。人们将互联网企业研发出的大数据管理技术和大数据分析技术统称为大数据技术。进一步的研究表明,大数据技术乃至云计算技术可以向非互联网企业迁移。也就是说,大数据技术和云计算技术仍然有巨大的潜力和上升空间。
至此,谜底揭开。人们重新以巨大的热情讨论大数据技术。各国政府纷纷制定政策推动大数据技术的研发与应用。大数据相关的研讨经常被《经济学家》[3,4]、《纽约时报》[5]和“国家公共广播电台”[6,7]等公共媒体报道。两个主要的科学期刊《自然》和《科学》也开辟了专栏来讨论大数据的挑战和影响[8,9]。
本书主要介绍大数据管理技术。在正式展开讨论之前,我们首先介绍与大数据技术密切相关的云计算技术。
1.2 大数据与云计算
云计算与大数据密切相关。大数据是计算密集型操作的对象,需要消耗巨大的存储空间。云计算的主要目标是在集中管理下使用巨大的计算和存储资源,用微粒度计算能力提供大数据应用。云计算的发展为大数据的存储和处理提供了解决方案。另外,大数据的出现也加速了云计算的发展。基于云计算的分布式存储技术可以有效地管理大数据;借助云计算的并行计算能力可以提高大数据采集和分析的效率。尽管云计算和大数据技术存在很多重叠的技术,但在以下两个方面有所不同。首先,它们的概念在一定程度上是不同的。云计算转换IT架构,而大数据影响业务决策。但是,大数据依赖云计算作为平稳运行的基础架构。其次,大数据和云计算有不同的目标客户。云计算是针对首席信息官(CIO)的技术和产品,是一种先进的IT解决方案。大数据是针对首席执行官(CEO)、聚焦于业务运营的产品。因为决策者可能直接感受到市场竞争的压力,所以必须以更具竞争力的方式击败对手。随着大数据和云计算的发展,这两种技术当然也越来越相互融合。云计算具有类似于计算机和操作系统的功能,提供系统级资源;大数据及相应的大数据管理系统运行在云计算支持的上层,提供类似于数据库的功能和高效的数据处理能力。
大数据的演变受快速增长的应用需求所驱动,而云计算是由虚拟化技术发展而成的。因此,云计算不仅为大数据提供计算和处理,其本身也是一种服务模式。在一定程度上,云计算的发展促进了大数据的发展,两者相辅相成。
参考文献
[1] Diebold F. On the Origin(s) and Development of the Term“Big Data”. Pier working paper archive,Penn Institute for Economic Research,Department of Economics,University of Pennsylvania,2012.
[2] Laney D. 3-D Data Management:Controlling Data Volume,Velocity and Variety.META Group Research Note,2001.
[3] Cukier K. Data,data everywhere:a sp-ecial report on managing information. Economist Newspaper,2010.
[4] Drowning in numbers-digital data will flood the planet and help us understand it better,2011. http://www. economist. com/bl-ogs/dailychart/2011/11/bigdata-0.
[5] Lohr S. The age of big data. New York Times,2012.
[6] Yuki N. Following digital breadcrumbs to big data gold. http://www. npr. org/2011/11/29/142521910/thedigitalbreadcrumbsthat-lead-to-big-data,2011.
[7] Yuki N. The search for analysts to make sense of big data. http://www. npr. org/2011/11/30/142893065/the-searchforanalyststo-make-sense-of-big-data,2011.
[8] Big data. http://www. nature. com/news/specials/bigdata/index. html,2008.
[9] Special online collection:dealing with big
data. http://www. sciencemag. org/site/special/data/,2011.