第2章
研究综述
2.1 大数据基本概念的相关研究
“大数据”一词最早出现在20世纪80年代。1980年,著名的未来学家阿尔文·托夫勒在《第三次浪潮》一书中明确提出:“如果说IBM的主机拉开了信息化革命的大幕,那么‘大数据’则是第三次浪潮的华彩乐章。”20世纪90年代,“数据仓库之父”比尔·恩门进一步拓展了大数据概念的影响力。在近30年科技迅速发展的时间里,人类社会的数据产生方式经历了运营式系统、用户原创内容和感知式系统3个阶段,数据生产来源也从数据管理系统的被动数据演变到Web 2.0和移动终端的用户原创数据,再到大规模使用传感器自动生成的数据。数据产生方式的巨大变化一次次促使了人类社会数据量的飞跃,大数据逐渐成为现代社会基础设施的重要组成部分,成为像公路、铁路、水和通信网络一样不可或缺的重要资源[1]。
2.1.1 大数据的概念和特征
大数据的广泛存在和应用兴起引起了政府、学术界和工业界的密切关注。《自然》杂志在2008年推出了专刊Big Data[2]。计算社区联盟(Computing Community Consortium)在2008年发表了报告Big-Data Computing: Creating revolutionary breakthroughs in commerce, science, and society[3],阐述了在数据驱动的背景下,解决大数据问题所需的技术和面临的挑战。《科学》杂志在2011年2月推出专刊Dealing with Data[4],主要围绕科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要作用。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了Challenges and Opportunities with Big Data[5]白皮书,从学术的角度出发,介绍了大数据的产生,分析了大数据的处理流程,提出了大数据所面临的若干挑战。麦肯锡于2012年发布了Big Data: The next frontier for innovation, competition, and productivity[6]报告,详细描述了大数据的发展现状和趋势。
尽管人们对大数据的关注度与日俱增,但是对大数据这一基本概念的定义仍未达成共识,大多数研究从大数据的特征出发,试图通过对这些特征的阐述和归纳,给出大数据的定义。麦肯锡将大数据定义为,大数据是由数量巨大、结构复杂、类型众多的数据构成的数据集合,是基于云计算的数据处理与应用模式。亚马逊的网络服务、大数据科学家约翰·劳泽提出,任何超过了一台计算机处理能力的庞大数据量[7],都可以界定为大数据。维基百科将大数据定义为利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。牛津大学的教授维克托·迈尔-舍恩伯格在其编写的《大数据时代》中指出,大数据超越了传统的随机抽样的调查方法,而对全体数据进行综合分析[8]。对于大数据的特征,业界结合数据描述性和功能性特征给出了不同的归纳,其中3V和4V定义的影响最为广泛。Marko Grobelnik给出了3V 定义[9],他认为大数据需满足3个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。国际数据公司从4个特征定义大数据:海量的数据容量(Volume Big)、快速的数据流转和动态的数据体系(Velocity Fast)、多样的数据类型(Variable Type)、巨大的数据价值和数据低密度(High Value and Low Density)。IBM则认为大数据满足3V条件后必然具有真实性(Veracity)[10]。在大数据特征这一问题上,学界在面对实际问题时,倾向于在把握3V定义的基础上适当考虑4V定义。
2.1.2 大数据的研究方法
正如Google的首席经济学家哈尔·范里安所说,数据是广泛可用的,所缺乏的是从中提取出知识的能力。数据搜集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中。不同领域的大数据应用有不同的特点,适用于大数据应用的关键技术有遗传算法、神经网络、数据挖掘、回归分析、分类分析、聚类分析、关联规则学习、数据融合与集成、机器学习、自然语言处理、网络分析、空间分析、时间序列分析、分布式文件系统、分布式缓存、分布式数据库、非关系型数据库系统、可视化技术等[11]。
大数据的出现在很多方面模糊了自然科学和社会科学的界线,在很多情况下,大数据的应用可以利用自然科学方法深化社会科学研究问题。大数据的出现进一步推进了数据管理方式的创新,在数据来源、数据处理方式和数据思维等方面都会对其带来革命性的变化。正如图灵奖获得者吉姆·格雷所提出的,大数据是科学研究的第四范式(The Fourth Paradigm)[12],他强调了以大数据为基础的数据密集型研究方法,指出在大数据时代,数据不再仅仅是“捕捞”的对象,而应当转变成一种基础资源,用数据这种资源来协同解决其他诸多领域的问题。邓肯·J. 瓦茨在《自然》杂志上的文章A Twenty-first Century Science指出,借助于社交网络和计算机分析技术[13],社会科学有可能实现定量化的研究,计算社会科学(Computational Social Science)基于特定的社会需求,在特定的社会理论指导下,搜集、整理和分析数据足迹,以便进行社会解释、监控、预测与规划的过程和活动。除此以外,目前相关的研究内容还包括:大数据分析与预测、分布式计算和社会计算、自组织计算、基于海量知识的智能、大数据分析的革命性方法等[14]。
2.1.3 大数据的认知重心:从技术价值到战略价值
作为“技术带动应用”的热点,大数据的认知最初是围绕基础研究中的技术挑战展开的,尤其是针对现有数据中心技术很难满足大数据需求的现实,考虑对整个IT架构进行革命性重构成为关注重心。这方面的文献主要包括以下几个方面:针对规模不断扩大的数据集合,如何提升数据仓库的服务器管理效率[15];面对互联网应用产生的大幅增长的非结构化数据,以及数据显性或隐性网络化存在导致数据间复杂关联性提升,如何高效分析处理[16];大数据往往以数据流的形式动态、快速地产生,具有很强的时效性,如何把握、掌控数据流[17];数据自身状态与价值往往随时空变化发生演变,数据涌现特征明显,如何提升大数据价值利用密度等[18]。随着大数据从海量和复杂数据中获取知识的工具价值被学术界充分认识,大数据隐含着的巨大的科研、经济、社会价值,已引起了各行各业的高度重视[19],围绕大数据科学和工程横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科正在逐步形成。著名的O'Reilly公司断言:“数据是下一个‘Intel Inside’,未来属于将数据转换成产品的公司和人们[20]”。产业界跨国巨头在巨大的经济利益驱使下不断扩大数据处理规模[21],以大数据为核心拥有数据、技术和思维的公司正在构建全新的商业价值链[22]。而政府机构也意识到可以从大数据技术中获得有用的信息资源,协助加速科学、工程领域的创新步伐,强化国土安全,转变教育和学习模式,提升对社会经济发展的预测能力。数据规模及数据运用能力已经成为综合国力的重要组成部分[23]。
正是在这一认知演变进程中,大数据的资产价值和战略属性逐步呈现,牛津大学的教授维克托·迈尔-舍恩伯格认为,大数据就是“大黄金”,是最具有决定性意义的资源[24]。2012年,在瑞士达沃斯召开的世界经济论坛上,《大数据,大影响》报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样[25],而未来数据的作用,将与土地、劳动力和资本一样重要,缺乏数据资源,将如同缺乏能源和矿藏一样,成为制约国家发展的重要战略瓶颈。数据占有和控制成为国家核心资产的理念,正成为各国政府战略布局的重要方向。