2.1 大数据技术的产生
计算机和信息技术的迅猛发展和各行业大规模的普及应用,行业应用系统的规模迅速扩大,其所产生的数据呈指数型的增长。动辄达到数百TB级甚至数十至数百PB级规模的大数据已远远超出了传统的计算技术和信息系统的处理能力,从而促进了大数据技术的产生及快速发展。
2.1.1 大数据的基本概念
维基百科对大数据的解释:大数据(Big Data),又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的、大或复杂的数据集。大数据也可以定义为来自各种来源的大量非结构化和结构化数据。大数据通常包含的数据量超出了传统软件在人们可接受的时间内进行处理的能力。
智库百科对大数据的解释:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括了大规模并行处理(MPP,Massively Parallel Processing)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网,及可扩展的存储系统。
百度百科对大数据的解释:大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
简而言之,大数据是现有数据库管理工具和传统数据处理应用方法很难处理的大型、复杂的数据集,大数据技术的范畴包括大数据的采集、存储、搜索、共享、传输、分析和可视化等。
2.1.2 大数据产生的原因
1.大数据的产生
随着计算机技术全面融入社会生活的方方面面,信息爆炸已经积累到了一个开始引发技术创新和商业变革的阶段。21世纪是数据信息大发展的时代,互联网(社交网络、搜索、电子商务)、视频网站、移动互联网(微博、推特)、物联网、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)……等众多领域都在疯狂产生着大量的数据,这些数据不仅使世界充斥着比以往更多的信息,而且由这些数据产生出了“大数据”这个如今尽人皆知的概念。
大数据技术的产生首先源于互联网企业对于日益增长的网络数据分析的需求,如图2-1所示。20世纪80年代的典型代表是Yahoo的“分类目录”搜索数据库;20世纪90年代的典型代表是Google,它开始运用算法分析用户搜索信息,以满足用户的实际需求;21世纪的典型代表是Facebook,它不仅满足用户的实际需求,而且创造新的需求,因为此时Web 2.0的出现使人们从信息的被动接收者变成了主动创造者。2010年之后,YouTube、Twitter、微博等社交网站出现,海量的视频、图片、文本、短消息通过这些社交平台产生,基于互联网的数据的增长速度变得与IT界的摩尔定律(该定律揭示了信息技术进步的速度)很类似。
图2-1 互联网企业对网络数据分析的需求
基于上述状况,2006年,广大个人用户的数据量迈进了“TB”时代(个人计算机的硬盘容量从GB提升到了TB规格),全球一共新产生了约180EB的数据;在2010年,全球的数据量达到ZB级,2011年,这个数字达到了1.8ZB。IDC预计,到2020年,整个世界的数据总量将会达到35.2ZB(1ZB=10亿TB)!其中,各数据量单位KB>MB>GB>TB>PB>EB>ZB>YB>NB>DB依次递增。注:单位以PB衡量的数据就可称之为大数据。
2.大数据的可用性及衍生价值
进入IT时代以来,全人类积累了海量的数据,这些数据仍在不断急速增加,这带来两个方面的巨变:一方面,在过去没有海量数据积累的时代无法实现的应用现在终于可以实现;另一方面,从数据匮乏时代到数据泛滥时代的转变,给数据的处理和应用带来新的挑战与困扰,即如何从海量的数据中高效地获取数据,有效地深加工并最终得到有价值意义的数据。
大数据的一个重要方面是数据的可用性。用以分析的数据越全面,分析的结果就越接近于真实,就更具可用性。数据可用性主要包含高质量数据获取与整合的方法,大数据可用性理论体系的建立,弱可用数据的近似计算与数据挖掘,数据一致性的描述问题,一致性错误的自动检测问题,实体完整性的自动修复问题,自动检测实体同一性错误的问题,半结构化、非结构化数据的实体识别问题等方面。
大数据的另一个重要方面是数据的复杂性。目前,85%的数据属于社交网络、物联网、电子商务等产生的非结构化和半结构化数据。非结构化数据是数据结构不规则或不完整、没有预定义的数据模型、不方便用二维逻辑数据库来表现的数据。包括所有格式的办公文档、文本、图片、图像和音频/视频信息等。半结构化数据是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据之间的数据,XML、HTML文档属于半结构化数据,它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。大数据的结构日趋复杂,而这些数据早已远远超越了传统方法和理论所能处理的范畴。有时甚至大数据中的小数据,如一条微博可能就会产生颠覆性的效果。因此,针对这种类型的新数据结构及大数据要为人们所用,就需要新的技术及方法对当前的大数据进行采集、清洗、分析和处理,从大数据中发现有用的知识。
大数据本身很难直接使用,只有通过处理的大数据才能真正地成为有用的数据。虽然有以上两个问题,但随着大数据的不断增长,可以清楚地发现,通过采用新的方法和新的技术,这些大数据是可用的,并且具备巨大价值。
大数据可以在众多领域创造巨大的衍生价值,使得未来IT投资重点不再是以建系统为核心,而是以大数据为核心,处理大数据的效率逐渐成为企业的生命力,大数据的价值潜力指数如图2-2所示。
图2-2 大数据价值潜力指数
由图2-2可知,政府,房地产业,医疗保健业,金融保险业,公用事业单位,咨询服务业这几个行业的数据量是各行业中数据量拥有量较大的行业,尤其是政府和房地产业,它们拥有的数据量非常庞大。政府,教育服务业,文化娱乐业的大数据价值的潜力相对一般,大数据开发难度较低;餐饮业,房地产业,咨询服务业,零售业等行业,它们的大数据价值潜力中等,并且大数据开发难度中等;医疗保健业,自然资源,IT信息产业,金融保险业,公用事业单位这些行业的大数据价值潜力越大,开发难度也比较高。
2.1.3 大数据概念的提出
由于海量非结构化、半结构化数据的出现,数据已没有办法在可容忍的时间内,使用常规软件方法完成存储、管理和处理任务。怎样处理这样的数据成为一个重要课题。2008年《Nature》杂志推出了“大数据”专辑,引发了学术界和产业界的关注。数据成为科学研究的对象和工具,业界开始基于数据来思考、设计和实施科学研究。数据不再仅仅是科学研究的结果,而且变成科学研究的基础。
尽管2009年“大数据”才开始成为互联网行业中的热门词汇,但早在1980年,著名的未来学家托夫勒在其所著的《第三次浪潮》中就热情地将大数据称颂为“第三次浪潮的华彩乐章”。
对大数据进行收集和分析的设想,来自于世界著名的管理咨询公司麦肯锡公司(McKinsey),麦肯锡公司也是最早应用大数据的企业之一。麦肯锡公司看到了各种网络平台记录的个人海量信息具备的潜在商业价值,于是投入大量人力物力进行调研,在2011年6月发布了关于大数据的报告,该报告对大数据的社会影响、关键技术和应用领域等都进行了详尽的分析。麦肯锡的报告得到了金融界的高度重视,之后大数据逐渐受到了各行各业关注。
回顾计算机技术的发展历程,可以清晰地看到计算机技术从面向计算逐步转变到面向数据的过程,面向数据也可以更准确地称为“面向数据的计算”。面向数据要求系统的设计和架构以围绕数据为核心开展。这一过程的描述如图2-3所示,该图从硬件、网络和云计算的演进过程等方面以时间为顺序进行了纵向和横向的对比。
图2-3 面向数据技术的发展历程
从图2-3中可以看到,在计算机技术的早期,由于硬件设备体积庞大,价格昂贵,这一阶段数据的产生还是“个别”人的工作,即数据生产者主要是科学家或军事部门,他们更关注计算机的计算能力,计算能力的高低决定了研究能力和一个国家军事能力的高低。此时推动计算技术发展的主要动力是硬件的发展,这个时期是硬件的高速发展时期,硬件从电子管迅速发展到大规模集成电路。1969年ARPANET(阿帕网,由美国国防部高级研究计划署开发,是全球互联网的始祖)的出现改变了整个计算机技术的发展历史,互联网逐步成为推动技术发展的一个重要力量,特别是高速移动通信网络技术的发展和成熟使现在数据的生产成为全球人类的共同活动,任何人可以随时随地产生和交换数据。
以网络为核心的数据构成变得非常复杂,数据来源多样化,不同数据之间存在大量的隐含关联性,这时计算所面对的数据变得非常复杂,各类社交应用将数据和复杂的人类社会运行相关联,由于人人都是数据的生产者,人们之间的社会关系和结构就被隐含到了所产生的数据之中。数据的产生目前呈现出了大众化、自动化、连续化、复杂化的趋势。大数据这一概念正是在这样的一个背景下出现的。这一时期的典型特征就是计算必须面向数据,数据是架构整个系统的核心要素。
2.1.4 第四范式——大数据对科学研究产生的影响
大数据概念的产生深刻地改变了科学研究的模式,2007年,已故的图灵奖得主吉姆·格雷(Jim Gray,数据库基本理论的奠基人)提出了数据密集型科研“第四范式(The Fourth Paradigm”,图2-4所示是即为吉姆·格雷)。他将大数据科研从第三范式,即计算机模拟中分离出来,独立作为一种科研范式,单独分离出来的原因是大数据的研究方式不同于基于数学模型的传统研究方式。
图2-4 大数据之父吉姆·格雷
科学研究的四个范式如图2-5所示。第一范式是实验,通过实验发现知识,这时需要的计算和产生的数据都是很少的;第二范式是理论,通过理论研究发现知识,如牛顿力学体系、Maxwell(英国物理学家、数学家,经典电动力学的创始人,统计物理学的奠基人之一)的电磁场理论等等,人类可以利用这些理论发现新的行星,如海王星、冥王星的发现不是通过观测而是通过计算得到;第三范式是计算,通过计算发现知识,人类利用基于高性能计算机的仿真计算可以实现模拟核爆炸这样的复杂计算;第四范式是数据,通过数据发现知识,可以利用海量数据加上高速计算发现新的知识,是数据密集型的科学发现。
图2-5 科学研究四个范式的发展历程
基于PB级规模的大数据,人们可以做到没有模型和假设,将这些数据丢进计算能力的计算机集群中,只要是有相互关系的数据,统计分析算法就可以从中发现过去的科学方法发现不了的新模式、新知识甚至新规律。实际上,Google的广告优化配置、2016年3月在围棋挑战赛中战胜人类的AlphaGo系统都是这么实现的,这就是“第四范式”的魅力!人类从依靠自身判断做决定到依靠数据做决定的转变,体现了大数据对科学研究的影响,是大数据做出的最大贡献之一。
2.1.5 云计算与大数据的关系
云计算与大数据是一对相辅相成的概念,它们描述了面向数据时代信息技术的两个方面,云计算侧重于提供资源和应用的网络化交付方法,大数据侧重于应对巨大的数据量所带来的技术挑战。
云计算的核心是业务模式,其本质是数据处理技术。数据是资产,云计算为数据资产提供了存储、访问的场所和计算能力,即云计算更偏重大数据的存储和计算,以及提供云计算服务,运行云应用。但是云计算缺乏盘活数据资产的能力,从数据中挖掘价值和对数据进行预测性分析,为国家治理、企业决策乃至个人生活提供服务,这是大数据的核心作用。云计算是基础设施架构,大数据是思想方法,大数据技术将帮助人们从大体量、高度复杂的数据中分析、挖掘信息,从而发现价值和预测趋势。