大数据技术与应用
上QQ阅读APP看书,第一时间看更新

1.1 什么是大数据

人类的数字世界包括上传到手机中的图像和视频、用于高清电视的数字电影、ATM机中的银行数据、机场和重要活动的安全录像(比如奥林匹克运动会)、欧洲原子能研究机构(CERN)中大型强子对撞机的亚原子碰撞记录、优步专车的拼车路线记录、通过移动网络传输的微信语音通话,以及用于日常沟通的短信文本等。 

根据IDC ../Text/Chapter01_0006.xhtml#foot1 《数字世界》研究项目的统计,2010年全球数字世界的规模首次达到了ZB(1ZB=1万亿GB)级别(1.227ZB);而2005年这个数字只有130EB,基本上5年增长了10倍。这种爆炸式的增长,意味着到2020年,数字世界的规模将达到40ZB,即15年增长300倍。如果单就数量而言,40ZB相当于地球上所有海滩上的沙粒数量的57倍。如果用蓝光光盘保存所有这些40ZB数据,这些光盘的重量(不包括任何光盘套和光盘盒)将相当于424艘尼米兹级航空母舰的重量(满载排水量约10万吨),或者相当于世界上每个人拥有5247GB的数据。无疑,现在已经进入了“大数据”时代。 

和之前的一些IT流行语一样,“大数据”也是一个起源于欧美的词汇。在一些以大数据为主题的报告中,经常会引用2010年2月出版的《经济学家》(The Economist)杂志中一篇题为The data deluge的文章。Deluge的中文意思是“大泛滥、大洪水”“大量”。因此,这篇文章的标题直译出来,就是“数据洪流”或“海量数据”。自这篇文章问世以来,大数据作为热门话题的出镜率便急剧上升,因此可以肯定的是,这篇文章是大数据备受瞩目的一个重大契机。 

基本知识:字节大小。 

字节最小的基本单位是Byte(B),按照进率1024(即2的十次方)计算,顺序给出如下。 

1B=8bit(位),一个英文字符 

1KB=1024B,一个句子或一段话 

1MB=1024KB,一个20页的幻灯片演示文稿或一本小书 

1GB=1024MB,书架上9m长的书 

1TB=1024GB,300h的优质视频、美国国会图书馆存储容量的1/10 

1PB=1024TB,35万张数字照片 

1EB=1024PB,1999年全世界生成的信息的一半 

1ZB=1024EB,暂时无法想象 

1YB=1024ZB 

1DB=1024YB 

1NB=1024DB 

2011年5月,美国麦肯锡全球研究院(MGI)发表了一篇名为Big Data: The Next Frontier for Innovation,Competition and Productivity(大数据:未来创新、竞争、生产力的指向标)的研究报告,“大数据”(big data,见图1-1)这个关键词便开始沿用至今。不过,最先对如何面对庞大数据这一问题进行剖析的,应该还是《经济学家》杂志中的那篇文章。从2012年开始,大数据成了IT业界关注度不断提高的关键词之一。 

978-7-111-53304-7-Chapter01-1.jpg

图1-1 大数据时代 

1.1.1 大数据的定义

所谓大数据,是指用现有的一般技术难以管理的大量数据的集合,即所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内实现获取、管理、处理、并使之成为有效的辅助企业经营决策的信息。 

所谓“用现有的一般技术难以管理”,是指用目前在企业数据库占据主流地位的关系型数据库无法进行管理的、具有复杂结构的数据。或者也可以说,是指由于数据量的增大,导致对数据的查询(Query)响应时间超出允许范围的庞大数据。 

研究机构Gartner给出了这样的定义:大数据是需要新的处理模式,才能使用户具有更强的决策力、洞察发现力和流程优化能力,以及海量、高增长率和多样化的信息资产。 

麦肯锡说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、管理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大于一个特定数字的TB才称为大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十TB到几PB。” 

如今,“大数据”这一通俗直白、简单朴实的名词,已经成为最火爆的IT行业词汇,随之,数据仓库、数据安全、数据分析和数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引领了又一轮数据技术革新的浪潮。 

1.1.2 用3V描述大数据的特征

从字面来看,“大数据”这个词可能会让人觉得只是容量非常大的数据集合而已。但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理”这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。 

IBM说:“可以用3个特征相结合来定义大数据:数量(Volume,或称容量)、种类Variety,或称多样性)和速度(Velocity),或者就是简单的3V,即庞大容量、极快速度和种类丰富的数据。”如图1-2所示。 

978-7-111-53304-7-Chapter01-2.jpg

图1-2 按数量、种类和速度来定义大数据

1.Volume(数量) 

用现有技术无法管理的数据量,从现状来看,基本上是指从几十TB到几PB这样的数量级。当然,随着技术的进步,这个数值也会不断变化。 

如今,存储的数据数量正在急剧增长中,存储的事物包括环境数据、财务数据、医疗数据和监控数据等。有关数据量的对话已从TB级别转向PB级别,并且不可避免地会转向ZB级别。可是,随着可供企业使用的数据量的不断增长,可处理、理解和分析的数据的比例却不断下降。 

2.Variety(种类、多样性) 

随着传感器、智能设备及社交协作技术的激增,企业中的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。 

这里的种类是表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据和视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。 

当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不同的是,这些大数据并非只是存储起来就够了,还需要对其进行分析,并从中获得有用的信息。例如监控摄像机中的视频数据。近年来,超市、便利店等零售企业几乎都配备了监控摄像机,其最初目的是为了防范盗窃,但现在也出现了使用监控摄像机的视频数据来分析顾客购买行为的案例。 

例如,美国高级文具制造商万宝龙(Montblanc)过去是凭经验和直觉来决定商品陈列的布局的,现在尝试利用监控摄像头对顾客在店内的行为进行分析。通过分析监控摄像机的数据,将最想卖出去的商品移动到最容易吸引顾客目光的位置,使得销售额提高了20%。 

美国移动运营商T-Mobile也在其全美1000家店中安装了带视频分析功能的监控摄像机,可以统计来店人数,还可以追踪顾客在店内的行动路线、在展台前停留的时间,甚至是试用了哪一款手机、试用了多长时间等,对顾客在店内的购买行为进行分析。 

3.Velocity(速度) 

数据产生和更新的频率也是衡量大数据的一个重要特征。就像所收集和存储的数据量和种类发生了变化一样,生成和处理数据的速度也在变化。不要将速度的概念限定为与数据存储库相关的增长速率,应动态地将此定义应用到数据,即数据流动的速度。有效处理大数据需要在数据变化的过程中对它的数量和种类进行分析,而不只是在它静止后进行分析。 

例如,遍布全国的便利店在24小时内产生的POS机数据,电商网站中由用户访问所产生的网站点击流数据,高峰时达到每秒近万条的微信短文,以及全国公路上安装的交通堵塞探测传感器和路面状况传感器(可检测结冰、积雪等路面状态)等,每天都在产生着庞大的数据。 

IBM在3V的基础上又归纳总结了第四个V—Veracity(真实和准确)。“只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限性被打破,企业愈发需要有效的信息治理以确保其真实性和安全性。” 

IDC(互联网数据中心)说:“大数据是一个貌似不知道从哪里冒出来的大的动力。但是实际上,大数据并不是新生事物。然而,它确实正在进入主流,并得到重大关注,这是有原因的。廉价的存储、传感器和数据采集技术的快速发展、通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,正在驱动着大数据。大数据不是一个‘事物’,而是一个跨多个信息技术领域的动力/活动。大数据技术描述了新一代的技术和架构,其被设计用于:通过使用高速(Velocity)的采集、发现和/或分析,从超大容量(Volume)的多样Variety)数据中经济地提取价值(Value)。” 

这个定义除了揭示大数据传统的3V基本特征,即Volume(大数据量)、Variety(多样性)和Velocity(高速)外,还增添了一个新特征——Value(价值)。 

一个大数据实现的主要价值可以基于下面3个评价准则中的1个或多个进行评判。 

· 它提供了更有用的信息吗? 

· 它改进了信息的精确性吗? 

· 它改进了响应的及时性吗? 

事实上,大数据,或者说“极限信息”(Extreme Information)具有12个维度(象限)图1-3展示了极限信息管理的3个层次和12个象限。 

978-7-111-53304-7-Chapter01-3.jpg

图1-3 极限信息管理的3个层次和12个象限

最下面一层“量化指标”指的是大数据的基本特征,即大数据量、多样性和高速,即传统的3V概念。另外还加上了“复杂性”(Complexity),包括空间维、时间维等多种数据复杂性。大数据解决方案应首先考虑以这些问题为出发点。然而,解决这4个方面的问题只是大数据解决方案的基础,用以支撑起大数据平台,在这之上还有很多问题需要解决。 

第二层“访问权限管理和控制”有很多关于访问权限的问题。数据的敏感性是一个很基础的问题,但到现在为止,基于现有的技术和管理手段,还没有对数据的敏感性进行分析的优秀的解决方案。所谓共享协议,即数据将会以什么形式、什么格式和时间点通过什么样的接口实现这些共享和数据的交换,这是大数据的重点问题之一。数据交换的所有方式都是以标准的协议来支持的,因为在大数据时代,数据的来源本身是多样性的,数据的格式甚至是无法管理的,还有很多数据来自企业外部,来自互联网的提供商,到底如何通过这些协议自动将数据放到数据仓库里面来,这种情况下,数据的共享协议是一个很关键的问题。至于热点数据,在大数据时代,数据管理与传统的方式有非常明显的差别。传统的数据管理会把单独的时间点作为一个热点数据,但是在大数据时代,热点数据有可能是并行的多个。这些热点数据之间实际上是有可能有联系的。由于各种事件的相互触发,这些热点数据可能同时出现,而且是相互关联的,甚至是可以预测的。所以说在大数据时代,热点数据的管理也是一个重要话题。 

最上面一层“质量管理”也是传统数据管理中非常重要的一个方面。这里面提到的有效性和有效期限,都有明确的技术工具来解决。但到现在为止,在这些方面还是非常依赖传统的数据仓库工具,而没有专门针对大数据的工具和技术能够解决这些问题。其结果是,大数据应用一方面受制于用户接受的程度,另一方面也受制于技术。现在看来,很多用户仍然必须依赖传统的数据管理的解决方案,而只能拿大数据的技术作为一个前台来做一些预处理。因为它缺少相应的技术和工具的支持。所以,大数据从12个象限的角度来说,还只是一个初步,因为里面一些非常基本的问题到现在还没有解决。大数据的形态有很多,现在仍然是雏形阶段。数据的集成,尤其是跨行业、跨不同的部门、跨各种技术能集成起来的机会还是非常少的。 

除了业内主流的以大数据3V特征为基础的定义外,还有使用3S或者3I来描述大数据特征的定义。 

3S分别是Size(大小)、Speed(速度)和Structure(结构)。实际上,这个维度的特征与3V异曲同工,除了用词的不同,并没有太大的差别。 

关于大数据的3I,介绍如下。 

1)Ill-defined(定义不明确的):多个主流的大数据定义都强调了数据的规模需要超过传统方法的处理能力。而随着技术的进步,数据分析的效率不断提高,符合大数据定义的数据规模也会相应地不断变大,因而并没有一个明确的标准。 

2)Intimidating(令人生畏的):从管理大数据到使用正确的工具获取它的价值,利用大数据的过程充满了各种挑战。 

3)Immediate(即时的):数据的价值会随着时间快速衰减。因此,为了保证大数据的可控性,需要通过减少数据收集到获得数据洞察之间的时间,使得大数据成为真正的即时大数据。这意味着能尽快地分析数据对获得竞争优势是至关重要的。 

总之,大数据是一个动态的定义,不同行业根据其应用的不同有着不同的理解,其衡量标准也在随着技术的进步而改变。 

1.1.3 广义的大数据

前面关于大数据定义的着眼点仅仅在于数据的性质上,因此,将其视为狭义上的定义,并在广义层面上再为大数据下一个定义,如图l-4所示。 

978-7-111-53304-7-Chapter01-4.jpg

图1-4 广义的大数据

所谓大数据,是一个综合性概念,它包括因具备3V(Volume、Variety和Velocity)特征而难以进行管理的数据,对这些数据进行存储、处理和分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织。 

所谓“存储、处理和分析的技术”,指的是用于大规模数据分布式处理的框架Hadoop、具备良好扩展性的NoSQL数据库,以及机器学习和统计分析等。所谓“能够通过分析这些数据获得实用意义和观点的人才和组织”,指的是目前十分紧俏的“数据科学家”这类人才,以及能够对大数据进行有效运用的组织。