大数据治理与安全:从理论到开源实践
上QQ阅读APP看书,第一时间看更新

kuai

第1章
大数据治理技术

1.1 概述

1.1.1 大数据治理的基本概念

现如今,我们已被数据包围,数据正在逐渐将我们淹没。来自于社交媒体、网络日志、GPS信号、RFID标签、网络音频、数字图片等方面的数据扑面而来。大数据被炒得火热,大数据时代已然来临。而大数据本身是一个比较抽象的概念,如果我们仅仅从字面来理解,它表示数据规模的庞大。但是仅仅数量上的庞大这一简单的理解显得有些狭隘,难以区分这一概念和以往的“海量数据”“超大规模数据”等概念的区别。而现如今,当谈到大数据定义时都运用比较有代表性的3V定义,即认为大数据需满足以下3个特点:规模性(Volume)、多样性(Variety)和高速性(Velocity)。而IDC认为还应该添加数据具有的价值性(Value), IBM认为大数据必然具有真实性(Veracity)。当然每个人对大数据有不同的理解,当我们面对实际问题时,没必要拘泥于这些现有的定义,只要符合业务规则即可。

伴随着网络和信息技术的不断发展与普及,人类产生的数据量正在呈指数级增长,在历史上从未有哪个时代产生如此海量的数据。数据的产生已经完全不受时间、地点的限制,大约每两年就会翻一倍,换句话说,每两年产生的数据量相当于之前产生的全部数据量。并且根据现有的数据量监测,这个速度还会在很长一段时间内保持下去。信息数据的单位由TB→PB→EB→ZB的级别暴增,而这样的数据很明显已经远远超出了我们人力所能处理的范围,因此大数据应运而生。它的重要性也因此而得之。

伴随着数据行业的昌盛发展,很自然就产生了一个对应的问题:这些数据作为原材料应该怎么管理?虽然数据管理并不新鲜,很早以前我们也一直在做,但随着数据爆炸性地呈指数级增长,我们如今所讲的数据和以往已经大大不同。而这也不仅仅体现在数据的大小上,同时也体现在数据的内容、来源、结构上。举个简单的例子,现如今Facebook的日均新增数据量可达600TB左右,未来必然会更高。那么处理如此大量的数据,我们不禁要问:以往的算法还可能吗?应用还能正常运行吗?答案是否定的。随着数据的变化,我们的算法也要升级,同样,我们以往的数据管理方式与思路也无法完全适应,也需要创新。因此大数据治理的概念应运而生。

既然已提出大数据治理的概念,那么它应该和大数据管理有明显的区别。COBIT5COBIT(Control Objectives for Information and related Technology)是目前国际上通用的信息系统审计标准,由信息系统审计与控制协会在1996年公布。这是一个在国际上公认的、权威的安全与信息技术管理和控制的标准,目前已经更新至5.0版。它在商业风险、控制需要和技术问题之间架起了一座桥梁,以满足管理的多方面需要。该标准体系已在世界100多个国家的重要组织与企业中运用,指导这些组织有效地利用信息资源,有效地管理与信息相关的风险。对两者进行了精准的区分定义。

1.管理定义

管理(Management)是指按照治理机构设定的方向展开计划、建设、运营和监控活动,以实现企业目标。

基于此定义,管理包含计划、建设、运营和监控4个关键活动,并且活动必须符合治理机构所设定的方向和目标。

2.治理定义

治理(Governance)是指评估利益相关者的需求、条件和选择以达成平衡一致的企业目标,通过优先排序和决策机制来设定方向,然后根据方向和目标来监督绩效与规范。

基于此定义,治理包括评估、指导和监督3个关键活动,并且输出结果与设定方向必须和预期的目标一致。

从上述定义可做如下总结。

1)关键活动不同:管理包含计划、建设、运营和监控4个关键活动,治理包含评估、治理和监督3个关键活动。

2)过程不同:根据COBIT 5的定义,管理包括4个域,APO(调整、计划和组织)、BAI(建立、获取和实施)、DSS(交付、服务和支持)、MEA(监视、评价和评估),每个域又包含若干个流程。而治理包含如下过程,框架的设置与维护、确保资源化、风险化、收益交付、利益相关透明。

3)分工不同:治理相当于决策者,制定决策;管理相当于执行者,负责制定和实施决策的过程。

目前最权威的大数据治理的定义由桑尼尔·索雷斯桑尼尔·索雷斯是信息资产公司LLC的创始人和执行合伙人(LLC专注于帮助组织构建信息治理计划),他曾任IBM的信息治理总监,其合作客户遍布六大洲和众多行业,他是较早提出大数据安全与治理理念的先驱之一。提出,主要包含如下6个部分:

1)大数据治理应该被纳入现有的信息治理框架内。

2)大数据治理的工作就是制定策略。

3)大数据必须被优化。

4)大数据的隐私保护很重要。

5)大数据必须被货币化,即创造商业价值。

6)大数据治理必须协调好多个职能部门的目标和利益。

根据上述相关定义可知,为了形成有效的治理体系,治理和管理必须相互作用,相互配合,才能取得最优效果。很多技术上的相关领域涉及治理框架、数据优化、隐私保护等。

大数据的大规模性、高速性和多样性等特征,使得它不同于小量数据。将小量数据的隐私保护方法用在大数据上会有很大的局限性:大数据的多样性带来的多源数据融合使得传统的匿名化和模糊化技术几乎无法生效;大数据的大规模性与高速性带来的实时性分析使得传统的加密和密码学技术遇到了极大的瓶颈。此外,大规模的数据采集技术、新型存储技术以及高级分析技术使得大数据的隐私保护面临更大的挑战。因此数据的隐私保护与安全也是大数据治理的重要关注点之一。

而在数据治理的框架下,元数据的管理也显得尤为重要。元数据按照数据类别信息进行区分可分为技术元数据与业务元数据。

技术元数据是存储关于数据仓库系统技术细节的数据,是开发和管理数据仓库的使用的数据,它主要包括以下信息:数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集的位置和内容;业务系统、数据仓库和数据集的体系结构和模式。

业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息。还包括企业概念模型,这是业务元数据所应提供的重要信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。

图1-1 大数据安全与治理体系

而对于元数据的管理又可分为以下两部分。

1)数据质量的管理:就像超市对物品进行清理一样,我们的数据也需要定期清理。

2)信息生命周期的管理:对大数据进行存档,并在没必要继续保存某些数据时将它删除。

大数据安全与治理体系下需要解决的问题如图1-1所示。

本书中,通过将Apache的Ranger、Atlas、Falcon以及Hadoop生态下的其他组件进行整合,形成完整的大数据安全与治理体系,以此来完成安全与隐私保护、元数据管理、数据生命周期管理等问题。本书中的大数据治理框架如图1-2所示。读者初看时可能难以有清晰直观的认识,当读完本书再回头观看此图时定会有不一样的理解。

图1-2 大数据治理框架

大数据的快速发展,使它成为IT领域的又一大新兴产业。据估算,国外大数据行业约有1000亿美元的市场,而且每年以10%的速度增长,增速是软件行业的2倍。而我国的大数据行业因起步稍晚,增速更为迅猛。而目前中国政府和企业对数据治理的重视程度也不断提升,在通信行业、银行行业、能源行业、互联网行业都已经开展了大数据治理的相关工作。在这个过程中,学术界和工业界做了很多探索,建立了较为科学、完整的数据治理理论体系和框架。本文从理论到实践引导读者加深理解,上文所提及的治理框架、数据安全、隐私保护、数据质量管理、数据生命周期管理都将在实践篇给出具体的实现。

1.1.2 大数据治理的意义和重要作用

如今,我们的生活已经被数据所淹没,但是目前主流的软件往往无法在合理的时间内完成对数据的撷取、管理、处理并整理成为帮助企业经营决策的重要资讯这些工作,而随着数据量的逐步扩增,这一现象会更加明显。所以企业经常要面对超出其基础设施和流程处理能力的大量数据,而从数据中挖掘出对制定有效决策有实际价值的情报更是难上加难。如今,由于种类、数量日益成倍增加的数据从社交媒体及各种在线渠道汹涌而来,导致处理上述数据的迫切性也日益加强,企业面临着更多的技术难题和挑战。

大数据不断从各种渠道、以多种格式涌入,其中蕴含着大量商业价值,但仅利用传统的数据处理方法和技术无法处理它们。故而早在2009年年初,《大数据资产:智慧企业如何在数据治理中胜出》的作者Tony Fisher就指出,如果基础数据不可靠,多数企业或大数据计划会失败,或者效果会低于预期。导致上述结果的关键原因是数据进入生命周期的不一致,数据不准确,数据不可靠。这些原因可能是多样性的:

1)大数据计划中的数据识别不完整。目前还不清楚如何获取数据,如何使用数据,哪些业务目标要满足,哪些人有权拥有数据。

2)数据收集和转换没有制定适当的标准、体系结构、元数据定义、数据所有权、策略和数据转换规则。

3)数据传输在业务用户上下文、安全性、数据和业务流程方面没有正确定义。

那么大数据治理计划的意义及其所包含的内容是什么呢?数据治理是指在企业数据生命整个周期(从数据采集到数据使用,直至数据存档)中,制定由业务推动的数据政策、数据所有权、数据监控、数据标准以及指导方针。数据治理的重点在于,要将数据明确作为企业的一种资产看待。

更好的数据意味着更好的决策,这句话在一定程度上反映了数据领域内的主要关注点,在当今的大数据时代甚至更为真切。但它之所以成立的基本假定也未改变,那就是“基本数据是准确、可靠、值得信赖的,来龙去脉清楚,并且具有一致性”。如果没有一个可靠的数据治理计划,那么这条假定也无法成立。

我们都听过诸如此类的说辞:“IT技术融入业务对我们的企业至关重要”“IT技术促成各种业务功能的实现”。但对企业上下进行实际的评估,能实现上述说辞的情况却是屈指可数。对大多数企业而言,IT技术与各种业务目标之间仍存在差距,首席信息官及各高级主管仍在努力设法使IT技术能配合各种业务目标,从而促进企业战略目标的实现。在对成功企业进行分析后,可以得出一个很明确的结论,那就是“有效的数据治理计划”是成功企业的法宝。

任何大数据计划都应该考虑数据的以下特性:数量大、种类多、产生频率高、质量可靠性低、模糊性高。那么数据处理团队想要完全识别、定义并分析这些数据,就要征询企业各方利益相关者的意见。这样做才能让企业拥有者、数据拥有者以及数据治理部门在数据治理初期就避免一些错误,确保框架的正确搭建及实施,从而达到数据集规划与业务流程紧密联系且合理有效的目的。

现在,伴随着大数据运用时代的到来,所谓“数据驱动”已然成为未来全世界的发展趋势。现在大数据已经应用于全球的生产、分配及消费活动等,并且对于国家经济的运营体制、社会民生和国家的治理生产、制造能力等都会产生非常重要的影响。在未来,国家之间的竞争可能会从资本和土地等资源的争夺转移到大数据的争夺。所以,现在大数据已经成为每个国家的战略资源的基础设施,同时,大数据治理也成为多个国家提升现代治理能力的一个重要标杆。

随着互联网、云计算等网络相关的新技术的不断完善和知识普及,我们的社会已经进入大数据时代,大量数据的产生和流转都将成为再平常不过的事。到2016年年底,全球近50%的人口在使用互联网,人人都拥有一台或多台网络终端设备,随时随地都可以上网,所以全球的数据量也在飞速增长。2020年,预计全球的数据使用量将会达到40ZB,每个行业都将产生并使用大数据,大数据也将成为发展的新趋势。而大数据治理将为社会经济能力发展提供新的动力。

在这个大数据时代,世界上各个国家都将大数据看作国家的核心资产。因此,对大数据的开发、利用和保护的概念就越来越强,可能还会产生对于大数据的争夺。大数据概念的出现就使得国家的强弱对比不仅体现在经济发展层面,还体现在一个国家大数据治理实力如何。所以对于大数据安全与治理的挑战也才刚刚开始。