第2章
大数据安全、隐私保护和审计技术
2.1 大数据安全
大数据(Big Data)指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的信息。大数据是当下最火热的IT行业的词汇,随之数据仓库、数据安全、数据分析、数据挖掘等围绕大数据的商业价值的利用将逐渐成为行业人士争相追捧的利润焦点。本节介绍大数据安全的意义和重要作用、大数据面临的问题与挑战,以及大数据安全防护的主要技术。
2.1.1 大数据安全的意义和重要作用
为什么要研究大数据?在开始了解大数据安全之前,需要先搞清楚这个问题。当今,社会信息化和网络化的发展导致数据的爆炸式增长,据统计,平均每秒有200万用户在使用谷歌搜索,各行业也在不断产生大量数据。在科学界,《Nature》和《Science》都推出了大数据专栏对其展开探讨,这意味着大数据将成为云计算之后的信息技术领域的另一个信息产业增长点。
现阶段,国家十分支持大数据的发展,国务院以及各级地方政府从2012年开始颁布了大量政策来扶持大数据产业。从现有的政策来看,大数据的发展已经被列为国家发展战略了,大数据的重要性不言而喻。大数据已经得到政府高层、互联网企业以及其他各个行业企业的认可,对大数据的开发和应用的力度也相应加大。近年来,我国高度重视大数据发展,仅2015年最高层面就发出了多次重视大数据的声音。2015年5月,李克强总理提出,大数据产业是中国推动“互联网+”战略的重要支撑。2015年6月,习近平主席考察贵阳,调研贵阳大数据交易所时说发展大数据确实有道理。在政策层面,2015年9月,国务院通过《关于促进大数据发展的行动纲要》,这是支持大数据发展的第一部正式国家层面文件,对大数据的规范化发展起到了至关重要的作用。
大数据对企业的影响也是巨大的,正是大数据对企业所产生的立竿见影的效果,现在已经得到更多公司的重视。首先,大数据能够彻底改变企业内部运作模式,以往的管理是“领导怎么说?”,现在变成“大数据的分析结果是什么?”。这是对传统领导力的挑战,也推动了对企业管理岗位人才的重新定义。企业管理人才不仅要懂企业的业务流程,还要成为数据专家,跨专业的要求改变了过去领导力主要体现在经验和过往业绩上,如今新的要求是熟练掌握大数据分析工具,善于运用大数据分析结果,并结合企业的销售和运营管理实践。当然大数据对企业的作用中一个不可回避的关键因素是数据的质量,有句话叫“垃圾进,垃圾出”,是说如果采集的是大量垃圾数据,则会导致产生的分析结果也是毫无意义的垃圾。
大数据也在影响着我们每个人的生活,使得一些服务更加贴近大家的生活。打开浏览器上网,广告弹窗推荐的商品可能正好就是你最近想买的东西。翻阅自己的微博,查看定位信息就能够准确回忆起一年前的今天你在哪里,做了什么。在搜索引擎中输入几个关于自己的关键词,也许可以重温你在10年前写下的网络日志。进入淘宝网,它就能根据你的历史浏览记录为你贴心地推荐你想要的商品。大数据现在已经进入人们的生活。
正是因为大数据对国家、企业、个人具有重要的作用,并具有很高的研究价值,所以大数据安全现在成为学术与工业界的研究热点,是人们公认的大数据相关问题中关键的问题之一。没有安全,发展就是空谈,数据安全是发展大数据的前提,必须将它摆在更加重要的位置。我们在使用和发展大数据的同时,也容易出现大数据引发的个人隐私安全、企业信息安全乃至国家安全问题。
1)与大数据安全及个人关系最密切的就是个人隐私安全,在大数据时代,想屏蔽外部数据商挖掘个人信息是不可能的。目前,各社交网站均不同程度地开放其用户所产生的实时数据,这些数据被一些数据提供商收集,还出现了一些监测数据的市场分析机构。通过人们在社交网站中写入的信息、智能手机显示的位置信息等多种数据组合,已经可以以非常高的精度锁定个人,挖掘出个人信息体系,因此,用户隐私问题堪忧。据统计,通过分析用户4个曾经到过的位置,就可以识别出95%的用户。“你没有隐私,忘记这事吧。”有数据统计,中国78.2%的网民个人身份信息被泄露过,包括姓名、学历、家庭住址、身份证号及工作单位等。其中,82.3%的网民亲身感受到了个人信息泄露给日常生活造成的不良影响。
2)企业迈进大数据时代,信息安全面临多重挑战。企业在获得“大数据时代”信息价值增益的同时,也在不断地累积风险,大数据安全方面的挑战日益增大。首先是黑客窃密与病毒木马对企业信息系统的入侵,大数据在云系统中进行上传、下载、交换的同时,极易成为黑客与病毒的攻击对象。而“大数据”一旦被入侵并产生泄密,就会对企业的品牌、信誉、研发、销售等多方面带来严重冲击,并带来难以估量的损失。通常,那些对大数据分析有较高要求的企业,会面临更多的挑战,例如电子商务、金融、天气预报的分析预测、复杂网络计算和广域网感知等。任何一个会误导目标信息提取和检索的攻击都是有效攻击,因为这些攻击会对安全厂商的大数据安全分析产生误导,导致其分析偏离正确的检测方向。这些攻击需要我们集合大量数据,进行关联分析才能够知道其攻击意图。大数据安全是与大数据业务相对应的,传统时代的安全防护思路此时难以奏效,并且成本过高。无论是从防范黑客对数据的恶意攻击,还是从对内部数据的安全管控角度,为了保障企业信息安全,迫切需要一种更为有效的方法对企业大数据安全进行有效管理。
3)大数据时代,国家安全将受到信息战与网络恐怖主义的威胁,大数据安全的重要性在国家层面也需要得到重视。如今的信息时代,安全环境发生了质的变化。不管是战争时期还是和平年代,一国的各种信息设施和重要机构等都可能成为打击目标,而且保护它们免受攻击已超出了军事职权和能力的范围。决策的不可靠性、信息自身的不安全性、网络的脆弱性、攻击者数量的激增、军事战略作用的下降和地理作用的消失等,都使国家安全受到了严峻的挑战。此外,大数据也使网络恐怖主义者有了可乘之机。庞大海量的大数据涉及面广泛,将有可能使网络恐怖主义的势力侵入人们生活的方方面面。大数据对国家安全的影响涉及了国家安全内容的诸多方面,我们平时关注比较多的有科技安全、信息安全,其实大数据安全对国民安全、政治安全、意识形态安全、社会公共安全等的影响也很大。
大数据的发展给我们带来了机遇,但是也带来了挑战。大数据已经影响到个人、企业、国家,对整个社会都有很重要的影响,在享受大数据的便利的同时我们必须重视大数据安全。
2.1.2 大数据安全面临的问题与挑战
“世界的本质是数据,大数据开启了一次重大的时代转型,也是一场生活、工作与思维的大变革。”随着世界各国在陆、海、空、天、电、网多维度战略的部署,信息技术爆炸式发展。基于大数据发展对国家、社会的组织结构和治理模式,对商业、企业的决策方式和业务策略,对个人的生活、思维方式等各方面产生的深刻影响,各界逐渐开始关注“信息”本身而不只是“技术”了。在大数据时代,人类信息管理准则也将面临重新定位,而在信息安全问题日益突出的当下,大数据在给信息安全带来新挑战的同时,也为信息安全领域的发展带来新机遇。
1.大数据成为网络攻击的显著目标
在网络空间中,大数据成为更容易被“发现”的大目标,承载着越来越多的关注度。大数据自身规模大且集中的特点使得其在网络空间中无疑是一个更易被“发现”“命中”的大目标,低成本、高收益的攻击效果对黑客而言是充满诱惑力的。一方面,大数据不仅意味着海量的数据,也意味着更复杂、更敏感的数据,这些数据成为更具吸引力的目标,会吸引更多的潜在攻击者。另一方面,数据的大量聚集,使得黑客通过一次成功的攻击就能够获得更多的数据,无形中降低了黑客的攻击成本,增加了“收益率”。
2.大数据加大隐私泄露风险
网络空间中的数据来源涵盖非常广阔的范围,例如传感器、社交网络、记录存档、电子邮件等,大量数据的聚集不可避免地加大了用户隐私泄露的风险。一方面,大量数据聚集,包括大量的企业运营数据、客户信息、个人的隐私和各种行为的细节记录,这些数据的集中存储增加了数据泄露风险,而这些数据不被滥用,成为人身安全的一部分。另一方面,一些敏感数据的所有权和使用权并没有明确的界定,很多基于大数据的分析都未考虑其中涉及的个体的隐私问题。
从个人隐私的角度而言,用户在互联网中产生的数据具有累积性和关联性,单点信息可能不会暴露隐私,但如果采用大数据关联性抽取和集成有关某用户的多点信息并进行汇聚分析,其隐私泄露的风险将大大增加,关联性利用类似于现实生活中通过“人肉搜索”将某人或事物暴露。
从企业、政府等大的角度而言,大数据安全标准体系尚不完善,隐私保护技术和相关法律法规尚不健全,加之大数据所有权和使用权出现分离,使得数据公开和隐私保护很难做到友好协调。在数据的合法使用者利用大数据技术收集、分析和挖掘有价值信息的同时,攻击者也同样可以利用大数据技术最大限度地获取他们想要的信息,这无疑增加了企业和政府敏感信息泄露的风险。
从大数据基础技术的角度而言,无论是被公认为大数据标准开源软件的Hadoop,还是大数据依托的数据库基础NoSQL,其本身均存在数据安全隐患。Hadoop作为一个分布式系统架构对数据的汇聚增加数据泄露风险的同时,作为一个云平台也存在着云计算面临的访问控制问题,其派生的新数据也面临加密问题。NoSQL技术将不同系统、不同应用和不同活动的数据进行关联,加大了隐私泄露风险。又由于数据的多元非结构化,使得企业很难对其中的敏感信息进行定位和保护。
3.大数据对现有的存储和安防措施提出挑战
大数据存储带来新的安全问题。大数据集中的后果是复杂多样的数据存储在一起,例如开发数据、客户资料和经营数据存储在一起,可能会出现违规地将某些生产数据放在经营数据存储位置的情况,造成企业安全管理不合规。大数据的大小影响到安全控制措施能否正确运行。对于海量数据,常规的安全扫描手段需要耗费过多的时间,已经无法满足安全需求。安全防护手段的更新升级速度无法跟上数据量非线性增长的步伐,大数据安全防护存在漏洞。
4.大数据技术被应用到攻击手段中
在企业用数据挖掘和数据分析等大数据技术获取商业价值的同时,黑客也在利用这些大数据技术向企业发起攻击。黑客最大限度地收集更多有用信息,比如社交网络、邮件、微博、电子商务、电话和家庭住址等信息,为发起攻击做准备,大数据分析让黑客的攻击更精准。此外,大数据为黑客发起攻击提供了更多机会。黑客利用大数据发起“僵尸网络攻击”,可能会同时控制上百万台“傀儡机”并发起攻击,这个数量级是传统单点攻击不具备的。
5.大数据成为高级可持续攻击的载体
黑客利用大数据将攻击很好地隐藏起来,用传统的防护策略难以检测出来。传统的检测是在单个时间点进行的基于威胁特征的实时匹配检测,而高级可持续攻击(APT)是一个实施过程,并不具有能够被实时检测出来的明显特征,无法被实时检测。同时,APT攻击代码隐藏在大量数据中,很难被发现。此外,大数据的价值低密度性,让安全分析工具很难聚焦在价值点上,黑客可以将攻击隐藏在大数据中,给安全服务提供商的分析造成很大困难。黑客设置的任何一个会误导安全厂商目标信息提取和检索的攻击,都会导致安全监测偏离应有的方向。
6.大数据技术为信息安全提供新支撑
大数据在带来新安全风险的同时也为信息安全的发展提供了新机遇。大数据正在为安全分析提供新的可能性,对于海量数据的分析有助于信息安全服务提供商更好地刻画网络异常行为,从而找出数据中的风险点。对实时安全和商务数据结合在一起的数据进行预防性的分析,以便识别钓鱼攻击,防止诈骗和阻止黑客入侵。网络攻击行为总会留下蛛丝马迹,这些痕迹都以数据的形式隐藏在大数据中,利用大数据技术整合计算和处理资源有助于更有针对性地应对信息安全威胁,使得网络攻击行为无所遁形,有助于找到发起攻击的源头。
7.大数据对信息安全的合规性要求
大数据时代出现数据拥有权和使用权的分离,数据经常脱离数据拥有者的控制范围而活跃着,这就对数据需求合规性和用户授权合规性提出新的要求,包括数据形态和转移方式的合规性。数据需求方为精准开展一个业务,要求数据拥有者提供原始敏感数据或未脱敏的统计类数据,显然这违背了信息安全的本意。就算数据需求遵循最小级原则,对数据的提供未超出合理范围,用户授权仍是数据服务的前提,包括转移数据使用的目的、范围、方式以及授权信息的保存等各个环节。
在对信息安全提出合规性要求的同时,引入第三方的标准符合性审查服务也很必要。如通过针对数据提供者和接受者双方的审查,包括文档资料安全规范的审查,技术辅助现场审查,在供方和需方之间做扫描和数据检测,提供第三方公平的数据安全审查服务。
2.1.3 大数据安全防护技术
1.数据发布匿名保护技术
图2-1 匿名化处理过程
数据发布匿名保护技术是对大数据中的结构化数据实现隐私保护的关键技术手段。匿名化的处理过程可以用图2-1简单表示。具体来说,数据库对所有人都是公开的,任何人都可以自由访问,但是却不能将数据库中的任一记录对应到具体某一个体上。为了对数据表中的数据进行隐私保护,自由访问型隐私保护通常采取的办法是对原始数据实施“数据匿名化”操作。所谓“数据匿名化”就是数据发布者在数据发布前需要对真实数据表实施一定的预处理,使攻击者无法从经过匿名变换后的数据表中唯一推导出某个具体个体对应的敏感信息,从而实现对个体隐私信息的隐藏。
2.社交网络匿名保护技术
因为用户的个性化信息与用户隐私密切相关,所以互联网服务提供商一般会对用户数据进行“数据匿名化”之后再提供共享或对外发布。表面上看,活跃于社交网络上的信息并不泄露个人隐私。但事实上,几乎任何类型的数据都如同用户的指纹一样,能通过辨识找到其拥有者。在当今社会,一旦用户的通话记录、电子邮件、银行账户、信用卡信息、医疗信息等大规模数据被无节制地搜集、分析与交易利用,那么用户都将“被透明”,不仅个人隐私荡然无存,还将引发一系列社会问题。因此深入理解社交网络的匿名化和去匿名化这一对相互依存的博弈过程,才能更好地在社交网络活动中保护好用户的隐私,这个问题已成为当前大众关注的焦点。社交网络中典型的匿名保护技术如下:
1)用户标识匿名与属性匿名保护,在数据发布时隐藏了用户的标识与属性信息。属性数据在社交网络上变化最频繁,内容最丰富,它生动地描述了用户的个性化特征,能够帮助系统建立完整的用户轮廓,提高推荐系统的准确性。然而,用户往往不希望将所有属性信息对外公开。例如:用户观看私密视频的记录被曝光,会对用户的网络形象造成最直接的破坏,甚至影响用户的正常生活。属性隐私保护要求对社交网络的属性信息进行匿名化处理,阻止攻击者对用户的属性隐私进行窥探。
2)用户间关系匿名保护,在数据发布时隐藏了用户间的关系。社交关系数据本身蕴含着巨大的价值。互联网服务提供商可基于用户现有的社交结构分析用户的交友倾向、向用户推荐朋友等,有助于保持社交群体的活跃度和黏性。但是与此同时,分析者也可以挖掘出用户不愿公开的社交关系、交友群体特征,从而导致用户的社交关系隐私暴露。为此,社交关系隐私保护要求节点对应的社交关系保持匿名,使攻击者无法确认特定用户拥有哪些社交关系。
3.数据水印技术
数据水印技术是指将标识信息以难以察觉的方式嵌入数据载体内部且不影响其使用的方法,多见于多媒体数据的版权保护,也有针对数据库和文本文件的水印方案。当然,实现数据水印技术的前提是,数据中存在冗余信息或可容忍一定的精度误差。数据水印技术按照不同的划分方法有不同的分类,在大数据领域,比较常用的是按照特性划分为鲁棒数字水印和易损数字水印两类,鲁棒数字水印可用于大数据起源证明,易损数字水印可用于证明数据的真实性。
鲁棒数字水印主要用在数字作品中标识著作权信息,利用这种水印技术可以在多媒体内容的数据中嵌入创建者、所有者的标识信息,或者嵌入购买者的标识(即序列号)。在发生版权纠纷时,创建者或所有者的信息用于标识数据的版权所有者,而序列号用于追踪违反协议而为盗版提供多媒体数据的用户。用于版权保护的数字水印要求有很强的鲁棒性和安全性,除了要求在一般图像处理(如滤波、加噪声、替换、压缩等)中生存外,还需能抵抗一些恶意攻击。
易损水印与鲁棒水印的要求相反,它主要用于完整性保护。这种水印同样是在内容数据中嵌入不可见的信息,当内容发生改变时,这些水印信息会发生相应的改变,从而可以鉴定原始数据是否被篡改。易损水印应对一般图像处理(如滤波、加噪声、替换、压缩等)有较强的免疫能力(鲁棒性),同时又要有较强的敏感性,既允许一定程度的失真,又要能将失真情况探测出来。它必须对信号的改动很敏感,人们才能根据易损水印的状态判断出数据是否被篡改过。
4.数据溯源技术
数据溯源技术的目标是帮助人们确定数据仓库中各项数据的来源,也可用于文件的溯源与恢复。数据溯源技术的意义在于根据追踪路径重现数据的历史、状态和演变过程,实现数据历史档案的追溯。目前数据溯源的基本方法包括标注法和反向查询法。
标注法是一种简单且有效的数据溯源方法,使用非常广泛。它通过记录相关的信息来追溯数据的历史状态,即用标注的方式来记录原始数据的一些重要信息,如背景、作者、时间、出处等,并将标注和数据一起传播,通过查看目标数据的标注来获得数据的溯源。
反向查询法,有的文献也称为逆置函数法。由于标注法并不适合细粒度数据,特别是大数据集中的数据溯源,于是,有人提出了反向查询法,此方法是通过逆向查询或构造逆向函数对查询求逆,或者说根据转换过程反向推导,由结果追溯到原数据。这种方法是在需要时才计算,所以又叫lazzy方法。
标注法和反向查询法各有优缺点,在实际使用时需要根据具体的情况进行选择。标注法的优点是实现简单,容易管理;缺点是只适合小型系统,对于大型系统而言很难为细粒度的数据提供详细的数据溯源信息,因为很细可能导致元数据比原始数据还多,需要额外的存储空间,会对存储造成很大的压力,而且效率低。反向查询法的优点是追踪比较简单,只需存储少量的元数据就可实现对数据的溯源,不需要存储中间处理信息、全过程的注释信息;缺点是用户需要提供逆置函数(并不是所有的函数都具有可逆性)和相对应的验证函数,构造逆置函数具有一定局限性,实现起来相对比较复杂。
5.访问控制技术
访问控制(Access Control)指系统限制用户身份及其所属的预先定义的策略组使用某些数据资源的手段。这在数据库领域已经是很成熟的技术,在大数据安全领域也有很多访问控制技术得到了广泛的应用,主要包括基于角色的访问控制、基于属性的访问控制和风险自适应的访问控制技术。
基于角色的访问控制技术是应用最广泛的技术,该方法给不同角色赋予不同的访问控制权限。其基本思想是,不是将系统操作的各种权限直接授予具体的用户,而是在用户集合与权限集合之间建立一个角色集合,每一种角色对应一组相应的权限。一旦用户被分配了适当的角色,该用户就拥有此角色的所有操作权限。这样做的好处是,不必在每次创建用户时都进行分配权限的操作,只要分配用户相应的角色即可,而且角色的权限变更比用户的权限变更要少得多,这样将简化用户的权限管理,减少系统的开销。
基于属性的访问控制技术是通过综合考虑各类属性(如用户属性、资源属性、环境属性等)来设定用户的访问权限。基于属性的访问控制技术实现了细粒度的权限控制,所有实体的描述都采用同一种方式—属性来进行描述,但不同实体的属性权限可能不同,这使得访问控制判定功能在判定时能够进行统一处理。在基于属性的访问控制中,访问判定是基于请求者和资源具有的属性,请求者和资源在基于属性的访问控制技术中通过特性来标识,而不是通过ID来标识,这使得传统的基于身份的访问控制具有足够的灵活性和可扩展性,同时使得安全的匿名访问成为可能,这在大型分布式环境下是十分重要的。
风险自适应的访问控制是针对大数据场景推荐的一种访问控制方法。风险自适应的访问控制针对的是在大数据场景中,安全管理员可能缺乏足够的专业知识,无法准确地为用户指定其可以访问的数据的情况。在大数据场景中,数据种类和来源复杂,用户角色也十分复杂,往往无法准确地为用户预先指定其可以访问的数据,最好是在某个访问行为发生时针对具体上下文进行判断,自适应的访问控制正是这样一种上下文敏感的动态系统安全访问技术。