隐私计算:推进数据“可用不可见”的关键技术
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

推荐序

这是一个人人都在谈“大数据”的时代。然而,相信凡是在工作中和数据稍有关联的人,都会听到“数据孤岛”这样的说法。不同的数据拥有方,彼此的数据互不连通,形成了一座座“数据孤岛”。岛屿群间相互割裂,彼此孤立。然而,我们都知道,数据只有流通融合才能充分释放价值。例如,普惠金融需要更多的数据来完善建模,有效发放贷款,广告营销往往也需要跨行业的数据来提升精准度。然而,数据一旦交给别人就面临着失控的风险,数据流通的各方也很难彼此相互信任。

目前我国数据要素市场化配置尚处于起步阶段,甚至可以说,数据流通在某种层面还处于“男耕女织”的阶段。特别是在数据确权、开放共享、自由流动和数据安全等方面还存在很多阻碍:一是数据权属的界定仍不明确,在相关立法尚未健全的当下,行业内的实践中未能形成具有共识性或参考性的权属分割规则,产权争议、无法监管的风险经常令供需双方望而却步;二是频发的数据安全和个人隐私泄露事件加剧了社会对数据交易的不信任感,出于对国家安全、个人信息和商业秘密的保护,主体参与数据交易的主动性、积极性降低;三是确保流通过程的合法合规仍然较难把握。

那么,这两年越来越火热的隐私计算技术是干什么的呢?它如何解决此类数据流通面临的困境呢?本书从技术角度给出了答案。

简而言之,隐私计算是一种实现数据“可用不可见”的技术。通过这类技术,我可以在不把数据给你的同时,让你利用到我的数据价值(如数据先加密再密文计算)。当然,这样的技术相比直接计算,要耗费更多的计算资源,使用更复杂的算法和协议,消耗更多的网络带宽。这也就是为什么虽然多方安全计算早在20世纪80年代就被提出来了,但直到现在才“重焕新生”——当时隐私计算比通常的计算慢数百万倍,使得其在当时的条件下只具有理论意义。而最近几年,随着计算能力的增强(算得越来越快)、算法协议的优化(计算速度从慢百万倍降低到慢几百倍)和计算成本的降低(多计算一些也花不了多少钱),人们忽然发现,隐私计算可以用了,至少在一些对时间延迟要求不那么敏感或数据量不是很大的环境下。

那么作为“新生技术”的隐私计算到底用哪里,效果如何,能多大程度提升合规性,以及还面临哪些挑战呢?这些人们普遍关心的问题,也是本书致力解答的。近来数据安全相关法律法规相继出台实施,人们关于数据安全流通的意识不断提升,隐私计算加速发展。初创企业、互联网企业、大数据企业、区块链企业、运营商、银行纷纷入局,在金融风控、电子政务、智慧医疗、互联网营销等领域,越来越多的隐私计算落地应用开展起来。但同时,我们也要看到隐私计算仍然面临着跨平台互联互通困难、大规模可用性不足、安全分级分类规范缺乏、市场发展不平衡不充分、法律适配性尚无定论等问题的挑战,值得关注和持续深入研究。

2020年,为促进数据要素依法有序自由流动,推进隐私计算技术与实体经济深度融合,提升隐私计算行业认知,中国信息通信研究院牵头成立了隐私计算联盟,成员包括政府单位、运营商、金融机构、技术厂商等在内的90余家企事业单位。联盟旨在以国家政策法规为导向,以切实服务市场需求为趋势,搭建政产学研合作交流平台,积极培育市场,释放数据价值,提升中国隐私计算的国际影响力和竞争力。一年来,联盟围绕隐私计算基础核心技术研究、行业应用落地、标准体系构建和隐私计算政策监管研究等多个方面,取得了诸多成果。可以说,这本书中的许多内容,就是作者们同隐私计算联盟的业内专家共同探讨形成的。

“可用不可见”的隐私计算技术和产业仍在快速发展,本书立足当下,介绍了现阶段隐私计算的火热现状,也展望了未来,为我们既要利用数据、又要保护数据提供了更多想象空间。

中国信息通信研究院 何宝宏

2021年12月