隐私计算:推进数据“可用不可见”的关键技术
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

➢ 隐私计算的体系视图

作为一类技术的集合,隐私计算的概念和定义尚未统一,对其技术体系的划分自然也就有多种解读。提到隐私计算的技术体系,有人会马上想到多方安全计算、联邦学习、可信执行环境,但也有人会强调不能忘记零知识证明、差分隐私等。出于其技术方向的不同,各家技术厂商对于不同技术间关系的解读总有各自的倾向。

Gartner在其定义的“隐私增强计算技术”中,结合数据融合应用的过程对相关技术进行了分类列举,如图1-4所示:可信执行环境和可信第三方在数据源端的输入环节保护数据的不可见;差分隐私、同态加密、多方安全计算、零知识证明和隐私集合求交、隐私信息检索在数据交互前进行变换处理;联合机器学习及隐私感知机器学习(即联邦学习)则把数据分析处理的融合方式由集中式转化为分布式,以分散风险。

图1-4 Gartner“隐私增强计算技术”体系

我们可以认同Gartner三类划分的思路,但其给出的技术体系视图是结合数据流转的生命周期进行划分的,如果根据“流程”或“环节”来对技术进行划分,某种意义上总有割裂、独立的错觉,但每个隐私计算的技术方案都是完整的,在实践中也并没有对照着环节或流程去分拆应用。

于是,我们尝试直接根据各类技术的原理给出直观分类,或许是一种更适合的解读方式。

隐私计算的实现就是增强多方数据在联合分析计算过程中的隐私保护,目前主要有以下三类技术路线。

(1)以多方安全计算(Secure Muti-party Computation,简称MPC)为代表的基于密码学的隐私计算技术。这类技术的核心思想是设计特殊的加密算法和协议,基于密码学原理实现在无可信第三方的情况下,在多个参与方输入的加密数据之上直接进行计算。多方安全计算的实现包含多个关键的底层密码学协议或框架,主要有不经意传输(oblivious transfer)、混淆电路(garbled circuit)、秘密分享(secret sharing)等。

(2)以联邦学习(Federated Learning,简称FL)为代表的人工智能与隐私保护融合衍生的技术。从最初的概念定义上看,联邦学习就是一类分布式的机器学习,以“数据不动模型动”的思想,本地原始数据不出域,仅交互各参与方本地计算的中间因子,以此实现联合建模,提升模型的效果。但直接交互明文的中间因子也有泄露和反推原始数据的可能性,为提升对数据隐私的安全保护,现有的实现方案大多是在经典联邦学习的基础上结合多方安全计算、同态加密、差分隐私等密码学技术,对交互的中间因子进行加密保护或是结合可信执行环境,实现基于可信硬件的中间因子安全交互的,因此我们将联邦学习列为衍生一类。

(3)以可信执行环境(Trusted Execution Environment,简称TEE)为代表的基于可信硬件的隐私计算技术。这类技术的核心思想是隔离出一个可信的机密空间,通过芯片等硬件技术与上层软件协同对数据进行保护,同时保留与系统运行环境之间的算力共享。目前,可信执行环境的代表性硬件产品主要有Intel的SGX、ARM的TrustZone等,由此也诞生了很多基于以上产品的商业化实现方案,如百度MesaTEE、华为iTrustee等。

除了上述关键技术,同态加密、零知识证明、差分隐私、区块链等技术也常应用或辅助于隐私计算。

不同技术往往组合使用,在保证原始数据安全和隐私性的同时,完成对数据的计算和分析任务。基于以上的思路,我们也给出一个隐私计算的体系视图,如图1-5所示。

图1-5 隐私计算技术体系视图