隐私计算:推进数据“可用不可见”的关键技术
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

➢ 联邦学习的起源

相比于多方安全计算和可信执行环境,联邦学习绝对是最热门的一类隐私计算。忽如一夜春风来,布局或应用联邦学习的企业没有百家也有几十家,除了互联网大厂和技术研发企业,很多传统的金融机构也都开始研究和关注联邦学习。这是为什么?

联邦学习底座的形态是一种分布式机器学习,而人工智能的火热自然成为联邦学习发展的铺垫。2012年以来,人工智能的各类应用逐步深入人们的生产生活。但人工智能有一个很重要的因素就是数据,只有汇聚大量、优质的数据,才能支撑模型应用的效果。一个人工智能项目通常需要融合多个企业、多个部门或者多个地域的数据,比如模拟用户的消费习惯,就需要其在不同平台通过不同方式进行消费的记录。但事实上,目前的情况是大部分企业内部拥有的数据是规模小且特征维度不足的。如果想要直接汇聚、整合多个企业的数据,就更困难,主要的掣肘是数据安全隐患和合规监管要求。

站在公司商业利益的角度,已知其内部自有的数据具有很大潜在价值,如果对外输出数据进行跨公司间的合作,将极大程度暴露自己的数据资源储备,数据安全风险极大,必会损害企业利益。与此同时,2016年欧盟通过《通用数据保护条例》(General Data Protection Regulation,简称GDPR)严格约束个人隐私数据的收集、传输、保留和处理,到美国《加州消费者隐私法案》(California Consumer Privacy Act,简称CCPA),再到我国网信办起草的《数据安全管理办法(征求意见稿)》《数据安全法》《个人信息保护法》出台,国内外均在加强数据监管,因此数据流通应用必须在合规前提下是大势所趋。

基于以上几个方面,为了打通企业间的数据孤岛、增强数据融合时的隐私保护问题,联邦学习应运而生。也正如国内联邦学习的倡导者、微众银行首席AI官杨强老师所说:联邦学习将“领跑人工智能最后一公里”。

2016年,谷歌建立基于分布在多个设备上的数据集的机器学习模型,同时防止数据泄露。其初衷是针对多个手机终端,各自利用其本地数据,共同训练一个模型,保护终端数据和个人数据隐私,在终端数据不离开本地的前提下完成建模。事实上,联邦学习的概念在机器学习的发展历程中曾多次以不同的形式出现,如面向隐私保护的机器学习(Privacy-Preserving Machine Learning)、分布式机器学习(Distributed Machine Learning)等。2016年欧盟《通用数据保护条例》出台,在数据合规监管力度明显增强的背景下,谷歌将联邦学习的概念单独抛出,重点强调隐私保护,其相关的技术方案才受到更广泛的关注。

在提出概念两年后,谷歌又通过Towards Federated Learning at Scale:System Design发布了基于TensorFlow构建的联邦学习系统,支持在数千万台手机上搭载以实现可扩展的、大规模的移动端联邦学习。

自联邦学习提出之后,其场景范围越来越广泛,不同的技术提供方给出了各类相似的方案,比如微众银行参考谷歌的架构在国内推广联邦学习、蚂蚁集团融合MPC和TEE提出了“共享学习”、平安科技在联邦学习的基础上增加数据联盟和联邦推理业务并称为“联邦智能”、同盾科技也在联邦学习的基础上增加知识推理提出了“知识联邦”。随着近两年市场对技术的认知逐步普及,各类方案的名称逐步统一。目前,在需要融合多方数据建模的场景下,能够保护各参与方的本地数据和模型训练的中间结果等隐私数据不被泄露的联合建模都可以称为联邦学习。