序
“各种人类物种在亚非大陆上潜伏演化了200万年,不断磨炼狩猎技能,而且从大约40万年前便开始猎捕大型动物,所以,亚非大陆上的巨兽都已经得到教训,懂得与人类保持距离。等到最新一代最高掠食者——智人出现在亚非大陆的时候,大型动物都已经懂得要避开那些与当地人种长相类似的生物。
相较之下,澳大利亚的巨型动物可以说是完全没有时间学会该赶快逃跑。毕竟人类看起来似乎不太危险,既没有长而锋利的牙齿,也没有结实、敏捷的身体。对这些动物来说,需要靠演化才能学会惧怕人类,但因为时间根本不够,它们转眼间便已灭绝。”
——《人类简史》
这是《人类简史》一书中让我感慨颇深的一段话,讲述的是智人在4.5万年前抵达澳大利亚之后是如何导致原生物种大灭绝的一种可能的解释。虽然具体原因还有待科学家的研究证明,但血淋淋的物种灭绝事实让人毛骨悚然。
无独有偶,澳洲大陆南部有个小岛叫塔斯马尼亚岛,大约1万年前这个小岛被巴斯海峡彻底切断了和澳洲大陆的联系。18世纪澳洲人登上这个孤岛的时候,惊讶地发现,这个岛上的原住民不但不会编织衣服,甚至连制造工具的基本能力都已经丧失,只会使用最简单的石头和木棒。要知道,人类在百万年前就已经进入旧石器时代,1万年前人类已经进入新石器时代,已经开始制作陶器、纺织、农耕和畜牧。换言之,“孤岛效应”仅仅用了1万年就将岛上的文明倒退回最原始的状态,新的信息不仅没有传入,原有的知识和技能还在不停地流失。
这是生物和文明进化过程中的两个典型的“孤岛效应”,如果类比到计算机世界,DNA就像承载了亿万年生物进化的巨大数据库,澳大利亚和塔斯马尼亚岛俨然成为巨大的“数据孤岛”,既进入了有效的稳定状态,同时也碰到了优化、发展的天花板。然而,同时远隔天水之外的大陆,却在不断进行各种各样的数据交换、融合、竞争、演进、扩张。对于孤岛而言,最终的结果是毁灭性的,而且会来得极其突然而毫无征兆。
数据孤岛也是如此,我们不仅要认识到打破数据孤岛带来的裨益,更要清楚地认识到处于数据孤岛的潜在巨大危机,以及解决数据孤岛问题的必要性和紧迫性。近几年,越来越多的同行在努力研发和推广数据的“互联互通”。但同时,由于数据很容易涉及隐私和机密,因此其互联互通有着极为特殊的要求,既要能够互通融合分析,又要能够在一定条件下有效保护原始数据和私密不泄露,有效保障数据所有权和使用权的分离,这恰恰就是隐私计算的强大功效和魅力。话虽如此,隐私计算理论较深,产业化尚属早期,使用门槛很高,这使得隐私计算目前还仅仅是少数大公司和专业技术公司才能触及的领域,而拥有广泛、巨量专业数据的中小企业甚至传统大型企业还较难像应用数据库技术一样快速便捷地把隐私计算应用起来。健康的数据生态一定是源于数据领域、种类和应用的多样性的,因此,只有普及隐私计算的基础概念,了解快速应用隐私计算技术的基本方法和途径,夯实隐私计算市场和大众基础,才能让更多的企业和个人充分参与到数据互联互通的创新中,才能避免树立技术障碍而形成新的“技术孤岛”,从而真正打破“数据孤岛”。这即是我读过本书后感受到的意义之一。作者通过朴实平白的语言解释几种主要的隐私计算技术原理,更通过人人可以触及的行业开源库实现实际的应用案例,真正揭开隐私计算的神秘面纱,并使其基本应用变得唾手可得。本书既展示了通过隐私计算实现“数据可用不可见”,又体现出隐私计算本身“技术可用不神秘”,从而经得起大众的推敲和行业的锤炼。
说到隐私计算的应用,很多朋友首先会想到大数据方面,特别是配合机器学习的联合建模在国内的应用案例中尤为常见。其实,隐私计算不仅可以应用到大数据领域,在小数据和专业针对性领域同样可以发挥关键作用,甚至在国外小数据隐私计算的应用历史更为悠久,发挥的作用更突出,隐私及其保护更容易被清晰地定义,性能和效果也更稳定可靠。姚期智教授最早提出的“百万富翁”问题其实本身就是一个小数据的应用;行业应用当中比较有代表性的例子是2008年丹麦甜菜拍卖,隐私保护只是针对参与拍卖的交易报价及清算数据;此外还有门限签名,它将多方安全计算应用到数字钱包的密钥管理和保护,此技术已经得到PayPal等大型金融科技公司的青睐。本书的作者也曾和我共同致力于利用隐私计算实现多中心化金融资产交易的新型基础设施,以期充分兼顾“交易的隐私性、监管的透明性”,特别是应用在某些时效和敏感性较高、需要重点防范平台方利益输送的交易领域。因此,这是本书的意义之二。作者在每个章节都选择了有代表性的简单应用案例为大家提供隐私计算在小数据领域的应用模板。当然,大数据也好,小数据也罢,什么是隐私,隐私要保护到什么程度,保护隐私后实现的计算能带来什么样的商业和行业价值,这才是我们始终应该思考的问题。相信本书一定程度上能够为读者回答这些问题拓展思路。
最后,相信细心的读者不难发现,作者在本书介绍了很多国外的隐私计算开源项目,这也方便大家对国外在该领域的发展状况有一个直观的了解。必须要承认,国外在这个领域闷头发展了十几年,既有较深的理论研究,同时也非常务实地多方向发展了很多面向产业应用的开发框架,而且非常不拘一格。举一个有代表性的例子,书中会介绍波士顿大学开发的框架JIFF。有意思的是,这个框架并没有选择C、Java或者Python等大数据分析常用的编程语言来实现,而是选择了JavaScript,因为开发者希望借此方便Web和移动开发。相对来说,Web和移动应用更为简单友好,开发效率更高,成本也更低。虽然JIFF还是学术研发性质的开发框架,但其设计目标和理念非常务实和落地,这一点我觉得非常值得我们借鉴,希望这本书在介绍隐私计算技术的同时,也对读者考虑广泛而朴实的应用有所启发。
隐私计算的成功还需要很多驱动因素,除了技术,还有法律、监管、行业标准等,但最终依靠的还是广大开发者以及不断试错的多样化应用生态。
希望这本书能为你的隐私计算之旅铺下坚实的第一级台阶。
许慎
2021年12月于香港