上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第2章 去标识
去标识(de-identification)是指从数据集中删除标识信息的过程。有时会将去标识这一术语与匿名(anonymization)和假名(pseudonymization)这两个术语看作同义词,表达相同的概念。
学习目标
阅读本章后,你将能够:
●定义并理解下述概念。
■去标识。
■重标识。
■标识信息/个人标识信息。
■关联攻击。
■聚合与聚合统计。
■差分攻击。
●实施一次关联攻击。
●实施一次差分攻击。
●理解去标识技术的局限性。
●理解聚合统计的局限性。
我们尚不能严谨地定义什么是标识信息。通常将标识信息理解为在日常生活中可以唯一标识我们自己的信息。从这个理解角度看,姓名、地址、电话号码、电子邮箱等都属于标识信息。稍后将会了解到,不可能为标识信息给出严谨的定义,因为所有信息都可以用来标识个体。一般来说,个人标识信息(Personally Identifiable Information,PII)和标识信息这两个术语是同义词,表达相同的概念。
如何才能对信息去标识?很简单,直接移除包含标识信息的列就可以了。
我们将数据中一部分个体的标识信息保留下来,随后将把这些保留的标识信息作为辅助数据(auxiliary data)来实施一次重标识(re-identification)攻击。