上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.1.3 可以重标识出多少个个体
我们可以在此数据集中重标识出多少个个体?可以使用辅助信息来找到这个问题的答案。首先,看看只知道出生日期会发生什么。我们想知道辅助数据中的每个出生日期能帮助我们重标识出数据集中多少可能的身份。图2-3的直方图显示了每个可能的身份的数量。在大约32000行数据中,我们可以唯一标识出近7000行数据,并将约10000行数据缩小至两个可能的身份。
因此,仅通过出生日期来重标识大多数个体是不太可行的。如果我们收集更多的信息,进一步缩小范围呢?如果同时使用出生日期和邮政编码作为辅助数据,则重标识效果会变得更好(见图2-4)。实际上,我们基本能够对数据集中的全部数据成功实施重标识攻击。
当我们同时使用两部分信息实施重标识攻击时,可以重标识出所有的个体。这是一个非常令人惊讶的实验结果,因为我们通常认为很多人的出生日期都相同,而很多人居住地所属的邮政编码也会相同。事实证明,组合使用这些信息会得到非常好的筛选效果。Latanya Sweeney的研究结果(见[1])表明,组合使用出生日期、性别、邮政编码,可以唯一重标识出87%的美国公民。
图2-3
图2-4
下面来验证一下是否真的能重标识出所有的个体。我们输出每个身份可能关联的数据记录数量。
看来有两个个体抵御了重标识攻击。换句话说,在这个数据集中,只有两个个体同时拥有相同的邮政编码和出生日期。