动手学差分隐私
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2.1 小分组问题

在很多情况下,我们需要将数据分组,并分别给出各个分组的聚合统计结果。举例来说,我们可能想知道取得不同学位的个体的平均年龄。

一般认为,对数据进行聚合处理可以提升数据的隐私保护效果,因为很难识别出特定个体对聚合统计结果所带来的影响。但如果某个分组只包含一个个体呢?在这种情况下,聚合统计结果将准确泄露此个体的年龄,无法提供任何隐私保护。在我们的数据集中,大多数个体的邮政编码是唯一的。因此,如果我们计算不同邮政编码所属个体的平均年龄,则大多数“平均值”将直接泄露单一个体的年龄。

例如,美国人口普查局以街区为粒度(见https://www.census.gov/newsroom/blogs/random-samplings/2011/07/what-are-census-blocks.html)发布聚合统计数据。有些人口普查区的人口众多,但有些人口普查区的人口为0。事实证明,聚合统计结果无法隐藏小分组的个体信息的情况相当普遍。

分组要达到多大,聚合统计结果才能隐藏个体信息?这个问题很难回答,因为只有知道数据本身和具体的攻击方法时,才能回答这个问题。因此,很难确信聚合统计结果真的能达到隐私保护的目的。然而,我们接下来将会看到,即使分组足够大,也可以实施相应的攻击,从聚合结果中获得个体信息。