深度学习初学者指南
上QQ阅读APP看书,第一时间看更新

3.7 操纵数据的道德影响

在处理需要了解的数据时,会存在许多道德影响和风险。大多数深度学习算法都必须通过重新训练加以纠正以符合我们所生活世界的价值观,因为人们发现它们存在偏见或不公平。这是一件非常不幸的事情。你需要成为一个负责任的人工智能从业者,并创造出经过深思熟虑且经得起社会考验机器学习模型。

在处理这些数据时,要非常小心从数据中删除离群值(异常值),因为你认为它们会降低模型的性能。有时候,它们代表了受保护群体或少数群体的信息,消除这些信息会使得不公平现象持续存在,并对多数群体产生偏见。要避免删除离群值,除非你绝对能够确定它们是由传感器故障产生的错误或者人为引起的错误。

要注意数据分布的变换方式。在大多数情况下,改变数据分布是可以的,但如果你在处理人口统计数据,就需要密切关注你正在改变的东西。

在处理诸如性别等人口统计资料时,如果我们考虑比例,将女性和男性分别编码为0和1可能是危险的。我们需要注意的是,不要平等(或不平等)地提倡使用不能反映社会现实的机器学习模型。只有当我们当前的现实显示出非法的歧视、排斥和偏见时才例外。这样,模型(基于我们的数据)不是在反映这种现实,而是在反映社区所希望的合法现实。也就是说,我们准备良好的数据来创建模型,目的不是延续社会问题,而是反映出我们想要建成的社会。