正在加载图片...
第3期 邓蔚,等:公平性机器学习研究综述 ·581· 2公平性测试数据集 出不同阶段描述解决问题的策略机制。在输入阶 段,存在问题是输入数据集中存在偏差:在过程 公平性测试数据集和普通数据集的差别在于 阶段,存在程序的黑箱问题:而输出阶段存在算 具有敏感属性,目前国际上对公平性机器学习算 法决策产生的歧视性影响。 法的测试大多基于以下几个数据集。 3.1预处理公平性设计 2.1消防员晋升(ricei) 训练数据中存在的不公平是算法能学习的, 该数据集来源于美国最高法院诉讼案,是关 如使训练算法不能学习该偏差就能得到预处理公 于消防员是否会获得晋升的测试数据集,包括 平,可归为两类:1)更改训练数据中单个项目的 118条记录和5个属性,其中有一个敏感属性(种 敏感属性或类标签的值;2)将训练数据映射到转 族),目标是预测晋升,同时实现对敏感属性的 换空间,在该空间中敏感属性和类标签之间的依 公平29 赖关系消失。 2.2成年人收入(adult income) Feldman等B对每个属性进行修改,使得基 该数据集包含1994年美国人口普查的个人 于给定敏感属性子集的边际分布都相等,并且这 信息,有45222条记录,14个属性(包括年龄、种 种改变不会影响其他变量,转换后的数据保留了 族、性别、受教育程度等),还包含有一个二分类 非敏感属性的大部分特征信号,还提出交叉敏感 标签,表示每个个体的收入是否超过50000美元。 属性,并且两种敏感属性的影响不叠加。 2.3 德国人信用贷款(german credit) 其他方法包括具有二元敏感属性和二分类问 该数据集包含1000个记录和20个属性,标 题,对预处理技术进行改进,抑制敏感属性,通过 签描述了每个人的信用分类为好或坏。敏感属性 更改类标签来调整数据集,重新加权或重新采样 包含性别、年龄,性别不直接包含在数据中,但可 以从给定的信息中得到。 数据以消除歧视,而无需重新标记实例。Calmon 等B”提出了一种用于学习数据转换的凸优化,其 2.4预测再次被捕率 该数据是关于佛罗里达州布劳沃德县使用 目标有控制歧视、限制单个数据样本中的失真度 COMPAS风险评估工具评估的数据,包括6167人 以及保持效用。 的少年重罪数量、当前速捕的指控程度等信息, 3.2过程公平性设计 以及敏感属性(种族和性别),预测在第一次被捕 对特定机器学习算法的改进中,最常见的是 后的两年内被再次逮捕的概率。 给算法附加约束条件。Kusner等将因果模型 2.5预测再犯暴力 引入到算法中,并给出了3种实现不同等级算法 该数据描述了与上述累犯数据相同的情况, 公平性的方法。1)运用与敏感属性无直接或间接 但预测结果是两年内再次暴力犯罪的结果。预处 关联的属性来构建模型;2)通过潜在变量来构建 理后共有4010人,敏感属性为种族和性别的。 模型,潜在变量是可观测变量的非确定性因素; 2.6银行营销数据 3)通过具有潜变量的确定性模型(如加性误差模 该数据集有45211条记录,17个属性,还包含 型)进行建模。Zafar等1对不同误判率下的逻辑 一个二分类标签,表示每个客户是否有定期存款。 回归及支持向量机算法进行改进,基于历史信息 2.7纽约市阻止和搜身NYC stop and frisk) 不存在偏见,在基于不同误判率的公平性和准确 该数据集是阻止、搜索和搜身数据集,该网 性之间提供了灵活的权衡。当敏感属性信息不可 站提供了纽约警察局阻止的司机的人口学信息和 用时,此方法效果较好。Zemel等o结合预处理 其他信息,总共有45787条记录,具有73个特征, 和算法修改,学习规范数据表示以实现在分类 受保护属性为种族叫。 中实现高效,同时实现不受敏感属性值的影响。 2.8美国司法部数据 Kearns等2m结合事前公平及事后公平,利用不同 该数据集包含1990~2009年在美国75个人 个体的累积分布函数,给定一组个体的得分,根 口最多的县中40个保留了151461名重罪被告的 据候选人的经验值来提供置信区间,然后将使用 法院处理信息。 的偏差界限为候选人分配分数,运行NoisyTop算 3公平性机器学习设计 法提供近似的公平性。Kamishima等1引入以公 平性为中心的正则化项,并应用于逻辑回归分类 从算法的基本定义出发,用输入、过程及输 算法中。Calders等B为敏感属性的每个值构建2 公平性测试数据集 公平性测试数据集和普通数据集的差别在于 具有敏感属性,目前国际上对公平性机器学习算 法的测试大多基于以下几个数据集。 2.1 消防员晋升 (ricci) 该数据集来源于美国最高法院诉讼案,是关 于消防员是否会获得晋升的测试数据集,包括 118 条记录和 5 个属性,其中有一个敏感属性 (种 族),目标是预测晋升,同时实现对敏感属性的 公平[29]。 2.2 成年人收入 (adult income) 该数据集包含 1994 年美国人口普查的个人 信息,有 45 222 条记录,14 个属性 (包括年龄、种 族、性别、受教育程度等),还包含有一个二分类 标签,表示每个个体的收入是否超过 50 000 美元[30]。 2.3 德国人信用贷款 (german credit) 该数据集包含 1 000 个记录和 20 个属性,标 签描述了每个人的信用分类为好或坏。敏感属性 包含性别、年龄,性别不直接包含在数据中,但可 以从给定的信息中得到[31]。 2.4 预测再次被捕率 该数据是关于佛罗里达州布劳沃德县使用 COMPAS 风险评估工具评估的数据,包括 6167 人 的少年重罪数量、当前逮捕的指控程度等信息, 以及敏感属性 (种族和性别),预测在第一次被捕 后的两年内被再次逮捕的概率[32]。 2.5 预测再犯暴力 该数据描述了与上述累犯数据相同的情况, 但预测结果是两年内再次暴力犯罪的结果。预处 理后共有 4 010 人,敏感属性为种族和性别[32]。 2.6 银行营销数据 该数据集有 45211 条记录,17 个属性,还包含 一个二分类标签,表示每个客户是否有定期存款[33]。 2.7 纽约市阻止和搜身 (NYC stop and frisk) 该数据集是阻止、搜索和搜身数据集,该网 站提供了纽约警察局阻止的司机的人口学信息和 其他信息,总共有 45 787 条记录,具有 73 个特征, 受保护属性为种族[34]。 2.8 美国司法部数据 该数据集包含 1990~2009 年在美国 75 个人 口最多的县中 40 个保留了 151 461 名重罪被告的 法院处理信息。 3 公平性机器学习设计 从算法的基本定义出发,用输入、过程及输 出不同阶段描述解决问题的策略机制。在输入阶 段,存在问题是输入数据集中存在偏差;在过程 阶段,存在程序的黑箱问题;而输出阶段存在算 法决策产生的歧视性影响。 3.1 预处理公平性设计 训练数据中存在的不公平是算法能学习的, 如使训练算法不能学习该偏差就能得到预处理公 平,可归为两类:1) 更改训练数据中单个项目的 敏感属性或类标签的值;2) 将训练数据映射到转 换空间,在该空间中敏感属性和类标签之间的依 赖关系消失。 Feldman 等 [35] 对每个属性进行修改,使得基 于给定敏感属性子集的边际分布都相等,并且这 种改变不会影响其他变量,转换后的数据保留了 非敏感属性的大部分特征信号,还提出交叉敏感 属性,并且两种敏感属性的影响不叠加。 其他方法包括具有二元敏感属性和二分类问 题,对预处理技术进行改进,抑制敏感属性,通过 更改类标签来调整数据集,重新加权或重新采样 数据以消除歧视,而无需重新标记实例[36]。Calmon 等 [37] 提出了一种用于学习数据转换的凸优化,其 目标有控制歧视、限制单个数据样本中的失真度 以及保持效用。 3.2 过程公平性设计 对特定机器学习算法的改进中,最常见的是 给算法附加约束条件。Kusner 等 [15] 将因果模型 引入到算法中,并给出了 3 种实现不同等级算法 公平性的方法。1) 运用与敏感属性无直接或间接 关联的属性来构建模型;2) 通过潜在变量来构建 模型,潜在变量是可观测变量的非确定性因素; 3) 通过具有潜变量的确定性模型 (如加性误差模 型) 进行建模。Zafar 等 [16] 对不同误判率下的逻辑 回归及支持向量机算法进行改进,基于历史信息 不存在偏见,在基于不同误判率的公平性和准确 性之间提供了灵活的权衡。当敏感属性信息不可 用时,此方法效果较好。Zemel 等 [20] 结合预处理 和算法修改,学习规范数据表示以实现在分类 中实现高效,同时实现不受敏感属性值的影响。 Kearns 等 [27] 结合事前公平及事后公平,利用不同 个体的累积分布函数,给定一组个体的得分,根 据候选人的经验值来提供置信区间,然后将使用 的偏差界限为候选人分配分数,运行 NoisyTop 算 法提供近似的公平性。Kamishima 等 [38] 引入以公 平性为中心的正则化项,并应用于逻辑回归分类 算法中。Calders 等 [39] 为敏感属性的每个值构建 第 3 期 邓蔚,等:公平性机器学习研究综述 ·581·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有