正在加载图片...
·228· 智能系统学报 第15卷 动商业未来》(Crowdsourcing:Why the Power of 与真值相比的准确率为度量;其二是获取更多数 the Crowd is Driving the Future of Business)一书中 据以训练模型,专注于所得模型的质量,以模型 首次提出并做了详细的阐释。书中关于众包的定 的泛化能力为度量。 义为:“一个公司或机构把过去由员工执行的工作 对于前者,常见思路是通过众包标签集推断 任务,以自由自愿的形式外包给非特定的(而且 真实标签,如上文所述,目前最常用且简单有效 通常是大型的)大众网络的做法。众包的任务通 的方法为多数投票(MV),即针对每个实例的多重 常是由个人来承担,但如果涉及到需要多人协作 标签集合,取多数为最终标签。该方法的前提 完成的任务,也有可能以依靠开源的个体生产的 是工作人员的准确率需高于50%,在此基础上, 形式出现”。 随着工作人员数量的增加,其正确率会不断提 众包是不准确监督的一种典型场景山,包括 高。其他方法还有GLAD方法阿、贝叶斯方法RY 机器学习、数据挖掘等在内的技术,通常需要大 ZenCrowd算法等,一些对不同数据集进行实验 量带有标记的数据对算法以及模型进行训练、预 测以及验证。数据数量越大,准确率越高,算法 证明,这些真值推理方法效果差异并不明显叨。 及模型的效果就越好。结合众包系统获取标签成 因此,仅仅通过设计新颖的推理算法来提高标签 本低、单个质量不可靠的特点,通常采取对同一 质量比较困难。 实例由多个不同标记者进行标记,并用真值推理 对于后者,一种思路是在上面真值推理方法 算法将所得的多重标签进行整合。基础的真值推 所得的集成标签基础上进一步识别出疑似噪声样 理算法有多数投票(MV),此方法要求保证工人的 本并在数据集中将其去掉。一项实验证明,简单 平均正确率大于50%,则工人数量越多,标签质 去除噪声可以提高所训练模型的质量,因此一 量越高。其他还有一些以投票法为基础的改进形 些噪声识别方法可以应用于此。例如,基于阈值 式回,但实验表明,仅仅通过真值推理的方式效果 的方法12),用一些特殊的标准(例如熵)来对每 差别并不明显)。在上述真值推理算法的基础 个实例进行打分。如果分数超过阈值,则该实例 上,结合噪声识别和校正是一种行之有效的方案, 将被视为噪声;基于模型预测的过滤算法,通过 但需要较高的标记质量(如增加众包人数或者寻 模型对实例进行分类并识别噪声,有如表决过滤 求更好的标记者),否则结果偏差较大。 (VF)),对数据集进行多次交叉验证,若超过一半 从成本和质量两个角度考虑,我们可以由专 不相同则认为该实例为噪声样本。 家首先标记少部分实例,并适当减少众包工人人 目前常用的方法,或者标签质量不够理想,或 数和水平来达到成本和质量的最优解。针对这一 者需要去除部分实例以保证质量。为达到既能保 场景,本文提出了一个适应性较强的基于特征扩 证质量,又能完整保留数据集全部实例的目的, 维提高众包质量的框架(FA-method),结合少量的 Zhang等首先提出了将噪声识别和校正相结合的 专家标签,运用特征扩维的方法对真值推理算法 方法AVNC。在集成标签的基础上,首先由多 所得的集成标签集进行处理,通过计算每个实例 次交叉验证识别噪声,计算噪声可能程度和噪声 为噪声的可能程度以及集成标签的噪声数量的上 数量范围以识别噪声,然后采用集成学习的方式 限区分噪声,并进一步提高标签质量和可靠性。 进行校正。此方法在标记质量较高时有不错的效 实验证明,本方法在不同标记质量下均可以取得 果,当标记质量较低时,仅仅通过交叉验证识别 较好的效果,在众包标记质量较低或众包工人较 会产生较大的偏差,从而导致后续校正无法继续。 少的情况下,依然可以得到较高质量的标签。并 为解决上述问题,本文在AVNC所采用的噪 且以校正后的数据集训练所得模型的泛化能力有 声识别和校正相结合的基础框架上做了改进,引 进一步的提高。和现有的结合噪声识别和校正的 入了少量专家标记,并采用特征扩维的方法进行 框架相比也具有优势。 噪声识别和校正,保证了当标记质量较低时所得 结果质量的稳定。 1相关工作 2基于特征扩维的众包质量提高方法 通常,在人工智能领域,采用众包的方法获取 标签有两个目的:其一是为了获得大量的带有标 2.1基本框架 签的数据,专注于标签本身的质量,以所得标签 图1所示为本方法的基本框架。首先,由每动商业未来》(Crowdsourcing:Why the Power of the Crowd is Driving the Future of Business) 一书中 首次提出并做了详细的阐释。书中关于众包的定 义为:“一个公司或机构把过去由员工执行的工作 任务,以自由自愿的形式外包给非特定的 (而且 通常是大型的) 大众网络的做法。众包的任务通 常是由个人来承担,但如果涉及到需要多人协作 完成的任务,也有可能以依靠开源的个体生产的 形式出现”。 众包是不准确监督的一种典型场景[1] ,包括 机器学习、数据挖掘等在内的技术,通常需要大 量带有标记的数据对算法以及模型进行训练、预 测以及验证。数据数量越大,准确率越高,算法 及模型的效果就越好。结合众包系统获取标签成 本低、单个质量不可靠的特点,通常采取对同一 实例由多个不同标记者进行标记,并用真值推理 算法将所得的多重标签进行整合。基础的真值推 理算法有多数投票 (MV),此方法要求保证工人的 平均正确率大于 50%,则工人数量越多,标签质 量越高。其他还有一些以投票法为基础的改进形 式 [2] ,但实验表明,仅仅通过真值推理的方式效果 差别并不明显[3]。在上述真值推理算法的基础 上,结合噪声识别和校正是一种行之有效的方案[4] , 但需要较高的标记质量 (如增加众包人数或者寻 求更好的标记者),否则结果偏差较大。 从成本和质量两个角度考虑,我们可以由专 家首先标记少部分实例,并适当减少众包工人人 数和水平来达到成本和质量的最优解。针对这一 场景,本文提出了一个适应性较强的基于特征扩 维提高众包质量的框架 (FA-method),结合少量的 专家标签,运用特征扩维的方法对真值推理算法 所得的集成标签集进行处理,通过计算每个实例 为噪声的可能程度以及集成标签的噪声数量的上 限区分噪声,并进一步提高标签质量和可靠性。 实验证明,本方法在不同标记质量下均可以取得 较好的效果,在众包标记质量较低或众包工人较 少的情况下,依然可以得到较高质量的标签。并 且以校正后的数据集训练所得模型的泛化能力有 进一步的提高。和现有的结合噪声识别和校正的 框架相比也具有优势。 1 相关工作 通常,在人工智能领域,采用众包的方法获取 标签有两个目的:其一是为了获得大量的带有标 签的数据,专注于标签本身的质量,以所得标签 与真值相比的准确率为度量;其二是获取更多数 据以训练模型,专注于所得模型的质量,以模型 的泛化能力为度量。 对于前者,常见思路是通过众包标签集推断 真实标签,如上文所述,目前最常用且简单有效 的方法为多数投票 (MV),即针对每个实例的多重 标签集合,取多数为最终标签[5]。该方法的前提 是工作人员的准确率需高于 50%,在此基础上, 随着工作人员数量的增加,其正确率会不断提 高。其他方法还有 GLAD 方法[6] 、贝叶斯方法 RY[7] 、 ZenCrowd 算法[8] 等,一些对不同数据集进行实验 证明,这些真值推理方法效果差异并不明显[3, 9]。 因此,仅仅通过设计新颖的推理算法来提高标签 质量比较困难。 对于后者,一种思路是在上面真值推理方法 所得的集成标签基础上进一步识别出疑似噪声样 本并在数据集中将其去掉。一项实验证明,简单 去除噪声可以提高所训练模型的质量[10] ,因此一 些噪声识别方法可以应用于此。例如,基于阈值 的方法[11-12] ,用一些特殊的标准 (例如熵) 来对每 个实例进行打分。如果分数超过阈值,则该实例 将被视为噪声;基于模型预测的过滤算法,通过 模型对实例进行分类并识别噪声,有如表决过滤 (VF)[13] ,对数据集进行多次交叉验证,若超过一半 不相同则认为该实例为噪声样本。 目前常用的方法,或者标签质量不够理想,或 者需要去除部分实例以保证质量。为达到既能保 证质量,又能完整保留数据集全部实例的目的, Zhang 等首先提出了将噪声识别和校正相结合的 方法 AVNC[4]。在集成标签的基础上,首先由多 次交叉验证识别噪声,计算噪声可能程度和噪声 数量范围以识别噪声,然后采用集成学习的方式 进行校正。此方法在标记质量较高时有不错的效 果,当标记质量较低时,仅仅通过交叉验证识别 会产生较大的偏差,从而导致后续校正无法继续。 为解决上述问题,本文在 AVNC 所采用的噪 声识别和校正相结合的基础框架上做了改进,引 入了少量专家标记,并采用特征扩维的方法进行 噪声识别和校正,保证了当标记质量较低时所得 结果质量的稳定。 2 基于特征扩维的众包质量提高方法 2.1 基本框架 图 1 所示为本方法的基本框架。首先,由每 ·228· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有