第15卷第2期 智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992/tis.201810014 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190829.0906.002.html 面向众包数据的特征扩维标签质量提高方法 李易南,王士同 (江南大学数字媒体学院,江苏无锡214122) 摘要:众包是一个新兴的收集数据集标签的方法。虽然它经济实惠,但面临着数据标签质量无法保证的问 题。尤其是当客观原因存在使得众包工作者工作质量较差时,所得的标签会更加不可靠。因此提出一个名为 基于特征扩维提高众包质量的方法(FA-method),其基本思想是,首先由专家标注少部分标签,再利用众包者标 注的数据集训练模型,对专家集进行预测,所得结果作为专家数据集新的特征,并利用扩维后的专家集训练模 型进行预测,计算每个实例为噪声的可能性以及噪声数量上限来过滤出潜在含噪声标签的数据集,类似地,对 过滤后的高质量集再次使用扩维的方法进一步校正噪声。在8个UCI数据集上进行验证的结果表明,和现有 的结合噪声识别和校正的众包标签方法相比,所提方法能够在重复标签数量较少或标注质量较低时均取得很 好的效果。 关键词:众包:标签质量:扩维:专家标注:噪声识别:噪声校正:噪声可能性:噪声数量上限 中图分类号:TP181文献标志码:A文章编号:1673-4785(2020)02-0227-08 中文引用格式:李易南,王士同.面向众包数据的特征扩维标签质量提高方法.智能系统学报,2020,15(2):227-234. 英文引用格式:LI Yinan,WANG Shitong..A feature augmentation method for enhancing the labeling quality of crowdsourcing data[J].CAAI transactions on intelligent systems,2020,15(2):227-234. A feature augmentation method for enhancing the labeling quality of crowdsourcing data LI Yinan,WANG Shitong (School of Digital Media.Jiangnan University,Wuxi 214122,China) Abstract:Crowdsourcing is a new method of collecting the labels of data.Although it is economical,crowdsourcing faces an unavoidable problem,i.e.,the quality of the labels cannot be guaranteed.In particular,when the quality of la- beling work is low because of the existence of objective causes,the result of crowdsourcing will be unreliable.In this study,a feature augmentation method for enhancing the labeling quality of crowdsourcing data is proposed.In the pro- posed method,first,a small amount of expert data is labeled by several people with professional knowledge.Then,the crowdsourcing data are used to create the classifiers and predict the expert data.The resultant predicted labels are used to augment the expert data.Then,the augmented expert data are used to create the classifiers,predict the original data, and calculate the probability of noise for each instance and the upper limit of noise number to filter out the high-quality dataset from potentially noisy labels.Similarly,the filtered high-quality dataset is utilized to further correct the noisy la- bels using the proposed feature augmentation method.The experiments conducted on eight UCI datasets show that the proposed feature augmentation method has achieved encouraging results when the number of repeated labels is compar- atively small or the quality of labeling is comparatively low. Keywords:crowdsourcing;labeling quality;feature augmentation;expert labeling;noise identification;noise correc- tion;noise probability;upper limit of noise number 收稿日期:2018-10-15.网络出版日期:2019-08-29. 基金项目:国家自然科学基金项目(61272210). 众包,一般认为是由美国作家杰夫·豪(Jeff 通信作者:李易南.E-mail:1920898036@qq.com Howe)在2006年6月于《众包:大众力量缘何推
DOI: 10.11992/tis.201810014 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190829.0906.002.html 面向众包数据的特征扩维标签质量提高方法 李易南,王士同 (江南大学 数字媒体学院,江苏 无锡 214122) 摘 要:众包是一个新兴的收集数据集标签的方法。虽然它经济实惠,但面临着数据标签质量无法保证的问 题。尤其是当客观原因存在使得众包工作者工作质量较差时,所得的标签会更加不可靠。因此提出一个名为 基于特征扩维提高众包质量的方法 (FA-method),其基本思想是,首先由专家标注少部分标签,再利用众包者标 注的数据集训练模型,对专家集进行预测,所得结果作为专家数据集新的特征,并利用扩维后的专家集训练模 型进行预测,计算每个实例为噪声的可能性以及噪声数量上限来过滤出潜在含噪声标签的数据集,类似地,对 过滤后的高质量集再次使用扩维的方法进一步校正噪声。在 8 个 UCI 数据集上进行验证的结果表明,和现有 的结合噪声识别和校正的众包标签方法相比,所提方法能够在重复标签数量较少或标注质量较低时均取得很 好的效果。 关键词:众包;标签质量;扩维;专家标注;噪声识别;噪声校正;噪声可能性;噪声数量上限 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)02−0227−08 中文引用格式:李易南, 王士同. 面向众包数据的特征扩维标签质量提高方法 [J]. 智能系统学报, 2020, 15(2): 227–234. 英文引用格式:LI Yinan, WANG Shitong. A feature augmentation method for enhancing the labeling quality of crowdsourcing data[J]. CAAI transactions on intelligent systems, 2020, 15(2): 227–234. A feature augmentation method for enhancing the labeling quality of crowdsourcing data LI Yinan,WANG Shitong (School of Digital Media, Jiangnan University, Wuxi 214122, China) Abstract: Crowdsourcing is a new method of collecting the labels of data. Although it is economical, crowdsourcing faces an unavoidable problem, i.e., the quality of the labels cannot be guaranteed. In particular, when the quality of labeling work is low because of the existence of objective causes, the result of crowdsourcing will be unreliable. In this study, a feature augmentation method for enhancing the labeling quality of crowdsourcing data is proposed. In the proposed method, first, a small amount of expert data is labeled by several people with professional knowledge. Then, the crowdsourcing data are used to create the classifiers and predict the expert data. The resultant predicted labels are used to augment the expert data. Then, the augmented expert data are used to create the classifiers, predict the original data, and calculate the probability of noise for each instance and the upper limit of noise number to filter out the high-quality dataset from potentially noisy labels. Similarly, the filtered high-quality dataset is utilized to further correct the noisy labels using the proposed feature augmentation method. The experiments conducted on eight UCI datasets show that the proposed feature augmentation method has achieved encouraging results when the number of repeated labels is comparatively small or the quality of labeling is comparatively low. Keywords: crowdsourcing; labeling quality; feature augmentation; expert labeling; noise identification; noise correction; noise probability; upper limit of noise number 众包,一般认为是由美国作家杰夫·豪 (Jeff Howe) 在 2006 年 6 月于《众包:大众力量缘何推 收稿日期:2018−10−15. 网络出版日期:2019−08−29. 基金项目:国家自然科学基金项目 (61272210). 通信作者:李易南. E-mail:1920898036@qq.com. 第 15 卷第 2 期 智 能 系 统 学 报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020
·228· 智能系统学报 第15卷 动商业未来》(Crowdsourcing:Why the Power of 与真值相比的准确率为度量;其二是获取更多数 the Crowd is Driving the Future of Business)一书中 据以训练模型,专注于所得模型的质量,以模型 首次提出并做了详细的阐释。书中关于众包的定 的泛化能力为度量。 义为:“一个公司或机构把过去由员工执行的工作 对于前者,常见思路是通过众包标签集推断 任务,以自由自愿的形式外包给非特定的(而且 真实标签,如上文所述,目前最常用且简单有效 通常是大型的)大众网络的做法。众包的任务通 的方法为多数投票(MV),即针对每个实例的多重 常是由个人来承担,但如果涉及到需要多人协作 标签集合,取多数为最终标签。该方法的前提 完成的任务,也有可能以依靠开源的个体生产的 是工作人员的准确率需高于50%,在此基础上, 形式出现”。 随着工作人员数量的增加,其正确率会不断提 众包是不准确监督的一种典型场景山,包括 高。其他方法还有GLAD方法阿、贝叶斯方法RY 机器学习、数据挖掘等在内的技术,通常需要大 ZenCrowd算法等,一些对不同数据集进行实验 量带有标记的数据对算法以及模型进行训练、预 测以及验证。数据数量越大,准确率越高,算法 证明,这些真值推理方法效果差异并不明显叨。 及模型的效果就越好。结合众包系统获取标签成 因此,仅仅通过设计新颖的推理算法来提高标签 本低、单个质量不可靠的特点,通常采取对同一 质量比较困难。 实例由多个不同标记者进行标记,并用真值推理 对于后者,一种思路是在上面真值推理方法 算法将所得的多重标签进行整合。基础的真值推 所得的集成标签基础上进一步识别出疑似噪声样 理算法有多数投票(MV),此方法要求保证工人的 本并在数据集中将其去掉。一项实验证明,简单 平均正确率大于50%,则工人数量越多,标签质 去除噪声可以提高所训练模型的质量,因此一 量越高。其他还有一些以投票法为基础的改进形 些噪声识别方法可以应用于此。例如,基于阈值 式回,但实验表明,仅仅通过真值推理的方式效果 的方法12),用一些特殊的标准(例如熵)来对每 差别并不明显)。在上述真值推理算法的基础 个实例进行打分。如果分数超过阈值,则该实例 上,结合噪声识别和校正是一种行之有效的方案, 将被视为噪声;基于模型预测的过滤算法,通过 但需要较高的标记质量(如增加众包人数或者寻 模型对实例进行分类并识别噪声,有如表决过滤 求更好的标记者),否则结果偏差较大。 (VF)),对数据集进行多次交叉验证,若超过一半 从成本和质量两个角度考虑,我们可以由专 不相同则认为该实例为噪声样本。 家首先标记少部分实例,并适当减少众包工人人 目前常用的方法,或者标签质量不够理想,或 数和水平来达到成本和质量的最优解。针对这一 者需要去除部分实例以保证质量。为达到既能保 场景,本文提出了一个适应性较强的基于特征扩 证质量,又能完整保留数据集全部实例的目的, 维提高众包质量的框架(FA-method),结合少量的 Zhang等首先提出了将噪声识别和校正相结合的 专家标签,运用特征扩维的方法对真值推理算法 方法AVNC。在集成标签的基础上,首先由多 所得的集成标签集进行处理,通过计算每个实例 次交叉验证识别噪声,计算噪声可能程度和噪声 为噪声的可能程度以及集成标签的噪声数量的上 数量范围以识别噪声,然后采用集成学习的方式 限区分噪声,并进一步提高标签质量和可靠性。 进行校正。此方法在标记质量较高时有不错的效 实验证明,本方法在不同标记质量下均可以取得 果,当标记质量较低时,仅仅通过交叉验证识别 较好的效果,在众包标记质量较低或众包工人较 会产生较大的偏差,从而导致后续校正无法继续。 少的情况下,依然可以得到较高质量的标签。并 为解决上述问题,本文在AVNC所采用的噪 且以校正后的数据集训练所得模型的泛化能力有 声识别和校正相结合的基础框架上做了改进,引 进一步的提高。和现有的结合噪声识别和校正的 入了少量专家标记,并采用特征扩维的方法进行 框架相比也具有优势。 噪声识别和校正,保证了当标记质量较低时所得 结果质量的稳定。 1相关工作 2基于特征扩维的众包质量提高方法 通常,在人工智能领域,采用众包的方法获取 标签有两个目的:其一是为了获得大量的带有标 2.1基本框架 签的数据,专注于标签本身的质量,以所得标签 图1所示为本方法的基本框架。首先,由每
动商业未来》(Crowdsourcing:Why the Power of the Crowd is Driving the Future of Business) 一书中 首次提出并做了详细的阐释。书中关于众包的定 义为:“一个公司或机构把过去由员工执行的工作 任务,以自由自愿的形式外包给非特定的 (而且 通常是大型的) 大众网络的做法。众包的任务通 常是由个人来承担,但如果涉及到需要多人协作 完成的任务,也有可能以依靠开源的个体生产的 形式出现”。 众包是不准确监督的一种典型场景[1] ,包括 机器学习、数据挖掘等在内的技术,通常需要大 量带有标记的数据对算法以及模型进行训练、预 测以及验证。数据数量越大,准确率越高,算法 及模型的效果就越好。结合众包系统获取标签成 本低、单个质量不可靠的特点,通常采取对同一 实例由多个不同标记者进行标记,并用真值推理 算法将所得的多重标签进行整合。基础的真值推 理算法有多数投票 (MV),此方法要求保证工人的 平均正确率大于 50%,则工人数量越多,标签质 量越高。其他还有一些以投票法为基础的改进形 式 [2] ,但实验表明,仅仅通过真值推理的方式效果 差别并不明显[3]。在上述真值推理算法的基础 上,结合噪声识别和校正是一种行之有效的方案[4] , 但需要较高的标记质量 (如增加众包人数或者寻 求更好的标记者),否则结果偏差较大。 从成本和质量两个角度考虑,我们可以由专 家首先标记少部分实例,并适当减少众包工人人 数和水平来达到成本和质量的最优解。针对这一 场景,本文提出了一个适应性较强的基于特征扩 维提高众包质量的框架 (FA-method),结合少量的 专家标签,运用特征扩维的方法对真值推理算法 所得的集成标签集进行处理,通过计算每个实例 为噪声的可能程度以及集成标签的噪声数量的上 限区分噪声,并进一步提高标签质量和可靠性。 实验证明,本方法在不同标记质量下均可以取得 较好的效果,在众包标记质量较低或众包工人较 少的情况下,依然可以得到较高质量的标签。并 且以校正后的数据集训练所得模型的泛化能力有 进一步的提高。和现有的结合噪声识别和校正的 框架相比也具有优势。 1 相关工作 通常,在人工智能领域,采用众包的方法获取 标签有两个目的:其一是为了获得大量的带有标 签的数据,专注于标签本身的质量,以所得标签 与真值相比的准确率为度量;其二是获取更多数 据以训练模型,专注于所得模型的质量,以模型 的泛化能力为度量。 对于前者,常见思路是通过众包标签集推断 真实标签,如上文所述,目前最常用且简单有效 的方法为多数投票 (MV),即针对每个实例的多重 标签集合,取多数为最终标签[5]。该方法的前提 是工作人员的准确率需高于 50%,在此基础上, 随着工作人员数量的增加,其正确率会不断提 高。其他方法还有 GLAD 方法[6] 、贝叶斯方法 RY[7] 、 ZenCrowd 算法[8] 等,一些对不同数据集进行实验 证明,这些真值推理方法效果差异并不明显[3, 9]。 因此,仅仅通过设计新颖的推理算法来提高标签 质量比较困难。 对于后者,一种思路是在上面真值推理方法 所得的集成标签基础上进一步识别出疑似噪声样 本并在数据集中将其去掉。一项实验证明,简单 去除噪声可以提高所训练模型的质量[10] ,因此一 些噪声识别方法可以应用于此。例如,基于阈值 的方法[11-12] ,用一些特殊的标准 (例如熵) 来对每 个实例进行打分。如果分数超过阈值,则该实例 将被视为噪声;基于模型预测的过滤算法,通过 模型对实例进行分类并识别噪声,有如表决过滤 (VF)[13] ,对数据集进行多次交叉验证,若超过一半 不相同则认为该实例为噪声样本。 目前常用的方法,或者标签质量不够理想,或 者需要去除部分实例以保证质量。为达到既能保 证质量,又能完整保留数据集全部实例的目的, Zhang 等首先提出了将噪声识别和校正相结合的 方法 AVNC[4]。在集成标签的基础上,首先由多 次交叉验证识别噪声,计算噪声可能程度和噪声 数量范围以识别噪声,然后采用集成学习的方式 进行校正。此方法在标记质量较高时有不错的效 果,当标记质量较低时,仅仅通过交叉验证识别 会产生较大的偏差,从而导致后续校正无法继续。 为解决上述问题,本文在 AVNC 所采用的噪 声识别和校正相结合的基础框架上做了改进,引 入了少量专家标记,并采用特征扩维的方法进行 噪声识别和校正,保证了当标记质量较低时所得 结果质量的稳定。 2 基于特征扩维的众包质量提高方法 2.1 基本框架 图 1 所示为本方法的基本框架。首先,由每 ·228· 智 能 系 统 学 报 第 15 卷
第2期 李易南,等:面向众包数据的特征扩维标签质量提高方法 ·229· 个众包工人标记的结果训练一个模型,并对专家 2.3噪声识别部分 集进行预测,所得结果作为专家集新的特征。之 定义一个众包系统,以下均针对二分类情 后用扩维后的专家集训练模型并对原始数据进行 况。设众包数据共有I个实例,每个实例均经过 预测,与集成标签相比较,计算每个实例的集成 众包工人标记了J个标签。对于每个实例i,其特 标签是噪声的可能程度以及噪声数量。将集成标 征记为X,J个标签集合记为{,,…,,其中 签划分为质量可靠的保留集和需要校正的含噪声 1∈{-1,1(分别代表负例和正例),未知的真实标签 集,同时形成用于辅助校正的M个辅助集。之后 记为y,经过标签集成算法处理后的集成标签记 用铺助集对保留集扩维,对含噪声集合进行校 为。这里需要明确的是,每个工人的正确率需 正,最终将校正后的数据和保留集合并为最终结 要大于50%,否则众包系统无法成立。在实际 果。整个框架的关键在于噪声识别和噪声校正两 中,众包工作者通常会经过初步的筛选,以防止 个部分,将在后文分别介绍。 恶意标注者(标注正确率低于50%)的出现。 对于每个标记者,可以简单按式(1)估计出其 助集 H…H 错误率: 特征扩维 (1) 特征扩维 留集 别 对于每个实例,由基础分类算法(如决策 众包标 人多数」 树)进行M轮预测后会得到M个分类标签{,,…, 签集 投票 ),将其作为实例新的特征,并和初始标签产进 行对比,计算不相同次数C。 图1基于特征扩维的众包质量提高方法的基本框架 Fig.1 The framework of the feature-augmentation meth- ci= (2) od of enhancing the labeling quality of crowdsourcing data 式(1)和式(2)中函数1()是一个指示器函数, 2.2特征扩维方法 如果括号内条件满足则返回1,不满足则返回0。 本文所用的特征扩维方法类似于文献[14], 第m轮扩维将实例i预测为正例的概率为 是一种两层学习器结合的方法,以噪声识别部分 c,预测为负例的概率为c-”。则实例i的标签不 为例:首先由众包数据训练出一组初级学习器, 确定程度可由式(3)来度量,即: 然后输出所得的类概率作为专家数据集的新的特 e=- cilogc+cm logcm (3) 征,专家数据集的标签仍作为新数据集的标签。 这些增加的特征实质上可以打开原始输入空间的 下面定义一个量a,来表示实例i的集成标 流形结构,从而可以增强的专家数据集的分类性 签,是噪声的可能程度: 能。与由专家集直接训练模型相比,其在泛化性 ai=ci+lei/ (4) 能上能够有进一步的提高。 设J个众包人员标记的众包标签集为C= a,是一种双层排序,以不相同次数c,作为整 {X,),(X22),…,(X,yh,专家集P(X,yp),基础算 数部分,以不确定度做小数部分。不相同次数 法C,原始数据集D(X)。该方法的伪代码如下: c,将标签集分为M什1组,C,越大,意味着有更多的 forj=1,2,…,Jdo: 模型将这个标签标记为噪声。在每组内又按照不 hj=L(Xj.y ) 确定程度进行排序,不确定程度越大,意味着越 yri=hj(Xp) 有可能是噪声。按4大小对所有实例进行排序,显 yDj=hj(Xp) 然α越大,就意味着集成标签越有可能是噪声。 end for 接下来计算噪声可能的数量,以期将集成标 H=(Xp,yPI,…,yp),yp) 签进行划分。由于我们采用的是投票法对众包标 输出:z=H(Xoyp1,…yD) 签集进行初步整合,为保证识别出的高质量集的
个众包工人标记的结果训练一个模型,并对专家 集进行预测,所得结果作为专家集新的特征。之 后用扩维后的专家集训练模型并对原始数据进行 预测,与集成标签相比较,计算每个实例的集成 标签是噪声的可能程度以及噪声数量。将集成标 签划分为质量可靠的保留集和需要校正的含噪声 集,同时形成用于辅助校正的 M 个辅助集。之后 用辅助集对保留集扩维,对含噪声集合进行校 正,最终将校正后的数据和保留集合并为最终结 果。整个框架的关键在于噪声识别和噪声校正两 个部分,将在后文分别介绍。 保留集 校正集 专家标 签集 众包标 签集 特征扩维 多数 投票 含噪声 集 辅助集 H1…HM 特征扩维 噪声识别 噪声校正 图 1 基于特征扩维的众包质量提高方法的基本框架 Fig. 1 The framework of the feature-augmentation method of enhancing the labeling quality of crowdsourcing data 2.2 特征扩维方法 本文所用的特征扩维方法类似于文献 [14], 是一种两层学习器结合的方法,以噪声识别部分 为例:首先由众包数据训练出一组初级学习器, 然后输出所得的类概率作为专家数据集的新的特 征,专家数据集的标签仍作为新数据集的标签。 这些增加的特征实质上可以打开原始输入空间的 流形结构,从而可以增强的专家数据集的分类性 能。与由专家集直接训练模型相比,其在泛化性 能上能够有进一步的提高。 {(X1, y1), (X2, y2),··· ,(XJ , yJ )} P(XP, yP) L D(XD) 设 J 个众包人员标记的众包标签集为 C = ,专家集 ,基础算 法 ,原始数据集 。该方法的伪代码如下: for j = 1,2,··· , J do: hj = L ( Xj , yj ) ; yP j = hj(XP) yD j = hj(XD) end for h ′ = L((XP, yP1,··· , yPJ ), yP) z = h ′ 输出: (XD, yD1,··· , yDJ ) 2.3 噪声识别部分 { l 1 i , l 2 i ,··· ,l J i } l 1 i ∈ {−1,1} yˆi 定义一个众包系统,以下均针对二分类情 况。设众包数据共有 I 个实例,每个实例均经过 众包工人标记了 J 个标签。对于每个实例 i,其特 征记为 Xi,J 个标签集合记为 ,其中 (分别代表负例和正例),未知的真实标签 记为 yi,经过标签集成算法处理后的集成标签记 为 。这里需要明确的是,每个工人的正确率需 要大于 50%,否则众包系统无法成立。在实际 中,众包工作者通常会经过初步的筛选,以防止 恶意标注者 (标注正确率低于 50%) 的出现。 对于每个标记者,可以简单按式 (1) 估计出其 错误率: qj = ∑I i=1 I ( l j i , yˆi ) /I (1) {l 1 i , l 2 i ,··· , l M i } yˆi 对于每个实例 i,由基础分类算法 (如决策 树) 进行 M 轮预测后会得到 M 个分类标签 ,将其作为实例新的特征,并和初始标签 进 行对比,计算不相同次数 ci。 ci = ∑M m=1 I ( l m i , yˆi ) (2) 式 (1) 和式 (2) 中函数 I(·) 是一个指示器函数, 如果括号内条件满足则返回 1,不满足则返回 0。 第 m 轮扩维将实例 i 预测为正例的概率为 c1 m ,预测为负例的概率为 c−1 m。则实例 i 的标签不 确定程度可由式 (3) 来度量,即: ei = − ∑M m=1 [ c (m) −1 logc (m) −1 +c (m) 1 logc (m) 1 ] (3) yˆi 下面定义一个量 αi 来表示实例 i 的集成标 签, 是噪声的可能程度: αi = ci + ei/ ∑I i=1 ei (4) yˆi αi 是一种双层排序,以不相同次数 ci 作为整 数部分,以不确定度做小数部分。不相同次数 ci 将标签集分为 M+1 组,ci 越大,意味着有更多的 模型将这个标签标记为噪声。在每组内又按照不 确定程度进行排序,不确定程度越大,意味着越 有可能是噪声。按 αi 大小对所有实例进行排序,显 然 αi 越大,就意味着集成标签 越有可能是噪声。 接下来计算噪声可能的数量,以期将集成标 签进行划分。由于我们采用的是投票法对众包标 签集进行初步整合,为保证识别出的高质量集的 第 2 期 李易南,等:面向众包数据的特征扩维标签质量提高方法 ·229·
·230· 智能系统学报 第15卷 质量可靠,本着“宁缺毋滥”的原则,因此我们需 众包集C,专家集 要计算出噪声比例的上限。 P,参数=5 由式(1)可计算贴标者错误率为g,通过投票 法整合J个标记者,超过半数正确则集成结果正 众包标签集多数投票形成 标签集Lc 确。在这里,各个标记者错误率可视为相互独立, 可由Hoeffding不等式推导出集成错误率的上限: 由式(1)、(6)计算噪声数 0= ()1-g≤ 量上限noise num (5) ep-21-2g =Omax N M≤MR noise_num=Qmax·I= exp-1-2q)).1 (6) 分别取第1、2、…、J个标记者所标记的数据训练 按a大小对所有实例进行降序排序,我们可 模型,对专家集和原始数据集扩维,用扩维后的专 家集训练模型并对扩维后的原始数据集进行预测 以将集成标签集分为两部分:前noise_num个标 签为待进一步处理的含噪声集,其余为可靠的保 留集。 与集成标签比较,由式(2)计算c,并形成辅助集H 2.4噪声校正部分 目前,关于噪声校正的研究数量较少,且一些 实验也证明校正噪声是比较困难的。一种直接的 由式(4)计算a,将所有实例按a,降序排列,前 noise num为含噪声集,其余为保留集 思路是,在分离出含噪声的集合后,用高质量集 直接训练模型对噪声集进行校正,但效果不理想。 为了提高分离出的高质量集所训练的模型的 分别取第1、2、·、M个辅助集训练模型,对保留集 和含噪声集扩维,用扩维后的保留集训练模型并对扩维 泛化能力,我们再次使用扩维的方法:噪声识别 后的含噪声集进行预测,重复轮 过程中,每轮扩维预测后,每个实例i均获得一个 标签l,若l=,则将实例i加入辅助集Hm中,共 对个校正结果进行投票,作为校正结果,与保留集 获得M个辅助集{H1,H2,…,Hw。和识别部分类似,用 合并,返回最终结果 之前得到的辅助集{H,H2,…,Hw}分别训练得到 图2算法流程图 模型2,促,…,h必),对噪声集和保留集扩维并进 Fig.2 Flowchart of the proposed method 行预测,重复M轮,用投票法整合所得的M个标 签集合,作为对噪声集的校正结果。把校正后的 3实验结果分析 结果和保留集合并为最终结果。 由上文所述,众包通常关注于两个结果:1)标 2.5完整框架 签本身质量:2)训练所得模型的质量。因此在这 该算法主要时间消耗在于对专家集扩维、对 里分别进行实验。基础的学习模型均采用决策 保留集扩维两个部分,且与所选择的基础算法£ 树,由python的sklearn库实现,参数均取默认值, 有关。设基础学习算法对实例数为n的众包集训 取M=5 练及预测的时间复杂度为T(),则本方法的时间 3.1实验数据 复杂度为M[J.T(n)+T(nr]+M[M.T(')+T(m"], 实验数据来自UCI机器学习库的8个数据 其中,M为预设重复轮数,J为众包者数量,r为专 集,它们具有不同的数量的实例,不同的类分布, 家集比例,n'为辅助集实例数,n"为噪声集实例 不同数量的特征及其类型,以便验证本方法在不 数,以上均为常数,且Mn,J≤n,0<r<1,n'<n, 同情况下的适用性。其中4个为较小规模数据 n"<n。由此可见本方法的时间复杂度取决于所选 集,4个为较大规模数据集。在模拟实验中不对 择的基础算法时间复杂度。完整流程图如图2 数据集本身做任何特征处理。数据集具体情况如 所示。 表1
质量可靠,本着“宁缺毋滥”的原则,因此我们需 要计算出噪声比例的上限。 由式 (1) 可计算贴标者错误率为 q,通过投票 法整合 J 个标记者,超过半数正确则集成结果正 确。在这里,各个标记者错误率可视为相互独立, 可由 Hoeffding 不等式推导出集成错误率的上限[15] : Q = ∑ ⌊J/2⌋ k=0 ( J k ) q J−k (1−q) k ⩽ exp( − 1 2 J(1−2q) 2 ) = Qmax (5) noise_num = Qmax ·I = exp( − 1 2 J(1−2q) 2 ) ·I (6) 按 αi 大小对所有实例进行降序排序,我们可 以将集成标签集分为两部分:前 noise_num 个标 签为待进一步处理的含噪声集,其余为可靠的保 留集。 2.4 噪声校正部分 目前,关于噪声校正的研究数量较少,且一些 实验也证明校正噪声是比较困难的。一种直接的 思路是,在分离出含噪声的集合后,用高质量集 直接训练模型对噪声集进行校正,但效果不理想。 li = yˆi {H1,H2,··· ,HM} {H1,H2,··· ,HM} { h 1 C ,h 2 C ,··· ,h M C } 为了提高分离出的高质量集所训练的模型的 泛化能力,我们再次使用扩维的方法:噪声识别 过程中,每轮扩维预测后,每个实例 i 均获得一个 标签 li,若 ,则将实例 i 加入辅助集 Hm 中,共 获得M个辅助集 。和识别部分类似,用 之前得到的辅助集 分别训练得到 模型 ,对噪声集和保留集扩维并进 行预测,重复 M 轮,用投票法整合所得的 M 个标 签集合,作为对噪声集的校正结果。把校正后的 结果和保留集合并为最终结果。 2.5 完整框架 L M [J ·T (n)+T (nr)]+ M [M ·T (n ′ )+T (n ′′)] M ≪ n J ≪ n 该算法主要时间消耗在于对专家集扩维、对 保留集扩维两个部分,且与所选择的基础算法 有关。设基础学习算法对实例数为 n 的众包集训 练及预测的时间复杂度为 T(n),则本方法的时间 复杂度为 , 其中,M 为预设重复轮数,J 为众包者数量,r 为专 家集比例,n'为辅助集实例数,n''为噪声集实例 数,以上均为常数,且 , ,0<r<1,n'<n, n''<n。由此可见本方法的时间复杂度取决于所选 择的基础算法时间复杂度。完整流程图如图 2 所示。 众包集C,专家集 P,参数m=5 众包标签集多数投票形成 标签集LC 由式(1)、(6)计算噪声数 量上限noise_num M≤M? 分别取第1、2、…、J个标记者所标记的数据训练 模型,对专家集和原始数据集扩维,用扩维后的专 家集训练模型并对扩维后的原始数据集进行预测 与集成标签比较,由式(2)计算ci,并形成辅助集Hm 由式(4)计算ai,将所有实例按ai降序排列,前 noise_num为含噪声集,其余为保留集 分别取第1、2、…、M个辅助集训练模型,对保留集 和含噪声集扩维,用扩维后的保留集训练模型并对扩维 后的含噪声集进行预测,重复M轮 对M个校正结果进行投票,作为校正结果,与保留集 合并,返回最终结果 Y N 图 2 算法流程图 Fig. 2 Flowchart of the proposed method 3 实验结果分析 由上文所述,众包通常关注于两个结果:1) 标 签本身质量;2) 训练所得模型的质量。因此在这 里分别进行实验。 基础的学习模型均采用决策 树,由 python 的 sklearn 库实现,参数均取默认值, 取 M=5。 3.1 实验数据 实验数据来自 UCI 机器学习库的 8 个数据 集,它们具有不同的数量的实例,不同的类分布, 不同数量的特征及其类型,以便验证本方法在不 同情况下的适用性。其中 4 个为较小规模数据 集,4 个为较大规模数据集。在模拟实验中不对 数据集本身做任何特征处理。数据集具体情况如 表 1。 ·230· 智 能 系 统 学 报 第 15 卷
第2期 李易南,等:面向众包数据的特征扩维标签质量提高方法 ·231· 表18个UCI数据集的基本情况 Table 1 Basic conditions of 8 UCI datasets 名称 数量 正例 负例 特征数量 特征类型 mushroom 8124 3916 4280 23 类别 kr-vs-kp 3196 1527 1669 37 类别 spambase 4601 1813 2788 58 数值 sick 3772 231 3541 30 混合 biodeg 1055 356 699 42 数值 tic-tac-toe 958 332 626 10 类别 vote 435 168 267 17 类别 ionosphere 351 126 225 35 数值 首先,在较大规模数据集取=0.05的数据,较 图3和图4分别是平均标记准确率为0.7和 小规模数据集取=0.1的数据作为专家标签集, 0.6时4种方法的准确率。 以他们的真实标签作为专家标记的标签。接下来 1.0 1.0 模拟众包的过程:创建一个模拟标记者,为数据 0.9 0.9 集中的每个实例标记一次。然后,第二个模拟标 解0.8 能0.8 记者执行相同的任务,直到第J个模拟标记者完 毫o7+8 4MV 0.6+MV+AVNC 0.6+MV+AVNC 成同样的任务。最终,使每个实例都包含J个标 MV+FAEQ MV+FAEQ 0.5 3 5 7 9 0.5 3 5 7 签。模拟标记者的标记质量均匀分布,且所有的 众包标签数量 众包标签数量 模拟标记者都有不同的标记质量。所有实例以及 (a)mushroom (b)kr-vs-kp 它们对应的多个噪声标签集形成一个模拟众包标 1.0h 1.0f 签数据集。默认J取10,平均质量较高的情况下, 0.9 0.9 取模拟标记者质量范围为[0.6,0.8],平均为0.7;平 每0.8 00.8 均质量较低的情况下,取模拟标记者质量范围为 是07 是07 0.6 MV+AVNC [0.5,0.7],平均为0.6,每个实例的集成标签由多数 MV+FAEQ .6 AC MV+FAEQ 0.5 0.5 1 7 3 5 投票产生。 3 5 9 9 众包标签数量 众包标签数量 3.2准确率对比 (c)sprmpase (d)sick 众包的一个目的在于获得大量数据的标签, 1.0h 1.0h 因此需要考察众包处理后的标签和真实标签的准 0.9 0.9 确率。由于AVNC是首次被提出将噪声识别和 校正组合来提升众包质量的方法,且实验证明其 +MV +MV 0.6 -+-MV+AVNC 0.6+MV+AVNC 可以进一步提高标签集成算法的质量。因此本次 MV+FAEQ MV+FAEO 0.5 w2 0.5 9 3 5 实验选择多数投票为基础标签集成算法,在其基 众包标签数量 众包标签数量 础上比较AVNC和FA-method对于众包质量的提 (e)biodeg (f)tic-tac-toe 高程度。实验方法如下: 1.0 1.0h 1)直接由多数投票形成的集成标签(MV): 0.9 0.9 2)多轮交叉验证,计算噪声数和不相同次数 划分噪声集,采用集成学习方法进行校正(AVNC): 0.7 MV 07 +MV 0.6 MV+AVNC 0.6 MV+AVNC 3)由特征扩维识别并校正噪声(FA-method)。 MV+FAEQ MV+FAEQ 0.5 3 0.5 5 7 9 3 579 每种方法重复实验10次,每次随机取奇数个 众包标签数量 众包标签数量 模拟标记人员所标记的标签(避免多数投票出现 (g)vote (h)ionosphere 随机值),对比三者所得到的标签和真实值相比的 图3高质量标记时众包准确率 准确率以及标准差。 Fig.3 Accuracy of crowdsourcing on high quality labeling
表 1 8 个 UCI 数据集的基本情况 Table 1 Basic conditions of 8 UCI datasets 名称 数量 正例 负例 特征数量 特征类型 mushroom 8 124 3 916 4 280 23 类别 kr-vs-kp 3 196 1 527 1 669 37 类别 spambase 4 601 1 813 2 788 58 数值 sick 3 772 231 3 541 30 混合 biodeg 1 055 356 699 42 数值 tic-tac-toe 958 332 626 10 类别 vote 435 168 267 17 类别 ionosphere 351 126 225 35 数值 首先,在较大规模数据集取 r=0.05 的数据,较 小规模数据集取 r=0.1 的数据作为专家标签集, 以他们的真实标签作为专家标记的标签。接下来 模拟众包的过程:创建一个模拟标记者,为数据 集中的每个实例标记一次。然后,第二个模拟标 记者执行相同的任务,直到第 J 个模拟标记者完 成同样的任务。最终,使每个实例都包含 J 个标 签。模拟标记者的标记质量均匀分布,且所有的 模拟标记者都有不同的标记质量。所有实例以及 它们对应的多个噪声标签集形成一个模拟众包标 签数据集。默认 J 取 10,平均质量较高的情况下, 取模拟标记者质量范围为 [0.6,0.8],平均为 0.7;平 均质量较低的情况下,取模拟标记者质量范围为 [0.5,0.7],平均为 0.6,每个实例的集成标签由多数 投票产生。 3.2 准确率对比 众包的一个目的在于获得大量数据的标签, 因此需要考察众包处理后的标签和真实标签的准 确率。 由于 AVNC 是首次被提出将噪声识别和 校正组合来提升众包质量的方法,且实验证明其 可以进一步提高标签集成算法的质量。因此本次 实验选择多数投票为基础标签集成算法,在其基 础上比较 AVNC 和 FA-method 对于众包质量的提 高程度。实验方法如下: 1) 直接由多数投票形成的集成标签 (MV); 2) 多轮交叉验证,计算噪声数和不相同次数 划分噪声集,采用集成学习方法进行校正 (AVNC); 3) 由特征扩维识别并校正噪声 (FA-method)。 每种方法重复实验 10 次,每次随机取奇数个 模拟标记人员所标记的标签 (避免多数投票出现 随机值),对比三者所得到的标签和真实值相比的 准确率以及标准差。 图 3 和图 4 分别是平均标记准确率为 0.7 和 0.6 时 4 种方法的准确率。 3 MV MV+AVNC MV+FAEQ 1 5 (a) mushroom 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (b) kr-vs-kp 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (c) sprmpase 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (d) sick 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (e) biodeg 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (f) tic-tac-toe 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (g) vote 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (h) ionosphere 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 图 3 高质量标记时众包准确率 Fig. 3 Accuracy of crowdsourcing on high quality labeling 第 2 期 李易南,等:面向众包数据的特征扩维标签质量提高方法 ·231·
·232· 智 能系统学 报 第15卷 1.0 1.0 需要考察的是修正噪声后的数据集和简单去除噪 0.9 0.9 声的数据集相比,生成的模型的识别能力是否有 部0.8 0.8 是0 07 所提高。这里选择VF进行噪声识别。实验方法 6 -+-MV+AVNC 0.6 如下:对每一个数据集,划分70%为训练集,30% 0.5 +-MV MV+FAEQ 0.5 为验证集,其中训练集按前文方法进行校正,比 7 7 9 众包标签数量 众包标签数量 较下列3种方法: (a)mushroom (b)kr-vs-kp 1)将众包标签集直接采用投票方法融合,训 1.0h 1.0h 练模型对验证集预测: 0.9 0.9 2)采用VF算法,多轮交叉验证,大于一半不 0.8 0.8 相同视为噪声,直接去除掉噪声,剩余数据训练 0.7 模型对验证集预测; 0.6 +MV+AVNC MV+AVNO +MVMV+FAEQ +MV MV+FAEQ 3)采用FA识别并校正噪声,将校正过的数 0.5 0.5 7 3 据重新加入数据集并训练模型对验证集预测。 众包标签数量 众包标签数量 评价标准为AUC,即ROC曲线下面积。每 (c)sprmpase (d)sick 种方法重复实验10次,每次随机取奇数个模拟标 1.0 1.0t 记人员所标记的标签,比较其标准差和平均值。 0.9 0.9 图5和图6分别是平均标记准确率为0.7和 0.8 0.8 0.7 0.6时4种方法的所得标签训练模型的效果对比。 1.0h 1.0h 0.6 MV+AVNC ++FAEQ 0.6 MV+AVNO MV+FAEQ 0.9 0.9 0.5 1 3 0.5 5 7 1 5 7 0.8 众包标签数量 众包标签数量 89 +MV 元0.7 +MV (e)biodeg (f)tic-tac-toe VE 0.6 0.6 -+-FA -+-FA 1.0i 1.0h 0.5 0.5 3 5 7 9 3 5 7 9 0.9 0.9 众包标签数量 众包标签数量 0.8 0.8 是07 (a)mushroom (b)kr-vs-kp 0.6 0.6 +MV+AVNC 1.0 1.0h MV ±XS 0.5 0.5 +MV MV+FAEQ 0.9 0.9 5 7 9 3 5 7 S08 908 众包标签数量 众包标签数量 0.7 之0.7 (g)vote (h)ionosphere 0.6 0.6 FA +FA 图4低质量标记时众包准确率 0.5 0.5 7 9 3 5 Fig.4 Accuracy of crowdsourcing on low quality labeling 众包标签数量 众包标签数量 由图3和图4,可以得出以下结论: (c)sprmpase (d)sick 1)和多数投票所得集成标签相比,本方法能 1.0 +-MV 1.0h 够在其基础上较大幅度提高标签的质量: 0.9 0.9 2)和现有方法相比,除sick和tic-tac-toe数据 908 90.8 集外,本方法无论在标记质量较高或较低、标记 0.7 0.7 人数多或少的情况下所得结果均较高: 0.6 0.6 FA 0.5 0.5 3)本方法在标记人数3人以下时和其他方法 0 > 相比有明显优势,3人以上时略优于其他方法,因 众包标签数量 众包标签数量 (e)biodeg (f)tic-tac-toe 此可以在适当减少标记人数的情况下保证标记 质量; 1.0 1.0 4)对比图3和图4可见,当标记质量较低时, 0.9 0.9 对比方法质量明显下降,而本方法下降幅度与之 0.7 +MV 相比则下降不很明显; +MV 0.6 +-FA 0.6 5)sick和tic-tac-toe数据集效果不佳,其原因 0.5 -+-FA 0.5 3 5 9 5 在于数据集分布不平衡,随机选取的专家集可能 众包标签数量 众包标签数量 有严重的偏向,从而影响识别和校正的性能。 (g)vote (h)ionosphere 3.3训练模型对比 图5高质量标记时众包训练模型AUC 众包的另一个目的,是为机器学习的大量数 Fig.5 AUC of model trained by crowdsourcing on high 据集进行标注,以提高模型的泛化能力。因此还 quality labeling
MV MV+AVNC MV+FAEQ 1 5 3 (a) mushroom 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) kr-vs-kp 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV+FAEQ 1 5 3 (c) sprmpase 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (d) sick 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 1 5 3 (e) biodeg 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (f) tic-tac-toe 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 1 5 3 (g) vote 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (h) ionosphere 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 图 4 低质量标记时众包准确率 Fig. 4 Accuracy of crowdsourcing on low quality labeling 由图 3 和图 4,可以得出以下结论: 1) 和多数投票所得集成标签相比,本方法能 够在其基础上较大幅度提高标签的质量; 2) 和现有方法相比,除 sick 和 tic-tac-toe 数据 集外,本方法无论在标记质量较高或较低、标记 人数多或少的情况下所得结果均较高; 3) 本方法在标记人数 3 人以下时和其他方法 相比有明显优势,3 人以上时略优于其他方法,因 此可以在适当减少标记人数的情况下保证标记 质量; 4) 对比图 3 和图 4 可见,当标记质量较低时, 对比方法质量明显下降,而本方法下降幅度与之 相比则下降不很明显; 5) sick 和 tic-tac-toe 数据集效果不佳,其原因 在于数据集分布不平衡,随机选取的专家集可能 有严重的偏向,从而影响识别和校正的性能。 3.3 训练模型对比 众包的另一个目的,是为机器学习的大量数 据集进行标注,以提高模型的泛化能力。因此还 需要考察的是修正噪声后的数据集和简单去除噪 声的数据集相比,生成的模型的识别能力是否有 所提高。这里选择 VF 进行噪声识别。实验方法 如下:对每一个数据集,划分 70% 为训练集,30% 为验证集,其中训练集按前文方法进行校正,比 较下列 3 种方法: 1) 将众包标签集直接采用投票方法融合,训 练模型对验证集预测; 2) 采用 VF 算法,多轮交叉验证,大于一半不 相同视为噪声,直接去除掉噪声,剩余数据训练 模型对验证集预测; 3) 采用 FA 识别并校正噪声,将校正过的数 据重新加入数据集并训练模型对验证集预测。 评价标准为 AUC,即 ROC 曲线下面积。 每 种方法重复实验 10 次,每次随机取奇数个模拟标 记人员所标记的标签,比较其标准差和平均值。 图 5 和图 6 分别是平均标记准确率为 0.7 和 0.6 时 4 种方法的所得标签训练模型的效果对比。 MV VF FA MV VF FA 1 5 3 (a) mushroom 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) kr-vs-kp 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 1 5 3 (c) sprmpase 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (d) sick 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 1 5 3 (e) biodeg 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (f) tic-tac-toe 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 1 5 3 (g) vote 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (h) ionosphere 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 图 5 高质量标记时众包训练模型 AUC Fig. 5 AUC of model trained by crowdsourcing on high quality labeling ·232· 智 能 系 统 学 报 第 15 卷
第2期 李易南,等:面向众包数据的特征扩维标签质量提高方法 ·233· 1.0 1.0 的性能不佳的情况,有如下实验:在选择专家集 0.9 0.9 -+-MV 0.8 时,尽量保证正负例数量基本一致,其余条件不 VF -+-FA 0.7 变,实验结果如下。 06 0.6 首先是准确率对比,图7和图8为两数据集 0.5 3 0.5 A 3 分别在高质量和低质量标记情况下校正的准确率。 众包标签数量 众包标签数量 (a)mushroom (b)kr-vs-kp 1.0 1.0 0.9 0.9 1.0f +-MV -+-FA 1.0h 站0.8 0.9 VF 0.9 +-FA 0> 0.6 MV-AVNC 0.6 MV-AVNC MV+FAEQ MV+FAEQ 0.7 0.7 0.5 9 0.5 3 5 5 7 9 0.6 0.6 众包标签数量 众包标签数量 0.5 0.5 7 9 (a)sick (b)tic-tac-toe 众包标签数量 众包标签数量 (c)sprmpase (d)sick 图7高质量标记时众包准确率 Fig.7 Accuracy of Crowdsourcing on high quality labeling 1.0 1.0h 0.9 0.9 1.0h 1.0f -+-FA +-FA 0 0.9 0.9 0.7 解0.8 站0.8 0.6 0.6 是0.7 0.5 0.5 0.6 MV MVIFES 0.6 +MV ±MXS 众包标签数量 众包标签数量 0.5 3 > 0.5 7 9 (e)biodeg (f)tic-tac-toe 众包标签数量 众包标签数量 (a)sick (b)tic-tac-toe 1.0 1.0 -+-FA 0.9 0.9 + 图8低质量标记时众包准确率 0.8 0.8 Fig.8 Accuracy of Crowdsourcing on low quality labeling 20.7 0.7 MV 其次是训练模型对比,图9和图10为两数据 0.6 VF 0.6 +FA 集分别在高质量和低质量标记情况下所得校正结 0.5 0.5 5 7 5 7 果训练模型的AUC。 众包标签数量 众包标签数量 (g)vote (h)ionosphere 1.0H 1.0h 0.9 0.9 图6低质量标记时众包训练模型AUC 0.8 Fig.6 AUC of model trained by crowdsourcing on high quality labeling +MV 0.7 0.6 0.6 -+-FA -+FA 由图4和图5,有以下观察结果: 0.5 > 9 0.5 5 1 1)简单去除噪声可以提高所训练模型的质 众包标签数量 众包标签数量 (a)sick (b)tic-tac-toe 量,这验证了文献[9]的结论: 图9高质量标记时众包训练模型AUC 2)和简单去除噪声数据相比,本方法提供了 Fig.9 AUC of model trained by Crowdsourcing on high 将噪声实例校正并重新加入数据集的机会,从而 quality labeling 能够训练出更好的模型。 1.0 1.0h 3)对比图5和图6,本方法在标记质量下降 0.9 0.9 时,所得众包结果训练模型的AUC降幅不大,证 0.8 0.7 明本方法在标记质量较时能够保持结果的稳定。 0.6 0.6 4)sick数据集结果不佳,原因在于其数据分 0.5 0.5 5 5 5 布极不均衡,随机选择的专家集可能会出现严重 众包标签数量 众包标签数量 (a)sick (b)tic-tac-toe 的偏向,从而影响识别和校正效果。 3.4不平衡数据集 图10低质量标记时众包训练模型AUC Fig.10 AUC of model trained by Crowdsourcing on high 针对sick和tic-tac-toe等不平衡数据集出现 quality labeling
MV VF FA 1 5 3 (a) mushroom 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) kr-vs-kp 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (c) sprmpase 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (d) sick 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (e) biodeg 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (f) tic-tac-toe 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (g) vote 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (h) ionosphere 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA MV VF FA MV VF FA MV VF FA MV VF FA MV VF FA 图 6 低质量标记时众包训练模型 AUC Fig. 6 AUC of model trained by crowdsourcing on high quality labeling 由图 4 和图 5,有以下观察结果: 1) 简单去除噪声可以提高所训练模型的质 量,这验证了文献 [9] 的结论; 2) 和简单去除噪声数据相比,本方法提供了 将噪声实例校正并重新加入数据集的机会,从而 能够训练出更好的模型。 3) 对比图 5 和图 6,本方法在标记质量下降 时,所得众包结果训练模型的 AUC 降幅不大,证 明本方法在标记质量较差时能够保持结果的稳定。 4) sick 数据集结果不佳,原因在于其数据分 布极不均衡,随机选择的专家集可能会出现严重 的偏向,从而影响识别和校正效果。 3.4 不平衡数据集 针对 sick 和 tic-tac-toe 等不平衡数据集出现 的性能不佳的情况,有如下实验:在选择专家集 时,尽量保证正负例数量基本一致,其余条件不 变,实验结果如下。 首先是准确率对比,图 7 和图 8 为两数据集 分别在高质量和低质量标记情况下校正的准确率。 1 5 3 (a) sick 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) tic-tac-toe 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV+FAEQ MV MV+AVNC MV+FAEQ 图 7 高质量标记时众包准确率 Fig. 7 Accuracy of Crowdsourcing on high quality labeling 1 5 3 (a) sick 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) tic-tac-toe 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 图 8 低质量标记时众包准确率 Fig. 8 Accuracy of Crowdsourcing on low quality labeling 其次是训练模型对比,图 9 和图 10 为两数据 集分别在高质量和低质量标记情况下所得校正结 果训练模型的 AUC。 1 5 3 (a) sick 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) tic-tac-toe 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 图 9 高质量标记时众包训练模型 AUC Fig. 9 AUC of model trained by Crowdsourcing on high quality labeling 1 5 3 (a) sick 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) tic-tac-toe 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 图 10 低质量标记时众包训练模型 AUC Fig. 10 AUC of model trained by Crowdsourcing on high quality labeling 第 2 期 李易南,等:面向众包数据的特征扩维标签质量提高方法 ·233·
·234· 智能系统学报 第15卷 由上述实验可知,专家集的选取对本方法有 2009:2035-2043 一定影响,在处理不平衡数据集时,随机选择的 [7]RAYKAR VC,YU Shisheng,ZHAO L H,et al.Learning 专家集可能会导致样本偏差较大从而影响到最终 from crowds[J].Journal of machine learning research. 的结果,人为选择使得专家集正负样本基本一致 2010.11:1297-1322. 会改进这种情况。 [8]DEMARTINI G.DIFALLAH D E.CUDRE-MAUROUX P.ZenCrowd:leveraging probabilistic reasoning and 4结论 crowdsourcing techniques for large-scale entity linking[Cl/ Proceedings of the 21st International Conference on World 1)本框架在工作人员数量较低或标记质量较 Wide Web.Lyon,France,2012:469-478. 低时均能取得不错的效果,且和增加标记人数或 [9]MUHAMMADI J.RABIEE H R.HOSSEINI A.A unified 提高标记质量所得结果差异不大。换句话说,可 statistical framework for crowd labeling[J].Knowledge 以在适当降低成本的同时获得更高质量的结果; and information systems,2015,45(2):271-294 2)和现有识别和验证框架比,由于引入专家 [10]FRENAY B,VERLEYSEN M.Classification in the pres- 标签,使得在标记质量较低时也能够取得不错的 ence of label noise:a survey[J].IEEE transactions on neural networks and learning systems,2014,25(5): 效果,且标记质量较高时准确率能够进一步提高; 845-869. 3)提供了将噪声实例校正并重新加入数据集 [11]GAMBERGER D,LAVRAC N,DZEROSKI S.Noise 的机会。 elimination in inductive concept learning:a case study in 本方法只适用于二分类标签,而扩展到多分 medical diagnosis[Cl//Proceedings of the 7th Internation- 类的情况时会变得较为复杂,结果偏差会变大。 al Workshop on Algorithmic Learning Theory.Sydney, 另外,本方法对于分布极不均衡的数据集效果略 Australia,1996:199-212. 差,如何应对也需要做进一步的研究。 [12]SUN Jiangwen,ZHAO Fengying,WANG Chongjun,et al.Identifying and correcting mislabeled training in- 参考文献: stances[Cl/Proceedings of Future Generation Communic- ation and Networking.Jeju,South Korea,2007:244-250. [1]ZHOU Zhihua.A brief introduction to weakly supervised [13]BRODLEY C E,FRIEDL M A.Identifying mislabeled learning[J].National science review,2018,5(1):44-53. training data[J].Journal of artificial intelligence research. [2]HU Huiqi,ZHENG Yudian,BAO Zhifeng,et al.Crowd- 1999,11(1片131-167. sourced POI labelling:location-aware result inference and [14]ZHOU Ta,ISHIBUCHI H,WANG Shitong.Stacked- task assignment[C]//Proceedings of 2016 IEEE 32nd Inter- structure-based hierarchical Takagi-Sugeno-Kang fuzzy national Conference on Data Engineering.Helsinki,Fin- classification through feature augmentation[J].IEEE land,2016:61-72. transactions on emerging topics in computational intelli- [3]RODRIGUES F,PEREIRA F C,RIBEIRO B.Gaussian gence,.2017,1(6):421-436. [15]ZHOU Zhihua.Ensemble methods:foundations and al- process classification and active learning with multiple an- gorithms[M].Boca Raton:Taylor Francis,2012. notators[C //Proceedings of the 31st International Confer- ence on International Conference on Machine Learning. 作者简介: Beijing,China,2014:II-433-II-441. 李易南,硕士研究生,主要研究方 [4]ZHANG Jing,SHENG V S,LI Tao,et al.Improving 向为人工智能与模式识别。 crowdsourced label quality using noise correction[J].IEEE transactions on neural networks and learning systems, 2018,29(5):1675-1688. [5]IPEIROTIS P G,PROVOST F,SHENG V S,et al.Re- peated labeling using multiple noisy labelers[J].Data min- ing and knowledge discovery,2014,28(2):402-441. 王士同,教授.博士生导师.主要 [6]WHITEHILL J,RUVOLO P,WU Tingfan,et al.Whose 研究方向为人工智能与模式识别。发 表学术论文近百篇。 vote should count more:optimal integration of labels from labelers of unknown expertise[C]//Proceedings of the 22nd International Conference on Neural Information Pro- cessing Systems.Vancouver,British Columbia,Canada
由上述实验可知,专家集的选取对本方法有 一定影响,在处理不平衡数据集时,随机选择的 专家集可能会导致样本偏差较大从而影响到最终 的结果,人为选择使得专家集正负样本基本一致 会改进这种情况。 4 结论 1) 本框架在工作人员数量较低或标记质量较 低时均能取得不错的效果,且和增加标记人数或 提高标记质量所得结果差异不大。换句话说,可 以在适当降低成本的同时获得更高质量的结果; 2) 和现有识别和验证框架比,由于引入专家 标签,使得在标记质量较低时也能够取得不错的 效果,且标记质量较高时准确率能够进一步提高; 3) 提供了将噪声实例校正并重新加入数据集 的机会。 本方法只适用于二分类标签,而扩展到多分 类的情况时会变得较为复杂,结果偏差会变大。 另外,本方法对于分布极不均衡的数据集效果略 差,如何应对也需要做进一步的研究。 参考文献: ZHOU Zhihua. A brief introduction to weakly supervised learning[J]. National science review, 2018, 5(1): 44–53. [1] HU Huiqi, ZHENG Yudian, BAO Zhifeng, et al. Crowdsourced POI labelling: location-aware result inference and task assignment[C]//Proceedings of 2016 IEEE 32nd International Conference on Data Engineering. Helsinki, Finland, 2016: 61–72. [2] RODRIGUES F, PEREIRA F C, RIBEIRO B. Gaussian process classification and active learning with multiple annotators[C]//Proceedings of the 31st International Conference on International Conference on Machine Learning. Beijing, China, 2014: II–433–II–441. [3] ZHANG Jing, SHENG V S, LI Tao, et al. Improving crowdsourced label quality using noise correction[J]. IEEE transactions on neural networks and learning systems, 2018, 29(5): 1675–1688. [4] IPEIROTIS P G, PROVOST F, SHENG V S, et al. Repeated labeling using multiple noisy labelers[J]. Data mining and knowledge discovery, 2014, 28(2): 402–441. [5] WHITEHILL J, RUVOLO P, WU Tingfan, et al. Whose vote should count more: optimal integration of labels from labelers of unknown expertise[C]//Proceedings of the 22nd International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, [6] 2009: 2035–2043. RAYKAR V C, YU Shisheng, ZHAO L H, et al. Learning from crowds[J]. Journal of machine learning research, 2010, 11: 1297–1322. [7] DEMARTINI G, DIFALLAH D E, CUDRÉ-MAUROUX P. ZenCrowd: leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking[C]// Proceedings of the 21st International Conference on World Wide Web. Lyon, France, 2012: 469–478. [8] MUHAMMADI J, RABIEE H R, HOSSEINI A. A unified statistical framework for crowd labeling[J]. Knowledge and information systems, 2015, 45(2): 271–294. [9] FRENAY B, VERLEYSEN M. Classification in the presence of label noise: a survey[J]. IEEE transactions on neural networks and learning systems, 2014, 25(5): 845–869. [10] GAMBERGER D, LAVRAČ N, DŽEROSKI S. Noise elimination in inductive concept learning: a case study in medical diagnosis[C]//Proceedings of the 7th International Workshop on Algorithmic Learning Theory. Sydney, Australia, 1996: 199–212. [11] SUN Jiangwen, ZHAO Fengying, WANG Chongjun, et al. Identifying and correcting mislabeled training instances[C]//Proceedings of Future Generation Communication and Networking. Jeju, South Korea, 2007: 244–250. [12] BRODLEY C E, FRIEDL M A. Identifying mislabeled training data[J]. Journal of artificial intelligence research, 1999, 11(1): 131–167. [13] ZHOU Ta, ISHIBUCHI H, WANG Shitong. Stackedstructure-based hierarchical Takagi-Sugeno-Kang fuzzy classification through feature augmentation[J]. IEEE transactions on emerging topics in computational intelligence, 2017, 1(6): 421–436. [14] ZHOU Zhihua. Ensemble methods: foundations and algorithms[M]. Boca Raton: Taylor & Francis, 2012. [15] 作者简介: 李易南,硕士研究生,主要研究方 向为人工智能与模式识别。 王士同,教授,博士生导师,主要 研究方向为人工智能与模式识别。发 表学术论文近百篇。 ·234· 智 能 系 统 学 报 第 15 卷