【知识工程】面向众包数据的特征扩维标签质量提高方法

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.93MB

第15卷第2期智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992/tis.201810014 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20190829.0906.002.html 面向众包数据的特征扩维标签质量提高方法李易南，王士同（江南大学数字媒体学院，江苏无锡214122) 摘要：众包是一个新兴的收集数据集标签的方法。虽然它经济实惠，但面临着数据标签质量无法保证的问题。尤其是当客观原因存在使得众包工作者工作质量较差时，所得的标签会更加不可靠。因此提出一个名为基于特征扩维提高众包质量的方法(FA-method),其基本思想是，首先由专家标注少部分标签，再利用众包者标注的数据集训练模型，对专家集进行预测，所得结果作为专家数据集新的特征，并利用扩维后的专家集训练模型进行预测，计算每个实例为噪声的可能性以及噪声数量上限来过滤出潜在含噪声标签的数据集，类似地，对过滤后的高质量集再次使用扩维的方法进一步校正噪声。在8个UCI数据集上进行验证的结果表明，和现有的结合噪声识别和校正的众包标签方法相比，所提方法能够在重复标签数量较少或标注质量较低时均取得很好的效果。关键词：众包：标签质量：扩维：专家标注：噪声识别：噪声校正：噪声可能性：噪声数量上限中图分类号：TP181文献标志码：A文章编号：1673-4785(2020)02-0227-08 中文引用格式：李易南，王士同.面向众包数据的特征扩维标签质量提高方法.智能系统学报，2020,15(2)：227-234. 英文引用格式：LI Yinan,WANG Shitong..A feature augmentation method for enhancing the labeling quality of crowdsourcing data[J].CAAI transactions on intelligent systems,2020,15(2):227-234. A feature augmentation method for enhancing the labeling quality of crowdsourcing data LI Yinan,WANG Shitong (School of Digital Media.Jiangnan University,Wuxi 214122,China) Abstract:Crowdsourcing is a new method of collecting the labels of data.Although it is economical,crowdsourcing faces an unavoidable problem,i.e.,the quality of the labels cannot be guaranteed.In particular,when the quality of la- beling work is low because of the existence of objective causes,the result of crowdsourcing will be unreliable.In this study,a feature augmentation method for enhancing the labeling quality of crowdsourcing data is proposed.In the pro- posed method,first,a small amount of expert data is labeled by several people with professional knowledge.Then,the crowdsourcing data are used to create the classifiers and predict the expert data.The resultant predicted labels are used to augment the expert data.Then,the augmented expert data are used to create the classifiers,predict the original data, and calculate the probability of noise for each instance and the upper limit of noise number to filter out the high-quality dataset from potentially noisy labels.Similarly,the filtered high-quality dataset is utilized to further correct the noisy la- bels using the proposed feature augmentation method.The experiments conducted on eight UCI datasets show that the proposed feature augmentation method has achieved encouraging results when the number of repeated labels is compar- atively small or the quality of labeling is comparatively low. Keywords:crowdsourcing;labeling quality;feature augmentation;expert labeling;noise identification;noise correc- tion;noise probability;upper limit of noise number 收稿日期：2018-10-15.网络出版日期：2019-08-29. 基金项目：国家自然科学基金项目(61272210). 众包，一般认为是由美国作家杰夫·豪(Jeff 通信作者：李易南.E-mail:1920898036@qq.com Howe)在2006年6月于《众包：大众力量缘何推

DOI: 10.11992/tis.201810014 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190829.0906.002.html 面向众包数据的特征扩维标签质量提高方法李易南，王士同（江南大学数字媒体学院，江苏无锡 214122）摘要：众包是一个新兴的收集数据集标签的方法。虽然它经济实惠，但面临着数据标签质量无法保证的问题。尤其是当客观原因存在使得众包工作者工作质量较差时，所得的标签会更加不可靠。因此提出一个名为基于特征扩维提高众包质量的方法 (FA-method)，其基本思想是，首先由专家标注少部分标签，再利用众包者标注的数据集训练模型，对专家集进行预测，所得结果作为专家数据集新的特征，并利用扩维后的专家集训练模型进行预测，计算每个实例为噪声的可能性以及噪声数量上限来过滤出潜在含噪声标签的数据集，类似地，对过滤后的高质量集再次使用扩维的方法进一步校正噪声。在 8 个 UCI 数据集上进行验证的结果表明，和现有的结合噪声识别和校正的众包标签方法相比，所提方法能够在重复标签数量较少或标注质量较低时均取得很好的效果。关键词：众包；标签质量；扩维；专家标注；噪声识别；噪声校正；噪声可能性；噪声数量上限中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2020)02−0227−08 中文引用格式：李易南, 王士同. 面向众包数据的特征扩维标签质量提高方法 [J]. 智能系统学报, 2020, 15(2): 227–234. 英文引用格式：LI Yinan, WANG Shitong. A feature augmentation method for enhancing the labeling quality of crowdsourcing data[J]. CAAI transactions on intelligent systems, 2020, 15(2): 227–234. A feature augmentation method for enhancing the labeling quality of crowdsourcing data LI Yinan，WANG Shitong (School of Digital Media, Jiangnan University, Wuxi 214122, China) Abstract: Crowdsourcing is a new method of collecting the labels of data. Although it is economical, crowdsourcing faces an unavoidable problem, i.e., the quality of the labels cannot be guaranteed. In particular, when the quality of labeling work is low because of the existence of objective causes, the result of crowdsourcing will be unreliable. In this study, a feature augmentation method for enhancing the labeling quality of crowdsourcing data is proposed. In the proposed method, first, a small amount of expert data is labeled by several people with professional knowledge. Then, the crowdsourcing data are used to create the classifiers and predict the expert data. The resultant predicted labels are used to augment the expert data. Then, the augmented expert data are used to create the classifiers, predict the original data, and calculate the probability of noise for each instance and the upper limit of noise number to filter out the high-quality dataset from potentially noisy labels. Similarly, the filtered high-quality dataset is utilized to further correct the noisy labels using the proposed feature augmentation method. The experiments conducted on eight UCI datasets show that the proposed feature augmentation method has achieved encouraging results when the number of repeated labels is comparatively small or the quality of labeling is comparatively low. Keywords: crowdsourcing; labeling quality; feature augmentation; expert labeling; noise identification; noise correction; noise probability; upper limit of noise number 众包，一般认为是由美国作家杰夫·豪 (Jeff Howe) 在 2006 年 6 月于《众包：大众力量缘何推收稿日期：2018−10−15. 网络出版日期：2019−08−29. 基金项目：国家自然科学基金项目 (61272210). 通信作者：李易南. E-mail：1920898036@qq.com. 第 15 卷第 2 期智能系统学报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020

·228· 智能系统学报第15卷动商业未来》(Crowdsourcing:Why the Power of 与真值相比的准确率为度量；其二是获取更多数 the Crowd is Driving the Future of Business)一书中据以训练模型，专注于所得模型的质量，以模型首次提出并做了详细的阐释。书中关于众包的定的泛化能力为度量。义为：“一个公司或机构把过去由员工执行的工作对于前者，常见思路是通过众包标签集推断任务，以自由自愿的形式外包给非特定的（而且真实标签，如上文所述，目前最常用且简单有效通常是大型的)大众网络的做法。众包的任务通的方法为多数投票(MV),即针对每个实例的多重常是由个人来承担，但如果涉及到需要多人协作标签集合，取多数为最终标签。该方法的前提完成的任务，也有可能以依靠开源的个体生产的是工作人员的准确率需高于50%，在此基础上，形式出现”。随着工作人员数量的增加，其正确率会不断提众包是不准确监督的一种典型场景山，包括高。其他方法还有GLAD方法阿、贝叶斯方法RY 机器学习、数据挖掘等在内的技术，通常需要大 ZenCrowd算法等，一些对不同数据集进行实验量带有标记的数据对算法以及模型进行训练、预测以及验证。数据数量越大，准确率越高，算法证明，这些真值推理方法效果差异并不明显叨。及模型的效果就越好。结合众包系统获取标签成因此，仅仅通过设计新颖的推理算法来提高标签本低、单个质量不可靠的特点，通常采取对同一质量比较困难。实例由多个不同标记者进行标记，并用真值推理对于后者，一种思路是在上面真值推理方法算法将所得的多重标签进行整合。基础的真值推所得的集成标签基础上进一步识别出疑似噪声样理算法有多数投票(MV),此方法要求保证工人的本并在数据集中将其去掉。一项实验证明，简单平均正确率大于50%，则工人数量越多，标签质去除噪声可以提高所训练模型的质量，因此一量越高。其他还有一些以投票法为基础的改进形些噪声识别方法可以应用于此。例如，基于阈值式回，但实验表明，仅仅通过真值推理的方式效果的方法12)，用一些特殊的标准（例如熵）来对每差别并不明显)。在上述真值推理算法的基础个实例进行打分。如果分数超过阈值，则该实例上，结合噪声识别和校正是一种行之有效的方案，将被视为噪声；基于模型预测的过滤算法，通过但需要较高的标记质量（如增加众包人数或者寻模型对实例进行分类并识别噪声，有如表决过滤求更好的标记者)，否则结果偏差较大。 (VF)),对数据集进行多次交叉验证，若超过一半从成本和质量两个角度考虑，我们可以由专不相同则认为该实例为噪声样本。家首先标记少部分实例，并适当减少众包工人人目前常用的方法，或者标签质量不够理想，或数和水平来达到成本和质量的最优解。针对这一者需要去除部分实例以保证质量。为达到既能保场景，本文提出了一个适应性较强的基于特征扩证质量，又能完整保留数据集全部实例的目的，维提高众包质量的框架(FA-method),结合少量的 Zhang等首先提出了将噪声识别和校正相结合的专家标签，运用特征扩维的方法对真值推理算法方法AVNC。在集成标签的基础上，首先由多所得的集成标签集进行处理，通过计算每个实例次交叉验证识别噪声，计算噪声可能程度和噪声为噪声的可能程度以及集成标签的噪声数量的上数量范围以识别噪声，然后采用集成学习的方式限区分噪声，并进一步提高标签质量和可靠性。进行校正。此方法在标记质量较高时有不错的效实验证明，本方法在不同标记质量下均可以取得果，当标记质量较低时，仅仅通过交叉验证识别较好的效果，在众包标记质量较低或众包工人较会产生较大的偏差，从而导致后续校正无法继续。少的情况下，依然可以得到较高质量的标签。并为解决上述问题，本文在AVNC所采用的噪且以校正后的数据集训练所得模型的泛化能力有声识别和校正相结合的基础框架上做了改进，引进一步的提高。和现有的结合噪声识别和校正的入了少量专家标记，并采用特征扩维的方法进行框架相比也具有优势。噪声识别和校正，保证了当标记质量较低时所得结果质量的稳定。 1相关工作 2基于特征扩维的众包质量提高方法通常，在人工智能领域，采用众包的方法获取标签有两个目的：其一是为了获得大量的带有标 2.1基本框架签的数据，专注于标签本身的质量，以所得标签图1所示为本方法的基本框架。首先，由每

动商业未来》(Crowdsourcing：Why the Power of the Crowd is Driving the Future of Business) 一书中首次提出并做了详细的阐释。书中关于众包的定义为：“一个公司或机构把过去由员工执行的工作任务，以自由自愿的形式外包给非特定的 (而且通常是大型的) 大众网络的做法。众包的任务通常是由个人来承担，但如果涉及到需要多人协作完成的任务，也有可能以依靠开源的个体生产的形式出现”。众包是不准确监督的一种典型场景[1] ，包括机器学习、数据挖掘等在内的技术，通常需要大量带有标记的数据对算法以及模型进行训练、预测以及验证。数据数量越大，准确率越高，算法及模型的效果就越好。结合众包系统获取标签成本低、单个质量不可靠的特点，通常采取对同一实例由多个不同标记者进行标记，并用真值推理算法将所得的多重标签进行整合。基础的真值推理算法有多数投票 (MV)，此方法要求保证工人的平均正确率大于 50%，则工人数量越多，标签质量越高。其他还有一些以投票法为基础的改进形式 [2] ，但实验表明，仅仅通过真值推理的方式效果差别并不明显[3]。在上述真值推理算法的基础上，结合噪声识别和校正是一种行之有效的方案[4] ，但需要较高的标记质量 (如增加众包人数或者寻求更好的标记者)，否则结果偏差较大。从成本和质量两个角度考虑，我们可以由专家首先标记少部分实例，并适当减少众包工人人数和水平来达到成本和质量的最优解。针对这一场景，本文提出了一个适应性较强的基于特征扩维提高众包质量的框架 (FA-method)，结合少量的专家标签，运用特征扩维的方法对真值推理算法所得的集成标签集进行处理，通过计算每个实例为噪声的可能程度以及集成标签的噪声数量的上限区分噪声，并进一步提高标签质量和可靠性。实验证明，本方法在不同标记质量下均可以取得较好的效果，在众包标记质量较低或众包工人较少的情况下，依然可以得到较高质量的标签。并且以校正后的数据集训练所得模型的泛化能力有进一步的提高。和现有的结合噪声识别和校正的框架相比也具有优势。 1 相关工作通常，在人工智能领域，采用众包的方法获取标签有两个目的：其一是为了获得大量的带有标签的数据，专注于标签本身的质量，以所得标签与真值相比的准确率为度量；其二是获取更多数据以训练模型，专注于所得模型的质量，以模型的泛化能力为度量。对于前者，常见思路是通过众包标签集推断真实标签，如上文所述，目前最常用且简单有效的方法为多数投票 (MV)，即针对每个实例的多重标签集合，取多数为最终标签[5]。该方法的前提是工作人员的准确率需高于 50%，在此基础上，随着工作人员数量的增加，其正确率会不断提高。其他方法还有 GLAD 方法[6] 、贝叶斯方法 RY[7] 、 ZenCrowd 算法[8] 等，一些对不同数据集进行实验证明，这些真值推理方法效果差异并不明显[3, 9]。因此，仅仅通过设计新颖的推理算法来提高标签质量比较困难。对于后者，一种思路是在上面真值推理方法所得的集成标签基础上进一步识别出疑似噪声样本并在数据集中将其去掉。一项实验证明，简单去除噪声可以提高所训练模型的质量[10] ，因此一些噪声识别方法可以应用于此。例如，基于阈值的方法[11-12] ，用一些特殊的标准 (例如熵) 来对每个实例进行打分。如果分数超过阈值，则该实例将被视为噪声；基于模型预测的过滤算法，通过模型对实例进行分类并识别噪声，有如表决过滤 (VF)[13] ，对数据集进行多次交叉验证，若超过一半不相同则认为该实例为噪声样本。目前常用的方法，或者标签质量不够理想，或者需要去除部分实例以保证质量。为达到既能保证质量，又能完整保留数据集全部实例的目的， Zhang 等首先提出了将噪声识别和校正相结合的方法 AVNC[4]。在集成标签的基础上，首先由多次交叉验证识别噪声，计算噪声可能程度和噪声数量范围以识别噪声，然后采用集成学习的方式进行校正。此方法在标记质量较高时有不错的效果，当标记质量较低时，仅仅通过交叉验证识别会产生较大的偏差，从而导致后续校正无法继续。为解决上述问题，本文在 AVNC 所采用的噪声识别和校正相结合的基础框架上做了改进，引入了少量专家标记，并采用特征扩维的方法进行噪声识别和校正，保证了当标记质量较低时所得结果质量的稳定。 2 基于特征扩维的众包质量提高方法 2.1 基本框架图 1 所示为本方法的基本框架。首先，由每 ·228· 智能系统学报第 15 卷

第2期李易南，等：面向众包数据的特征扩维标签质量提高方法 ·229· 个众包工人标记的结果训练一个模型，并对专家 2.3噪声识别部分集进行预测，所得结果作为专家集新的特征。之定义一个众包系统，以下均针对二分类情后用扩维后的专家集训练模型并对原始数据进行况。设众包数据共有I个实例，每个实例均经过预测，与集成标签相比较，计算每个实例的集成众包工人标记了J个标签。对于每个实例i,其特标签是噪声的可能程度以及噪声数量。将集成标征记为X,J个标签集合记为{，，…，，其中签划分为质量可靠的保留集和需要校正的含噪声 1∈{-1,1（分别代表负例和正例），未知的真实标签集，同时形成用于辅助校正的M个辅助集。之后记为y,经过标签集成算法处理后的集成标签记用铺助集对保留集扩维，对含噪声集合进行校为。这里需要明确的是，每个工人的正确率需正，最终将校正后的数据和保留集合并为最终结要大于50%，否则众包系统无法成立。在实际果。整个框架的关键在于噪声识别和噪声校正两中，众包工作者通常会经过初步的筛选，以防止个部分，将在后文分别介绍。恶意标注者（标注正确率低于50%）的出现。对于每个标记者，可以简单按式(1)估计出其助集 H…H 错误率：特征扩维 (1) 特征扩维留集别对于每个实例，由基础分类算法（如决策众包标人多数」树)进行M轮预测后会得到M个分类标签{，，…，签集投票 ),将其作为实例新的特征，并和初始标签产进行对比，计算不相同次数C。图1基于特征扩维的众包质量提高方法的基本框架 Fig.1 The framework of the feature-augmentation meth- ci= (2) od of enhancing the labeling quality of crowdsourcing data 式(1)和式(2)中函数1()是一个指示器函数， 2.2特征扩维方法如果括号内条件满足则返回1，不满足则返回0。本文所用的特征扩维方法类似于文献[14]，第m轮扩维将实例i预测为正例的概率为是一种两层学习器结合的方法，以噪声识别部分 c,预测为负例的概率为c-”。则实例i的标签不为例：首先由众包数据训练出一组初级学习器，确定程度可由式(3)来度量，即：然后输出所得的类概率作为专家数据集的新的特 e=- cilogc+cm logcm (3) 征，专家数据集的标签仍作为新数据集的标签。这些增加的特征实质上可以打开原始输入空间的下面定义一个量a,来表示实例i的集成标流形结构，从而可以增强的专家数据集的分类性签，是噪声的可能程度：能。与由专家集直接训练模型相比，其在泛化性 ai=ci+lei/ (4) 能上能够有进一步的提高。设J个众包人员标记的众包标签集为C= a,是一种双层排序，以不相同次数c,作为整 {X,),(X22),…,(X,yh,专家集P(X,yp),基础算数部分，以不确定度做小数部分。不相同次数法C,原始数据集D(X)。该方法的伪代码如下： c,将标签集分为M什1组，C,越大，意味着有更多的 forj=1,2,…,Jdo: 模型将这个标签标记为噪声。在每组内又按照不 hj=L(Xj.y ) 确定程度进行排序，不确定程度越大，意味着越 yri=hj(Xp) 有可能是噪声。按4大小对所有实例进行排序，显 yDj=hj(Xp) 然α越大，就意味着集成标签越有可能是噪声。 end for 接下来计算噪声可能的数量，以期将集成标 H=(Xp,yPI,…,yp),yp) 签进行划分。由于我们采用的是投票法对众包标输出：z=H(Xoyp1,…yD）签集进行初步整合，为保证识别出的高质量集的

个众包工人标记的结果训练一个模型，并对专家集进行预测，所得结果作为专家集新的特征。之后用扩维后的专家集训练模型并对原始数据进行预测，与集成标签相比较，计算每个实例的集成标签是噪声的可能程度以及噪声数量。将集成标签划分为质量可靠的保留集和需要校正的含噪声集，同时形成用于辅助校正的 M 个辅助集。之后用辅助集对保留集扩维，对含噪声集合进行校正，最终将校正后的数据和保留集合并为最终结果。整个框架的关键在于噪声识别和噪声校正两个部分，将在后文分别介绍。保留集校正集专家标签集众包标签集特征扩维多数投票含噪声集辅助集 H1…HM 特征扩维噪声识别噪声校正图 1 基于特征扩维的众包质量提高方法的基本框架 Fig. 1 The framework of the feature-augmentation method of enhancing the labeling quality of crowdsourcing data 2.2 特征扩维方法本文所用的特征扩维方法类似于文献 [14]，是一种两层学习器结合的方法，以噪声识别部分为例：首先由众包数据训练出一组初级学习器，然后输出所得的类概率作为专家数据集的新的特征，专家数据集的标签仍作为新数据集的标签。这些增加的特征实质上可以打开原始输入空间的流形结构，从而可以增强的专家数据集的分类性能。与由专家集直接训练模型相比，其在泛化性能上能够有进一步的提高。 {(X1, y1), (X2, y2),··· ,(XJ , yJ )} P(XP, yP) L D(XD) 设 J 个众包人员标记的众包标签集为 C = ，专家集，基础算法，原始数据集。该方法的伪代码如下： for j = 1,2,··· , J do： hj = L ( Xj , yj ) ； yP j = hj(XP) yD j = hj(XD) end for h ′ = L((XP, yP1,··· , yPJ ), yP) z = h ′ 输出： (XD, yD1,··· , yDJ ) 2.3 噪声识别部分 { l 1 i , l 2 i ,··· ,l J i } l 1 i ∈ {−1,1} yˆi 定义一个众包系统，以下均针对二分类情况。设众包数据共有 I 个实例，每个实例均经过众包工人标记了 J 个标签。对于每个实例 i，其特征记为 Xi，J 个标签集合记为，其中 (分别代表负例和正例)，未知的真实标签记为 yi，经过标签集成算法处理后的集成标签记为。这里需要明确的是，每个工人的正确率需要大于 50%，否则众包系统无法成立。在实际中，众包工作者通常会经过初步的筛选，以防止恶意标注者 (标注正确率低于 50%) 的出现。对于每个标记者，可以简单按式 (1) 估计出其错误率： qj = ∑I i=1 I ( l j i , yˆi ) /I (1) {l 1 i , l 2 i ,··· , l M i } yˆi 对于每个实例 i，由基础分类算法 (如决策树) 进行 M 轮预测后会得到 M 个分类标签，将其作为实例新的特征，并和初始标签进行对比，计算不相同次数 ci。 ci = ∑M m=1 I ( l m i , yˆi ) (2) 式 (1) 和式 (2) 中函数 I(·) 是一个指示器函数，如果括号内条件满足则返回 1，不满足则返回 0。第 m 轮扩维将实例 i 预测为正例的概率为 c1 m ，预测为负例的概率为 c−1 m。则实例 i 的标签不确定程度可由式 (3) 来度量，即： ei = − ∑M m=1 [ c (m) −1 logc (m) −1 +c (m) 1 logc (m) 1 ] (3) yˆi 下面定义一个量 αi 来表示实例 i 的集成标签，是噪声的可能程度： αi = ci +   ei/ ∑I i=1 ei   (4) yˆi αi 是一种双层排序，以不相同次数 ci 作为整数部分，以不确定度做小数部分。不相同次数 ci 将标签集分为 M+1 组，ci 越大，意味着有更多的模型将这个标签标记为噪声。在每组内又按照不确定程度进行排序，不确定程度越大，意味着越有可能是噪声。按 αi 大小对所有实例进行排序，显然 αi 越大，就意味着集成标签越有可能是噪声。接下来计算噪声可能的数量，以期将集成标签进行划分。由于我们采用的是投票法对众包标签集进行初步整合，为保证识别出的高质量集的第 2 期李易南，等：面向众包数据的特征扩维标签质量提高方法 ·229·

·230· 智能系统学报第15卷质量可靠，本着“宁缺毋滥”的原则，因此我们需众包集C,专家集要计算出噪声比例的上限。 P,参数=5 由式(1)可计算贴标者错误率为g,通过投票法整合J个标记者，超过半数正确则集成结果正众包标签集多数投票形成标签集Lc 确。在这里，各个标记者错误率可视为相互独立，可由Hoeffding不等式推导出集成错误率的上限：由式(1)、(6)计算噪声数 0= ()1-g≤ 量上限noise num (5) ep-21-2g =Omax N M≤MR noise_num=Qmax·I= exp-1-2q)).1 (6) 分别取第1、2、…、J个标记者所标记的数据训练按a大小对所有实例进行降序排序，我们可模型，对专家集和原始数据集扩维，用扩维后的专家集训练模型并对扩维后的原始数据集进行预测以将集成标签集分为两部分：前noise_num个标签为待进一步处理的含噪声集，其余为可靠的保留集。与集成标签比较，由式(2)计算c,并形成辅助集H 2.4噪声校正部分目前，关于噪声校正的研究数量较少，且一些实验也证明校正噪声是比较困难的。一种直接的由式(4)计算a,将所有实例按a,降序排列，前 noise num为含噪声集，其余为保留集思路是，在分离出含噪声的集合后，用高质量集直接训练模型对噪声集进行校正，但效果不理想。为了提高分离出的高质量集所训练的模型的分别取第1、2、·、M个辅助集训练模型，对保留集和含噪声集扩维，用扩维后的保留集训练模型并对扩维泛化能力，我们再次使用扩维的方法：噪声识别后的含噪声集进行预测，重复轮过程中，每轮扩维预测后，每个实例i均获得一个标签l,若l=,则将实例i加入辅助集Hm中，共对个校正结果进行投票，作为校正结果，与保留集获得M个辅助集{H1,H2,…,Hw。和识别部分类似，用合并，返回最终结果之前得到的辅助集{H,H2,…,Hw}分别训练得到图2算法流程图模型2，促，…，h必)，对噪声集和保留集扩维并进 Fig.2 Flowchart of the proposed method 行预测，重复M轮，用投票法整合所得的M个标签集合，作为对噪声集的校正结果。把校正后的 3实验结果分析结果和保留集合并为最终结果。由上文所述，众包通常关注于两个结果：1)标 2.5完整框架签本身质量：2)训练所得模型的质量。因此在这该算法主要时间消耗在于对专家集扩维、对里分别进行实验。基础的学习模型均采用决策保留集扩维两个部分，且与所选择的基础算法￡树，由python的sklearn库实现，参数均取默认值，有关。设基础学习算法对实例数为n的众包集训取M=5 练及预测的时间复杂度为T(),则本方法的时间 3.1实验数据复杂度为M[J.T(n)+T(nr]+M[M.T(')+T(m"], 实验数据来自UCI机器学习库的8个数据其中，M为预设重复轮数，J为众包者数量，r为专集，它们具有不同的数量的实例，不同的类分布，家集比例，n'为辅助集实例数，n"为噪声集实例不同数量的特征及其类型，以便验证本方法在不数，以上均为常数，且Mn,J≤n,0<r<1,n'<n, 同情况下的适用性。其中4个为较小规模数据 n"<n。由此可见本方法的时间复杂度取决于所选集，4个为较大规模数据集。在模拟实验中不对择的基础算法时间复杂度。完整流程图如图2 数据集本身做任何特征处理。数据集具体情况如所示。表1

质量可靠，本着“宁缺毋滥”的原则，因此我们需要计算出噪声比例的上限。由式 (1) 可计算贴标者错误率为 q，通过投票法整合 J 个标记者，超过半数正确则集成结果正确。在这里，各个标记者错误率可视为相互独立，可由 Hoeffding 不等式推导出集成错误率的上限[15] ： Q = ∑ ⌊J/2⌋ k=0 ( J k ) q J−k (1−q) k ⩽ exp( − 1 2 J(1−2q) 2 ) = Qmax (5) noise_num = Qmax ·I = exp( − 1 2 J(1−2q) 2 ) ·I (6) 按 αi 大小对所有实例进行降序排序，我们可以将集成标签集分为两部分：前 noise_num 个标签为待进一步处理的含噪声集，其余为可靠的保留集。 2.4 噪声校正部分目前，关于噪声校正的研究数量较少，且一些实验也证明校正噪声是比较困难的。一种直接的思路是，在分离出含噪声的集合后，用高质量集直接训练模型对噪声集进行校正，但效果不理想。 li = yˆi {H1,H2,··· ,HM} {H1,H2,··· ,HM} { h 1 C ,h 2 C ,··· ,h M C } 为了提高分离出的高质量集所训练的模型的泛化能力，我们再次使用扩维的方法：噪声识别过程中，每轮扩维预测后，每个实例 i 均获得一个标签 li，若，则将实例 i 加入辅助集 Hm 中，共获得M个辅助集。和识别部分类似，用之前得到的辅助集分别训练得到模型，对噪声集和保留集扩维并进行预测，重复 M 轮，用投票法整合所得的 M 个标签集合，作为对噪声集的校正结果。把校正后的结果和保留集合并为最终结果。 2.5 完整框架 L M [J ·T (n)+T (nr)]+ M [M ·T (n ′ )+T (n ′′)] M ≪ n J ≪ n 该算法主要时间消耗在于对专家集扩维、对保留集扩维两个部分，且与所选择的基础算法有关。设基础学习算法对实例数为 n 的众包集训练及预测的时间复杂度为 T(n)，则本方法的时间复杂度为，其中，M 为预设重复轮数，J 为众包者数量，r 为专家集比例，n'为辅助集实例数，n''为噪声集实例数，以上均为常数，且，，0<r<1，n'<n， n''<n。由此可见本方法的时间复杂度取决于所选择的基础算法时间复杂度。完整流程图如图 2 所示。众包集C，专家集 P，参数m=5 众包标签集多数投票形成标签集LC 由式（1）、（6）计算噪声数量上限noise_num M≤M? 分别取第1、2、…、J个标记者所标记的数据训练模型，对专家集和原始数据集扩维，用扩维后的专家集训练模型并对扩维后的原始数据集进行预测与集成标签比较，由式（2）计算ci，并形成辅助集Hm 由式（4）计算ai，将所有实例按ai降序排列，前 noise_num为含噪声集，其余为保留集分别取第1、2、…、M个辅助集训练模型，对保留集和含噪声集扩维，用扩维后的保留集训练模型并对扩维后的含噪声集进行预测，重复M轮对M个校正结果进行投票，作为校正结果，与保留集合并，返回最终结果 Y N 图 2 算法流程图 Fig. 2 Flowchart of the proposed method 3 实验结果分析由上文所述，众包通常关注于两个结果：1) 标签本身质量；2) 训练所得模型的质量。因此在这里分别进行实验。基础的学习模型均采用决策树，由 python 的 sklearn 库实现，参数均取默认值，取 M=5。 3.1 实验数据实验数据来自 UCI 机器学习库的 8 个数据集，它们具有不同的数量的实例，不同的类分布，不同数量的特征及其类型，以便验证本方法在不同情况下的适用性。其中 4 个为较小规模数据集，4 个为较大规模数据集。在模拟实验中不对数据集本身做任何特征处理。数据集具体情况如表 1。 ·230· 智能系统学报第 15 卷

第2期李易南，等：面向众包数据的特征扩维标签质量提高方法 ·231· 表18个UCI数据集的基本情况 Table 1 Basic conditions of 8 UCI datasets 名称数量正例负例特征数量特征类型 mushroom 8124 3916 4280 23 类别 kr-vs-kp 3196 1527 1669 37 类别 spambase 4601 1813 2788 58 数值 sick 3772 231 3541 30 混合 biodeg 1055 356 699 42 数值 tic-tac-toe 958 332 626 10 类别 vote 435 168 267 17 类别 ionosphere 351 126 225 35 数值首先，在较大规模数据集取=0.05的数据，较图3和图4分别是平均标记准确率为0.7和小规模数据集取=0.1的数据作为专家标签集， 0.6时4种方法的准确率。以他们的真实标签作为专家标记的标签。接下来 1.0 1.0 模拟众包的过程：创建一个模拟标记者，为数据 0.9 0.9 集中的每个实例标记一次。然后，第二个模拟标解0.8 能0.8 记者执行相同的任务，直到第J个模拟标记者完毫o7+8 4MV 0.6+MV+AVNC 0.6+MV+AVNC 成同样的任务。最终，使每个实例都包含J个标 MV+FAEQ MV+FAEQ 0.5 3 5 7 9 0.5 3 5 7 签。模拟标记者的标记质量均匀分布，且所有的众包标签数量众包标签数量模拟标记者都有不同的标记质量。所有实例以及 (a)mushroom (b)kr-vs-kp 它们对应的多个噪声标签集形成一个模拟众包标 1.0h 1.0f 签数据集。默认J取10，平均质量较高的情况下， 0.9 0.9 取模拟标记者质量范围为[0.6,0.8]，平均为0.7；平每0.8 00.8 均质量较低的情况下，取模拟标记者质量范围为是07 是07 0.6 MV+AVNC [0.5,0.7],平均为0.6，每个实例的集成标签由多数 MV+FAEQ .6 AC MV+FAEQ 0.5 0.5 1 7 3 5 投票产生。 3 5 9 9 众包标签数量众包标签数量 3.2准确率对比 (c)sprmpase (d)sick 众包的一个目的在于获得大量数据的标签， 1.0h 1.0h 因此需要考察众包处理后的标签和真实标签的准 0.9 0.9 确率。由于AVNC是首次被提出将噪声识别和校正组合来提升众包质量的方法，且实验证明其 +MV +MV 0.6 -+-MV+AVNC 0.6+MV+AVNC 可以进一步提高标签集成算法的质量。因此本次 MV+FAEQ MV+FAEO 0.5 w2 0.5 9 3 5 实验选择多数投票为基础标签集成算法，在其基众包标签数量众包标签数量础上比较AVNC和FA-method对于众包质量的提 (e)biodeg (f)tic-tac-toe 高程度。实验方法如下： 1.0 1.0h 1)直接由多数投票形成的集成标签(MV): 0.9 0.9 2)多轮交叉验证，计算噪声数和不相同次数划分噪声集，采用集成学习方法进行校正(AVNC): 0.7 MV 07 +MV 0.6 MV+AVNC 0.6 MV+AVNC 3)由特征扩维识别并校正噪声(FA-method)。 MV+FAEQ MV+FAEQ 0.5 3 0.5 5 7 9 3 579 每种方法重复实验10次，每次随机取奇数个众包标签数量众包标签数量模拟标记人员所标记的标签（避免多数投票出现 (g)vote (h)ionosphere 随机值)，对比三者所得到的标签和真实值相比的图3高质量标记时众包准确率准确率以及标准差。 Fig.3 Accuracy of crowdsourcing on high quality labeling

表 1 8 个 UCI 数据集的基本情况 Table 1 Basic conditions of 8 UCI datasets 名称数量正例负例特征数量特征类型 mushroom 8 124 3 916 4 280 23 类别 kr-vs-kp 3 196 1 527 1 669 37 类别 spambase 4 601 1 813 2 788 58 数值 sick 3 772 231 3 541 30 混合 biodeg 1 055 356 699 42 数值 tic-tac-toe 958 332 626 10 类别 vote 435 168 267 17 类别 ionosphere 351 126 225 35 数值首先，在较大规模数据集取 r=0.05 的数据，较小规模数据集取 r=0.1 的数据作为专家标签集，以他们的真实标签作为专家标记的标签。接下来模拟众包的过程：创建一个模拟标记者，为数据集中的每个实例标记一次。然后，第二个模拟标记者执行相同的任务，直到第 J 个模拟标记者完成同样的任务。最终，使每个实例都包含 J 个标签。模拟标记者的标记质量均匀分布，且所有的模拟标记者都有不同的标记质量。所有实例以及它们对应的多个噪声标签集形成一个模拟众包标签数据集。默认 J 取 10，平均质量较高的情况下，取模拟标记者质量范围为 [0.6,0.8]，平均为 0.7；平均质量较低的情况下，取模拟标记者质量范围为 [0.5,0.7]，平均为 0.6，每个实例的集成标签由多数投票产生。 3.2 准确率对比众包的一个目的在于获得大量数据的标签，因此需要考察众包处理后的标签和真实标签的准确率。由于 AVNC 是首次被提出将噪声识别和校正组合来提升众包质量的方法，且实验证明其可以进一步提高标签集成算法的质量。因此本次实验选择多数投票为基础标签集成算法，在其基础上比较 AVNC 和 FA-method 对于众包质量的提高程度。实验方法如下： 1) 直接由多数投票形成的集成标签 (MV)； 2) 多轮交叉验证，计算噪声数和不相同次数划分噪声集，采用集成学习方法进行校正 (AVNC)； 3) 由特征扩维识别并校正噪声 (FA-method)。每种方法重复实验 10 次，每次随机取奇数个模拟标记人员所标记的标签 (避免多数投票出现随机值)，对比三者所得到的标签和真实值相比的准确率以及标准差。图 3 和图 4 分别是平均标记准确率为 0.7 和 0.6 时 4 种方法的准确率。 3 MV MV+AVNC MV+FAEQ 1 5 (a) mushroom 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (b) kr-vs-kp 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (c) sprmpase 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (d) sick 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (e) biodeg 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (f) tic-tac-toe 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (g) vote 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 3 MV MV+AVNC MV+FAEQ 1 5 (h) ionosphere 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 图 3 高质量标记时众包准确率 Fig. 3 Accuracy of crowdsourcing on high quality labeling 第 2 期李易南，等：面向众包数据的特征扩维标签质量提高方法 ·231·

·232· 智能系统学报第15卷 1.0 1.0 需要考察的是修正噪声后的数据集和简单去除噪 0.9 0.9 声的数据集相比，生成的模型的识别能力是否有部0.8 0.8 是0 07 所提高。这里选择VF进行噪声识别。实验方法 6 -+-MV+AVNC 0.6 如下：对每一个数据集，划分70%为训练集，30% 0.5 +-MV MV+FAEQ 0.5 为验证集，其中训练集按前文方法进行校正，比 7 7 9 众包标签数量众包标签数量较下列3种方法： (a)mushroom (b)kr-vs-kp 1)将众包标签集直接采用投票方法融合，训 1.0h 1.0h 练模型对验证集预测： 0.9 0.9 2)采用VF算法，多轮交叉验证，大于一半不 0.8 0.8 相同视为噪声，直接去除掉噪声，剩余数据训练 0.7 模型对验证集预测； 0.6 +MV+AVNC MV+AVNO +MVMV+FAEQ +MV MV+FAEQ 3)采用FA识别并校正噪声，将校正过的数 0.5 0.5 7 3 据重新加入数据集并训练模型对验证集预测。众包标签数量众包标签数量评价标准为AUC,即ROC曲线下面积。每 (c)sprmpase (d)sick 种方法重复实验10次，每次随机取奇数个模拟标 1.0 1.0t 记人员所标记的标签，比较其标准差和平均值。 0.9 0.9 图5和图6分别是平均标记准确率为0.7和 0.8 0.8 0.7 0.6时4种方法的所得标签训练模型的效果对比。 1.0h 1.0h 0.6 MV+AVNC ++FAEQ 0.6 MV+AVNO MV+FAEQ 0.9 0.9 0.5 1 3 0.5 5 7 1 5 7 0.8 众包标签数量众包标签数量 89 +MV 元0.7 +MV (e)biodeg (f)tic-tac-toe VE 0.6 0.6 -+-FA -+-FA 1.0i 1.0h 0.5 0.5 3 5 7 9 3 5 7 9 0.9 0.9 众包标签数量众包标签数量 0.8 0.8 是07 (a)mushroom (b)kr-vs-kp 0.6 0.6 +MV+AVNC 1.0 1.0h MV ±XS 0.5 0.5 +MV MV+FAEQ 0.9 0.9 5 7 9 3 5 7 S08 908 众包标签数量众包标签数量 0.7 之0.7 (g)vote (h)ionosphere 0.6 0.6 FA +FA 图4低质量标记时众包准确率 0.5 0.5 7 9 3 5 Fig.4 Accuracy of crowdsourcing on low quality labeling 众包标签数量众包标签数量由图3和图4，可以得出以下结论： (c)sprmpase (d)sick 1)和多数投票所得集成标签相比，本方法能 1.0 +-MV 1.0h 够在其基础上较大幅度提高标签的质量： 0.9 0.9 2)和现有方法相比，除sick和tic-tac-toe数据 908 90.8 集外，本方法无论在标记质量较高或较低、标记 0.7 0.7 人数多或少的情况下所得结果均较高： 0.6 0.6 FA 0.5 0.5 3)本方法在标记人数3人以下时和其他方法 0 > 相比有明显优势，3人以上时略优于其他方法，因众包标签数量众包标签数量 (e)biodeg (f)tic-tac-toe 此可以在适当减少标记人数的情况下保证标记质量； 1.0 1.0 4)对比图3和图4可见，当标记质量较低时， 0.9 0.9 对比方法质量明显下降，而本方法下降幅度与之 0.7 +MV 相比则下降不很明显； +MV 0.6 +-FA 0.6 5)sick和tic-tac-toe数据集效果不佳，其原因 0.5 -+-FA 0.5 3 5 9 5 在于数据集分布不平衡，随机选取的专家集可能众包标签数量众包标签数量有严重的偏向，从而影响识别和校正的性能。 (g)vote (h)ionosphere 3.3训练模型对比图5高质量标记时众包训练模型AUC 众包的另一个目的，是为机器学习的大量数 Fig.5 AUC of model trained by crowdsourcing on high 据集进行标注，以提高模型的泛化能力。因此还 quality labeling

MV MV+AVNC MV+FAEQ 1 5 3 (a) mushroom 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) kr-vs-kp 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV+FAEQ 1 5 3 (c) sprmpase 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (d) sick 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 1 5 3 (e) biodeg 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (f) tic-tac-toe 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 1 5 3 (g) vote 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (h) ionosphere 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 图 4 低质量标记时众包准确率 Fig. 4 Accuracy of crowdsourcing on low quality labeling 由图 3 和图 4，可以得出以下结论： 1) 和多数投票所得集成标签相比，本方法能够在其基础上较大幅度提高标签的质量； 2) 和现有方法相比，除 sick 和 tic-tac-toe 数据集外，本方法无论在标记质量较高或较低、标记人数多或少的情况下所得结果均较高； 3) 本方法在标记人数 3 人以下时和其他方法相比有明显优势，3 人以上时略优于其他方法，因此可以在适当减少标记人数的情况下保证标记质量； 4) 对比图 3 和图 4 可见，当标记质量较低时，对比方法质量明显下降，而本方法下降幅度与之相比则下降不很明显； 5) sick 和 tic-tac-toe 数据集效果不佳，其原因在于数据集分布不平衡，随机选取的专家集可能有严重的偏向，从而影响识别和校正的性能。 3.3 训练模型对比众包的另一个目的，是为机器学习的大量数据集进行标注，以提高模型的泛化能力。因此还需要考察的是修正噪声后的数据集和简单去除噪声的数据集相比，生成的模型的识别能力是否有所提高。这里选择 VF 进行噪声识别。实验方法如下：对每一个数据集，划分 70% 为训练集，30% 为验证集，其中训练集按前文方法进行校正，比较下列 3 种方法： 1) 将众包标签集直接采用投票方法融合，训练模型对验证集预测； 2) 采用 VF 算法，多轮交叉验证，大于一半不相同视为噪声，直接去除掉噪声，剩余数据训练模型对验证集预测； 3) 采用 FA 识别并校正噪声，将校正过的数据重新加入数据集并训练模型对验证集预测。评价标准为 AUC，即 ROC 曲线下面积。每种方法重复实验 10 次，每次随机取奇数个模拟标记人员所标记的标签，比较其标准差和平均值。图 5 和图 6 分别是平均标记准确率为 0.7 和 0.6 时 4 种方法的所得标签训练模型的效果对比。 MV VF FA MV VF FA 1 5 3 (a) mushroom 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) kr-vs-kp 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 1 5 3 (c) sprmpase 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (d) sick 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 1 5 3 (e) biodeg 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (f) tic-tac-toe 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 1 5 3 (g) vote 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (h) ionosphere 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 图 5 高质量标记时众包训练模型 AUC Fig. 5 AUC of model trained by crowdsourcing on high quality labeling ·232· 智能系统学报第 15 卷

第2期李易南，等：面向众包数据的特征扩维标签质量提高方法 ·233· 1.0 1.0 的性能不佳的情况，有如下实验：在选择专家集 0.9 0.9 -+-MV 0.8 时，尽量保证正负例数量基本一致，其余条件不 VF -+-FA 0.7 变，实验结果如下。 06 0.6 首先是准确率对比，图7和图8为两数据集 0.5 3 0.5 A 3 分别在高质量和低质量标记情况下校正的准确率。众包标签数量众包标签数量 (a)mushroom (b)kr-vs-kp 1.0 1.0 0.9 0.9 1.0f +-MV -+-FA 1.0h 站0.8 0.9 VF 0.9 +-FA 0> 0.6 MV-AVNC 0.6 MV-AVNC MV+FAEQ MV+FAEQ 0.7 0.7 0.5 9 0.5 3 5 5 7 9 0.6 0.6 众包标签数量众包标签数量 0.5 0.5 7 9 (a)sick (b)tic-tac-toe 众包标签数量众包标签数量 (c)sprmpase (d)sick 图7高质量标记时众包准确率 Fig.7 Accuracy of Crowdsourcing on high quality labeling 1.0 1.0h 0.9 0.9 1.0h 1.0f -+-FA +-FA 0 0.9 0.9 0.7 解0.8 站0.8 0.6 0.6 是0.7 0.5 0.5 0.6 MV MVIFES 0.6 +MV ±MXS 众包标签数量众包标签数量 0.5 3 > 0.5 7 9 (e)biodeg (f)tic-tac-toe 众包标签数量众包标签数量 (a)sick (b)tic-tac-toe 1.0 1.0 -+-FA 0.9 0.9 + 图8低质量标记时众包准确率 0.8 0.8 Fig.8 Accuracy of Crowdsourcing on low quality labeling 20.7 0.7 MV 其次是训练模型对比，图9和图10为两数据 0.6 VF 0.6 +FA 集分别在高质量和低质量标记情况下所得校正结 0.5 0.5 5 7 5 7 果训练模型的AUC。众包标签数量众包标签数量 (g)vote (h)ionosphere 1.0H 1.0h 0.9 0.9 图6低质量标记时众包训练模型AUC 0.8 Fig.6 AUC of model trained by crowdsourcing on high quality labeling +MV 0.7 0.6 0.6 -+-FA -+FA 由图4和图5，有以下观察结果： 0.5 > 9 0.5 5 1 1)简单去除噪声可以提高所训练模型的质众包标签数量众包标签数量 (a)sick (b)tic-tac-toe 量，这验证了文献[9]的结论：图9高质量标记时众包训练模型AUC 2)和简单去除噪声数据相比，本方法提供了 Fig.9 AUC of model trained by Crowdsourcing on high 将噪声实例校正并重新加入数据集的机会，从而 quality labeling 能够训练出更好的模型。 1.0 1.0h 3)对比图5和图6，本方法在标记质量下降 0.9 0.9 时，所得众包结果训练模型的AUC降幅不大，证 0.8 0.7 明本方法在标记质量较时能够保持结果的稳定。 0.6 0.6 4)sick数据集结果不佳，原因在于其数据分 0.5 0.5 5 5 5 布极不均衡，随机选择的专家集可能会出现严重众包标签数量众包标签数量 (a)sick (b)tic-tac-toe 的偏向，从而影响识别和校正效果。 3.4不平衡数据集图10低质量标记时众包训练模型AUC Fig.10 AUC of model trained by Crowdsourcing on high 针对sick和tic-tac-toe等不平衡数据集出现 quality labeling

MV VF FA 1 5 3 (a) mushroom 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) kr-vs-kp 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (c) sprmpase 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (d) sick 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (e) biodeg 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (f) tic-tac-toe 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (g) vote 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (h) ionosphere 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA MV VF FA MV VF FA MV VF FA MV VF FA MV VF FA 图 6 低质量标记时众包训练模型 AUC Fig. 6 AUC of model trained by crowdsourcing on high quality labeling 由图 4 和图 5，有以下观察结果： 1) 简单去除噪声可以提高所训练模型的质量，这验证了文献 [9] 的结论； 2) 和简单去除噪声数据相比，本方法提供了将噪声实例校正并重新加入数据集的机会，从而能够训练出更好的模型。 3) 对比图 5 和图 6，本方法在标记质量下降时，所得众包结果训练模型的 AUC 降幅不大，证明本方法在标记质量较差时能够保持结果的稳定。 4) sick 数据集结果不佳，原因在于其数据分布极不均衡，随机选择的专家集可能会出现严重的偏向，从而影响识别和校正效果。 3.4 不平衡数据集针对 sick 和 tic-tac-toe 等不平衡数据集出现的性能不佳的情况，有如下实验：在选择专家集时，尽量保证正负例数量基本一致，其余条件不变，实验结果如下。首先是准确率对比，图 7 和图 8 为两数据集分别在高质量和低质量标记情况下校正的准确率。 1 5 3 (a) sick 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) tic-tac-toe 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV+FAEQ MV MV+AVNC MV+FAEQ 图 7 高质量标记时众包准确率 Fig. 7 Accuracy of Crowdsourcing on high quality labeling 1 5 3 (a) sick 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) tic-tac-toe 众包标签数量准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 图 8 低质量标记时众包准确率 Fig. 8 Accuracy of Crowdsourcing on low quality labeling 其次是训练模型对比，图 9 和图 10 为两数据集分别在高质量和低质量标记情况下所得校正结果训练模型的 AUC。 1 5 3 (a) sick 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) tic-tac-toe 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 图 9 高质量标记时众包训练模型 AUC Fig. 9 AUC of model trained by Crowdsourcing on high quality labeling 1 5 3 (a) sick 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) tic-tac-toe 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 图 10 低质量标记时众包训练模型 AUC Fig. 10 AUC of model trained by Crowdsourcing on high quality labeling 第 2 期李易南，等：面向众包数据的特征扩维标签质量提高方法 ·233·

·234· 智能系统学报第15卷由上述实验可知，专家集的选取对本方法有 2009:2035-2043 一定影响，在处理不平衡数据集时，随机选择的 [7]RAYKAR VC,YU Shisheng,ZHAO L H,et al.Learning 专家集可能会导致样本偏差较大从而影响到最终 from crowds[J].Journal of machine learning research. 的结果，人为选择使得专家集正负样本基本一致 2010.11:1297-1322. 会改进这种情况。 [8]DEMARTINI G.DIFALLAH D E.CUDRE-MAUROUX P.ZenCrowd:leveraging probabilistic reasoning and 4结论 crowdsourcing techniques for large-scale entity linking[Cl/ Proceedings of the 21st International Conference on World 1)本框架在工作人员数量较低或标记质量较 Wide Web.Lyon,France,2012:469-478. 低时均能取得不错的效果，且和增加标记人数或 [9]MUHAMMADI J.RABIEE H R.HOSSEINI A.A unified 提高标记质量所得结果差异不大。换句话说，可 statistical framework for crowd labeling[J].Knowledge 以在适当降低成本的同时获得更高质量的结果； and information systems,2015,45(2):271-294 2)和现有识别和验证框架比，由于引入专家 [10]FRENAY B,VERLEYSEN M.Classification in the pres- 标签，使得在标记质量较低时也能够取得不错的 ence of label noise:a survey[J].IEEE transactions on neural networks and learning systems,2014,25(5): 效果，且标记质量较高时准确率能够进一步提高； 845-869. 3)提供了将噪声实例校正并重新加入数据集 [11]GAMBERGER D,LAVRAC N,DZEROSKI S.Noise 的机会。 elimination in inductive concept learning:a case study in 本方法只适用于二分类标签，而扩展到多分 medical diagnosis[Cl//Proceedings of the 7th Internation- 类的情况时会变得较为复杂，结果偏差会变大。 al Workshop on Algorithmic Learning Theory.Sydney, 另外，本方法对于分布极不均衡的数据集效果略 Australia,1996:199-212. 差，如何应对也需要做进一步的研究。 [12]SUN Jiangwen,ZHAO Fengying,WANG Chongjun,et al.Identifying and correcting mislabeled training in- 参考文献： stances[Cl/Proceedings of Future Generation Communic- ation and Networking.Jeju,South Korea,2007:244-250. [1]ZHOU Zhihua.A brief introduction to weakly supervised [13]BRODLEY C E,FRIEDL M A.Identifying mislabeled learning[J].National science review,2018,5(1):44-53. training data[J].Journal of artificial intelligence research. [2]HU Huiqi,ZHENG Yudian,BAO Zhifeng,et al.Crowd- 1999,11(1片131-167. sourced POI labelling:location-aware result inference and [14]ZHOU Ta,ISHIBUCHI H,WANG Shitong.Stacked- task assignment[C]//Proceedings of 2016 IEEE 32nd Inter- structure-based hierarchical Takagi-Sugeno-Kang fuzzy national Conference on Data Engineering.Helsinki,Fin- classification through feature augmentation[J].IEEE land,2016:61-72. transactions on emerging topics in computational intelli- [3]RODRIGUES F,PEREIRA F C,RIBEIRO B.Gaussian gence,.2017,1(6):421-436. [15]ZHOU Zhihua.Ensemble methods:foundations and al- process classification and active learning with multiple an- gorithms[M].Boca Raton:Taylor Francis,2012. notators[C //Proceedings of the 31st International Confer- ence on International Conference on Machine Learning. 作者简介： Beijing,China,2014:II-433-II-441. 李易南，硕士研究生，主要研究方 [4]ZHANG Jing,SHENG V S,LI Tao,et al.Improving 向为人工智能与模式识别。 crowdsourced label quality using noise correction[J].IEEE transactions on neural networks and learning systems, 2018,29(5):1675-1688. [5]IPEIROTIS P G,PROVOST F,SHENG V S,et al.Re- peated labeling using multiple noisy labelers[J].Data min- ing and knowledge discovery,2014,28(2):402-441. 王士同，教授.博士生导师.主要 [6]WHITEHILL J,RUVOLO P,WU Tingfan,et al.Whose 研究方向为人工智能与模式识别。发表学术论文近百篇。 vote should count more:optimal integration of labels from labelers of unknown expertise[C]//Proceedings of the 22nd International Conference on Neural Information Pro- cessing Systems.Vancouver,British Columbia,Canada

由上述实验可知，专家集的选取对本方法有一定影响，在处理不平衡数据集时，随机选择的专家集可能会导致样本偏差较大从而影响到最终的结果，人为选择使得专家集正负样本基本一致会改进这种情况。 4 结论 1) 本框架在工作人员数量较低或标记质量较低时均能取得不错的效果，且和增加标记人数或提高标记质量所得结果差异不大。换句话说，可以在适当降低成本的同时获得更高质量的结果； 2) 和现有识别和验证框架比，由于引入专家标签，使得在标记质量较低时也能够取得不错的效果，且标记质量较高时准确率能够进一步提高； 3) 提供了将噪声实例校正并重新加入数据集的机会。本方法只适用于二分类标签，而扩展到多分类的情况时会变得较为复杂，结果偏差会变大。另外，本方法对于分布极不均衡的数据集效果略差，如何应对也需要做进一步的研究。参考文献： ZHOU Zhihua. A brief introduction to weakly supervised learning[J]. National science review, 2018, 5(1): 44–53. [1] HU Huiqi, ZHENG Yudian, BAO Zhifeng, et al. Crowdsourced POI labelling: location-aware result inference and task assignment[C]//Proceedings of 2016 IEEE 32nd International Conference on Data Engineering. Helsinki, Finland, 2016: 61–72. [2] RODRIGUES F, PEREIRA F C, RIBEIRO B. Gaussian process classification and active learning with multiple annotators[C]//Proceedings of the 31st International Conference on International Conference on Machine Learning. Beijing, China, 2014: II–433–II–441. [3] ZHANG Jing, SHENG V S, LI Tao, et al. Improving crowdsourced label quality using noise correction[J]. IEEE transactions on neural networks and learning systems, 2018, 29(5): 1675–1688. [4] IPEIROTIS P G, PROVOST F, SHENG V S, et al. Repeated labeling using multiple noisy labelers[J]. Data mining and knowledge discovery, 2014, 28(2): 402–441. [5] WHITEHILL J, RUVOLO P, WU Tingfan, et al. Whose vote should count more: optimal integration of labels from labelers of unknown expertise[C]//Proceedings of the 22nd International Conference on Neural Information Processing Systems. Vancouver, British Columbia, Canada, [6] 2009: 2035–2043. RAYKAR V C, YU Shisheng, ZHAO L H, et al. Learning from crowds[J]. Journal of machine learning research, 2010, 11: 1297–1322. [7] DEMARTINI G, DIFALLAH D E, CUDRÉ-MAUROUX P. ZenCrowd: leveraging probabilistic reasoning and crowdsourcing techniques for large-scale entity linking[C]// Proceedings of the 21st International Conference on World Wide Web. Lyon, France, 2012: 469–478. [8] MUHAMMADI J, RABIEE H R, HOSSEINI A. A unified statistical framework for crowd labeling[J]. Knowledge and information systems, 2015, 45(2): 271–294. [9] FRENAY B, VERLEYSEN M. Classification in the presence of label noise: a survey[J]. IEEE transactions on neural networks and learning systems, 2014, 25(5): 845–869. [10] GAMBERGER D, LAVRAČ N, DŽEROSKI S. Noise elimination in inductive concept learning: a case study in medical diagnosis[C]//Proceedings of the 7th International Workshop on Algorithmic Learning Theory. Sydney, Australia, 1996: 199–212. [11] SUN Jiangwen, ZHAO Fengying, WANG Chongjun, et al. Identifying and correcting mislabeled training instances[C]//Proceedings of Future Generation Communication and Networking. Jeju, South Korea, 2007: 244–250. [12] BRODLEY C E, FRIEDL M A. Identifying mislabeled training data[J]. Journal of artificial intelligence research, 1999, 11(1): 131–167. [13] ZHOU Ta, ISHIBUCHI H, WANG Shitong. Stackedstructure-based hierarchical Takagi-Sugeno-Kang fuzzy classification through feature augmentation[J]. IEEE transactions on emerging topics in computational intelligence, 2017, 1(6): 421–436. [14] ZHOU Zhihua. Ensemble methods: foundations and algorithms[M]. Boca Raton: Taylor & Francis, 2012. [15] 作者简介：李易南，硕士研究生，主要研究方向为人工智能与模式识别。王士同，教授，博士生导师，主要研究方向为人工智能与模式识别。发表学术论文近百篇。 ·234· 智能系统学报第 15 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录