正在加载图片...
·232· 智 能系统学 报 第15卷 1.0 1.0 需要考察的是修正噪声后的数据集和简单去除噪 0.9 0.9 声的数据集相比,生成的模型的识别能力是否有 部0.8 0.8 是0 07 所提高。这里选择VF进行噪声识别。实验方法 6 -+-MV+AVNC 0.6 如下:对每一个数据集,划分70%为训练集,30% 0.5 +-MV MV+FAEQ 0.5 为验证集,其中训练集按前文方法进行校正,比 7 7 9 众包标签数量 众包标签数量 较下列3种方法: (a)mushroom (b)kr-vs-kp 1)将众包标签集直接采用投票方法融合,训 1.0h 1.0h 练模型对验证集预测: 0.9 0.9 2)采用VF算法,多轮交叉验证,大于一半不 0.8 0.8 相同视为噪声,直接去除掉噪声,剩余数据训练 0.7 模型对验证集预测; 0.6 +MV+AVNC MV+AVNO +MVMV+FAEQ +MV MV+FAEQ 3)采用FA识别并校正噪声,将校正过的数 0.5 0.5 7 3 据重新加入数据集并训练模型对验证集预测。 众包标签数量 众包标签数量 评价标准为AUC,即ROC曲线下面积。每 (c)sprmpase (d)sick 种方法重复实验10次,每次随机取奇数个模拟标 1.0 1.0t 记人员所标记的标签,比较其标准差和平均值。 0.9 0.9 图5和图6分别是平均标记准确率为0.7和 0.8 0.8 0.7 0.6时4种方法的所得标签训练模型的效果对比。 1.0h 1.0h 0.6 MV+AVNC ++FAEQ 0.6 MV+AVNO MV+FAEQ 0.9 0.9 0.5 1 3 0.5 5 7 1 5 7 0.8 众包标签数量 众包标签数量 89 +MV 元0.7 +MV (e)biodeg (f)tic-tac-toe VE 0.6 0.6 -+-FA -+-FA 1.0i 1.0h 0.5 0.5 3 5 7 9 3 5 7 9 0.9 0.9 众包标签数量 众包标签数量 0.8 0.8 是07 (a)mushroom (b)kr-vs-kp 0.6 0.6 +MV+AVNC 1.0 1.0h MV ±XS 0.5 0.5 +MV MV+FAEQ 0.9 0.9 5 7 9 3 5 7 S08 908 众包标签数量 众包标签数量 0.7 之0.7 (g)vote (h)ionosphere 0.6 0.6 FA +FA 图4低质量标记时众包准确率 0.5 0.5 7 9 3 5 Fig.4 Accuracy of crowdsourcing on low quality labeling 众包标签数量 众包标签数量 由图3和图4,可以得出以下结论: (c)sprmpase (d)sick 1)和多数投票所得集成标签相比,本方法能 1.0 +-MV 1.0h 够在其基础上较大幅度提高标签的质量: 0.9 0.9 2)和现有方法相比,除sick和tic-tac-toe数据 908 90.8 集外,本方法无论在标记质量较高或较低、标记 0.7 0.7 人数多或少的情况下所得结果均较高: 0.6 0.6 FA 0.5 0.5 3)本方法在标记人数3人以下时和其他方法 0 > 相比有明显优势,3人以上时略优于其他方法,因 众包标签数量 众包标签数量 (e)biodeg (f)tic-tac-toe 此可以在适当减少标记人数的情况下保证标记 质量; 1.0 1.0 4)对比图3和图4可见,当标记质量较低时, 0.9 0.9 对比方法质量明显下降,而本方法下降幅度与之 0.7 +MV 相比则下降不很明显; +MV 0.6 +-FA 0.6 5)sick和tic-tac-toe数据集效果不佳,其原因 0.5 -+-FA 0.5 3 5 9 5 在于数据集分布不平衡,随机选取的专家集可能 众包标签数量 众包标签数量 有严重的偏向,从而影响识别和校正的性能。 (g)vote (h)ionosphere 3.3训练模型对比 图5高质量标记时众包训练模型AUC 众包的另一个目的,是为机器学习的大量数 Fig.5 AUC of model trained by crowdsourcing on high 据集进行标注,以提高模型的泛化能力。因此还 quality labelingMV MV+AVNC MV+FAEQ 1 5 3 (a) mushroom 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) kr-vs-kp 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV+FAEQ 1 5 3 (c) sprmpase 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (d) sick 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 1 5 3 (e) biodeg 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (f) tic-tac-toe 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 1 5 3 (g) vote 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (h) ionosphere 众包标签数量 准确率 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV MV+AVNC MV MV+FAEQ MV+AVNC MV+FAEQ 图 4 低质量标记时众包准确率 Fig. 4 Accuracy of crowdsourcing on low quality labeling 由图 3 和图 4,可以得出以下结论: 1) 和多数投票所得集成标签相比,本方法能 够在其基础上较大幅度提高标签的质量; 2) 和现有方法相比,除 sick 和 tic-tac-toe 数据 集外,本方法无论在标记质量较高或较低、标记 人数多或少的情况下所得结果均较高; 3) 本方法在标记人数 3 人以下时和其他方法 相比有明显优势,3 人以上时略优于其他方法,因 此可以在适当减少标记人数的情况下保证标记 质量; 4) 对比图 3 和图 4 可见,当标记质量较低时, 对比方法质量明显下降,而本方法下降幅度与之 相比则下降不很明显; 5) sick 和 tic-tac-toe 数据集效果不佳,其原因 在于数据集分布不平衡,随机选取的专家集可能 有严重的偏向,从而影响识别和校正的性能。 3.3 训练模型对比 众包的另一个目的,是为机器学习的大量数 据集进行标注,以提高模型的泛化能力。因此还 需要考察的是修正噪声后的数据集和简单去除噪 声的数据集相比,生成的模型的识别能力是否有 所提高。这里选择 VF 进行噪声识别。实验方法 如下:对每一个数据集,划分 70% 为训练集,30% 为验证集,其中训练集按前文方法进行校正,比 较下列 3 种方法: 1) 将众包标签集直接采用投票方法融合,训 练模型对验证集预测; 2) 采用 VF 算法,多轮交叉验证,大于一半不 相同视为噪声,直接去除掉噪声,剩余数据训练 模型对验证集预测; 3) 采用 FA 识别并校正噪声,将校正过的数 据重新加入数据集并训练模型对验证集预测。 评价标准为 AUC,即 ROC 曲线下面积。 每 种方法重复实验 10 次,每次随机取奇数个模拟标 记人员所标记的标签,比较其标准差和平均值。 图 5 和图 6 分别是平均标记准确率为 0.7 和 0.6 时 4 种方法的所得标签训练模型的效果对比。 MV VF FA MV VF FA 1 5 3 (a) mushroom 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (b) kr-vs-kp 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 1 5 3 (c) sprmpase 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (d) sick 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 1 5 3 (e) biodeg 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (f) tic-tac-toe 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 MV VF FA MV VF FA 1 5 3 (g) vote 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 1 5 3 (h) ionosphere 众包标签数量 AUC 7 9 0.5 0.6 0.7 0.8 0.9 1.0 图 5 高质量标记时众包训练模型 AUC Fig. 5 AUC of model trained by crowdsourcing on high quality labeling ·232· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有