第9卷第3期 智能系统学报 Vol.9 No.3 2014年6月 CAAI Transactions on Intelligent Systems Jun.2014 D0:10.3969/j.issn.1673-4785.201403064 网s络出版地址:http:/www.cmki.net/kcms/doi/10.3969/j.issn.16734785.201403064.html 一种多标记数据的过滤式特征选择框架 郭雨萌,李国正 (同济大学电子与信息工程学院控制系,上海201804) 摘要:提出一种过滤式的多标记数据特征选择框架,并在卡方检验基础上进行实现和实验研究。该框架计算每个 特征在各个类标上的卡方检验,然后通过得分的统计值计算出每个特征的最终排序情况,选取了最大、平均、最小3 种统计值分别进行了实验比较。在5个评价指标、4个常用的多标记数据集和3个学习器上的对比实验表明,3种得 分统计方式各有优劣,但都能提高多标记学习的效果。 关键词:特征选择:多标记:过滤式:卡方检验 中图分类号:TP391文献标志码:A文章编号:1673-4785(2014)03-0292-06 中文引用格式:郭雨萌,李国正.一种多标记数据的过滤式特征选择框架[J].智能系统学报,2014,9(3):292-297. 英文引用格式:GUO Yumeng,LI Guozheng.A filter framework of the multi-label feature selection[J].CAAI Transactions on In- telligent Systems,2014,9(3):292-297. A filtering framework for the multi-label feature selection GUO Yumeng,LI Guozheng (School of Electronic and Information Engineering,Tongji University,Shanghai 201804,China) Abstract:The researchers of multi-label learning mainly focus on the classifier performance,regardless of the influ- ence of the dataset feature.This paper proposes a filter framework of the multi-labeled data feature selection.The al- gorithm implementation and experiment were carried out based on the Chi-square test.This framework calculates the CHI-square test for each feature on each label,and then the ranking order of each feature is computed by the statis- tics of the score.This paper considers three different types of statistical data (average,maximum,minimum)for the experimental comparisons.The contrasting experiments with the four common multi-label datasets with three classifiers and five evaluation criteria show that these three score statistical methods share both superior and inferior characteristics,but still improve the performance for multi-label learning problems. Keywords:feature selection;multi-label;filter;CHI-square test 多标记数据)中每个样本可以同时带有多个CC(classifier chain)和RAkEL(random k--labelsets) 类标,并且广泛地出现在不同的应用领域,比如文本 分类器是典型代表。而在算法适应类型中,MLkNN 分类、媒体标注、信息检索、生物信息学等。对于这 (multi-label k nearest neighbor),AdaBoost.MH(ada- 种数据的分析需要利用多标记学习技术2)。由于 boost multi-class hamming trees)RankSVM rank 大量不同的多标记学习技术被提出,所以该技术仍support vector machine)属于将一些先进的单标记分 是研究热点,目前可以分为问题转化和算法适应2 类器转化为多标记分类器的一类。LEAD(muli-la- 种类型。在问题转化类型中,BR(binary relevance), bel learning by exploiting label dependency)LIFT 收稿日期:2014-03-25.网络出版日期:2014-06-14 multi-label learning with label-specific features) 基金项目:国家自然科学基金资助项目(61273305). 器则更进一步,考虑到特征子集和利用类标的层级 通信作者:李国正.E-mail:gzi@tongji.edu.cm
第 9 卷第 3 期 智 能 系 统 学 报 Vol.9 №.3 2014 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2014 DOI:10.3969 / j.issn.1673⁃4785.201403064 网络出版地址:http: / / www.cnki.net / kcms/ doi / 10.3969 / j.issn.16734785.201403064.html 一种多标记数据的过滤式特征选择框架 郭雨萌,李国正 (同济大学 电子与信息工程学院控制系,上海 201804) 摘 要:提出一种过滤式的多标记数据特征选择框架,并在卡方检验基础上进行实现和实验研究。 该框架计算每个 特征在各个类标上的卡方检验,然后通过得分的统计值计算出每个特征的最终排序情况,选取了最大、平均、最小 3 种统计值分别进行了实验比较。 在 5 个评价指标、4 个常用的多标记数据集和 3 个学习器上的对比实验表明,3 种得 分统计方式各有优劣,但都能提高多标记学习的效果。 关键词:特征选择;多标记;过滤式;卡方检验 中图分类号: TP391 文献标志码:A 文章编号:1673⁃4785(2014)03⁃0292⁃06 中文引用格式:郭雨萌,李国正. 一种多标记数据的过滤式特征选择框架[J]. 智能系统学报, 2014, 9(3): 292⁃297. 英文引用格式:GUO Yumeng, LI Guozheng. A filter framework of the multi-label feature selection[J]. CAAI Transactions on In⁃ telligent Systems, 2014, 9(3): 292⁃297. A filtering framework for the multi⁃label feature selection GUO Yumeng, LI Guozheng (School of Electronic and Information Engineering, Tongji University, Shanghai 201804, China) Abstract:The researchers of multi⁃label learning mainly focus on the classifier performance, regardless of the influ⁃ ence of the dataset feature. This paper proposes a filter framework of the multi⁃labeled data feature selection. The al⁃ gorithm implementation and experiment were carried out based on the Chi⁃square test. This framework calculates the CHI⁃square test for each feature on each label, and then the ranking order of each feature is computed by the statis⁃ tics of the score. This paper considers three different types of statistical data ( average, maximum, minimum) for the experimental comparisons. The contrasting experiments with the four common multi⁃label datasets with three classifiers and five evaluation criteria show that these three score statistical methods share both superior and inferior characteristics, but still improve the performance for multi⁃label learning problems. Keywords:feature selection; multi⁃label; filter; CHI⁃square test 收稿日期:2014⁃03⁃25. 网络出版日期:2014⁃06⁃14. 基金项目:国家自然科学基金资助项目(61273305). 通信作者:李国正. E⁃mail:gzli@ tongji.edu.cn. 多标记数据[1] 中每个样本可以同时带有多个 类标,并且广泛地出现在不同的应用领域,比如文本 分类、媒体标注、信息检索、生物信息学等。 对于这 种数据的分析需要利用多标记学习技术[2 ⁃ 3] 。 由于 大量不同的多标记学习技术被提出,所以该技术仍 是研究热点,目前可以分为问题转化和算法适应 2 种类型。 在问题转化类型中,BR(binary relevance), CC( classifier chain) 和 RAkEL( random k⁃labelsets) 分类器是典型代表。 而在算法适应类型中,MLkNN (multi⁃label k nearest neighbor)、 AdaBoost.MH(ada⁃ boost multi⁃class hamming trees) 和 RankSVM ( rank support vector machine)属于将一些先进的单标记分 类器转化为多标记分类器的一类。 LEAD(multi⁃la⁃ bel learning by exploiting label dependency) 和 LIFT (multi⁃label learning with label⁃specific features)分类 器则更进一步,考虑到特征子集和利用类标的层级
第3期 李国正,等:一种多标记数据的过滤式特征选择框架 ·293. 结构去进行学习分类的一类。多标记学习技术发展 X(t)=max (t,c:)) (3) 】安多 的动力来自于实际应用问题,很具有研究价值。 X(t)=min (t.c)) (4) 虽然多标记学习技术还需要许多研究工作,但 1名i名m 式中m为类标个数。式(2)表示特征与各类标的平 是很少的科研工作者将目光转向数据集中一些不相 均CHⅢ值作为该特征的最终得分:式(3)表示选取 关或冗余的特征。减少这些特征会在一定程度上提 特征与各类标CHⅢ值中的最大值作为该特征的最 高多标记学习器的分类能力,因此对数据集进行特 终得分统计;式(4)表示选取特征与各类标CHⅢ值 征选择预处理是很有必要的。特征选择[45]的目的 中的最小值作为该特征的最终得分统计。 是在高维数据中降低子集维度,主要有过滤式、包装 实验数据来自于MULAN网站上公开的多标记 式和嵌入式等3种不同形式。过滤式与目标学习器 无关,具有计算简单,效率高的优势[6)。本文提出 数据集,数据集相关信息如表1所示。 表1实验数据集相关信息 一种过滤式多标记特征选择的框架,并以卡方检 Table 1 The characteristics of datasets 验8]为特征评价的准则。 数据集 所属 样本 属性 类标 1过滤式多标记特征选择框架 名称 领域 个数 个数 个数 emotions 过滤式方法的基本思想是使用一种独立于分类 音乐 593 72 6 medical 文本 978 217 20 器的评价指标来衡量某个特征的好坏,即选择该特 2407 249 征优先级。过滤式方法在计算效率上往往优于其他 Scene 图像 6 2种特征选择方法。 yeast 生物 2417 103 14 卡方检验可以用来度量特征t和类标c之间的 实验采用5种常用的多标记学习评价指标[9] 相关程度。假设t和c之间符合具有一阶自由度的 对多标记数据特征选择之后的分类性能进行评价:排 CHI分布。t和c的CHI值由式(1)计算: 名损失、汉明损失、差一错误、覆盖范围、平均查准率。 N (AD-BC)2 以上5种评价指标中,前4种评价指标的值越小,最 X(,c)=A+C)(B+D)(A+B)(C+D) 后1种评价指标的值越大,表明性能越好。 (1) 实验采用10轮10倍交叉验证方法,即将实验数 式中:X2值表示CHI值,N表示数据集中样本的总 据随机平均分成10份,每次将1份作为验证集,其余 个数:A表示包含t且属于分类c的样本数:B为包 9份整体作为训练集,不重复进行10次实验,统计其 含t但是不属于c类的样本数:C表示属于c类但是 平均结果,作为实验最终结果。 不包含t的样本数:D表示既不属于c也不包含t的 通过将预处理后的多标记数据集利用卡方检验 样本数。可以看出N固定不变,A+C为属于c类的 准则,可以分别得到每个特征t对应的各个类标c的 样本数,B+D为不属于c类的样本数,所以式(1) CHⅢ值。然后,按照不同的得分统计方式得到每个 可以简化为 特征的最终得分,最后根据每个特征的最终得分,将 acm 全体特征做降序排列,使用前向搜索依次选取前 个特征(n=1,2,…)作为特征子集。 当特征和类标相互独立时,(t,c)=0。(t,c)的 max指的是选取利用卡方检验准则得到的每个 值越大,特征1和类标c越相关。 特征对应各个类标所有CHI值的最大值,作为该特 本文提出的过滤式多标记特征选择框架的基本 征的最终得分,进行特征排序。 思想是:首先单独计算每个特征t与各个类标c的 avg指的是选取利用卡方检验准则得到的每个 CH值,然后再根据得分统计方式决定每个特征的 特征对应各个类标所有CHⅢ值的平均值,作为该特 最终得分,最后将特征按照最终得分进行降序排列, 征的最终得分,进行特征排序。 并进行前向搜索得到特征子集。 min指的是选取利用卡方检验准则得到的每个 下面为通过计算每个特征t与各个类标c的 特征对应各个类标所有CHⅢ值的最小值,作为该特 CHⅢ值,并根据得分统计方式得到最终得分的公式: 征的最终得分,进行特征排序。 X2()=∑x6,c) 在将处理好的特征进行排序后,多标记分类器将 2 m 利用搜索到的特征子集去完成分类任务。为了更加客
结构去进行学习分类的一类。 多标记学习技术发展 的动力来自于实际应用问题,很具有研究价值。 虽然多标记学习技术还需要许多研究工作,但 是很少的科研工作者将目光转向数据集中一些不相 关或冗余的特征。 减少这些特征会在一定程度上提 高多标记学习器的分类能力,因此对数据集进行特 征选择预处理是很有必要的。 特征选择[ 4 ⁃ 5 ]的目的 是在高维数据中降低子集维度,主要有过滤式、包装 式和嵌入式等 3 种不同形式。 过滤式与目标学习器 无关,具有计算简单,效率高的优势[6 ⁃ 7] 。 本文提出 一种过滤式多标记特征选择的框架,并以卡方检 验[ 8 ]为特征评价的准则。 1 过滤式多标记特征选择框架 过滤式方法的基本思想是使用一种独立于分类 器的评价指标来衡量某个特征的好坏,即选择该特 征优先级。 过滤式方法在计算效率上往往优于其他 2 种特征选择方法。 卡方检验可以用来度量特征 t 和类标 c 之间的 相关程度。 假设 t 和 c 之间符合具有一阶自由度的 CHI 分布。 t 和 c 的 CHI 值由式(1)计算: χ 2 (t,c) = N (AD - BC) 2 (A + C)(B + D)(A + B)(C + D) (1) 式中: χ 2 值表示 CHI 值, N 表示数据集中样本的总 个数; A 表示包含 t 且属于分类 c 的样本数; B 为包 含 t 但是不属于 c 类的样本数; C 表示属于 c 类但是 不包含 t 的样本数; D 表示既不属于 c 也不包含 t 的 样本数。 可以看出 N 固定不变, A + C 为属于 c 类的 样本数, B + D 为不属于 c 类的样本数,所以式(1) 可以简化为 χ 2 (t,c) = (AD - BC) 2 (A + B) (C + D) 当特征和类标相互独立时, χ 2 (t,c) = 0。 χ 2 (t,c) 的 值越大,特征 t 和类标 c 越相关。 本文提出的过滤式多标记特征选择框架的基本 思想是:首先单独计算每个特征 t 与各个类标 c 的 CHI 值,然后再根据得分统计方式决定每个特征的 最终得分,最后将特征按照最终得分进行降序排列, 并进行前向搜索得到特征子集。 下面为通过计算每个特征 t 与各个类标 c 的 CHI 值,并根据得分统计方式得到最终得分的公式: χ avg 2 (t) = 1 m ∑ m i = 1 χ 2 t,ci ( ) (2) χ max 2 (t) = max 1≤i≤m χ 2 t,ci { ( ) } (3) χ min 2 (t) = min 1≤i≤m χ 2 t,ci { ( ) } (4) 式中 m 为类标个数。 式(2)表示特征与各类标的平 均 CHI 值作为该特征的最终得分;式(3)表示选取 特征与各类标 CHI 值中的最大值作为该特征的最 终得分统计;式(4)表示选取特征与各类标 CHI 值 中的最小值作为该特征的最终得分统计。 实验数据来自于 MULAN 网站上公开的多标记 数据集,数据集相关信息如表 1 所示。 表 1 实验数据集相关信息 Table 1 The characteristics of datasets 数据集 名称 所属 领域 样本 个数 属性 个数 类标 个数 emotions 音乐 593 72 6 medical 文本 978 217 20 Scene 图像 2407 249 6 yeast 生物 2417 103 14 实验采用 5 种常用的多标记学习评价指标[ 9 ] , 对多标记数据特征选择之后的分类性能进行评价:排 名损失、汉明损失、差一错误、覆盖范围、平均查准率。 以上 5 种评价指标中,前 4 种评价指标的值越小,最 后 1 种评价指标的值越大,表明性能越好。 实验采用 10 轮 10 倍交叉验证方法,即将实验数 据随机平均分成 10 份,每次将 1 份作为验证集,其余 9 份整体作为训练集,不重复进行 10 次实验,统计其 平均结果,作为实验最终结果。 通过将预处理后的多标记数据集利用卡方检验 准则,可以分别得到每个特征 t 对应的各个类标 c 的 CHI 值。 然后,按照不同的得分统计方式得到每个 特征的最终得分,最后根据每个特征的最终得分,将 全体特征做降序排列,使用前向搜索依次选取前 n 个特征( n = 1,2,…)作为特征子集。 max 指的是选取利用卡方检验准则得到的每个 特征对应各个类标所有 CHI 值的最大值,作为该特 征的最终得分,进行特征排序。 avg 指的是选取利用卡方检验准则得到的每个 特征对应各个类标所有 CHI 值的平均值,作为该特 征的最终得分,进行特征排序。 min 指的是选取利用卡方检验准则得到的每个 特征对应各个类标所有 CHI 值的最小值,作为该特 征的最终得分,进行特征排序。 在将处理好的特征进行排序后,多标记分类器将 利用搜索到的特征子集去完成分类任务。 为了更加客 第 3 期 李国正,等:一种多标记数据的过滤式特征选择框架 ·293·
·294 智能系统学报 第9卷 观地测试特征子集的分类效果,实验选取了3个多标 0.8 记分类器,分别是BR【o1,CC门和MkNN(2]。 朵bD.Gmax 梁一齿0米avg 3 实验结果及分析 min 0.6 20 40 按照上节的实验设置,在4个公开数据集上先 60 80 选取的部分特征个数 进行特征选择,再分类,实验结果做如下分析。 (d)在MkNN分类器下的平均查准率值 3.1 Emotions数据集上的实验结果分析 图1 Emotions数据集部分实验结果 如图1(其中横轴坐标表示特征子集所含有的特 Fig.l Partial results of the experiment on the emotions dataset 征个数,纵轴坐标表示特征子集在相应指标下的实验 表2 Emotions数据集实验的最优结果比较 结果数值,之后分析相同)和表2所示,在BR分类器 Table 2 Comparison of optimal results of the experi- 下,随着特征个数增多到最后阶段3种得分统计方式 ment on the emotions dataset 搜索到的特征子集性能较差。虽然开始在min下搜索 得分排序 汉明差一覆盖 平均 分类器 到的特征子集相比于其他2种方式,在5种评价指标 方式损失 损失错误范围查准率 下性能较差,但是随着特征个数的增加,min下的实验 max0.19310.22110.32201.93240.7657 结果渐渐超过avg和max,最终达到全局最优,得到最 BR avg0.19390.22090.32371.94230.7656 优特征子集。而且avg和max下搜索得到的特征子集 min0.17380.20880.30011.83500.7849 除了在差一错误评价指标下的实验结果存在较明显差 max0.19910.23160.33041.92900.7608 异,在其余4种评价指标下预测结果差异较小。同时, CC avg0.19910.23050.32881.95240.7640 可以看出在CC分类器下,整体趋势与BR分类器下相 min0.17960.21050.31181.83810.7810 似,但是后期波动较小。在MkNN分类器下,整体趋 max0.22600.24480.36252.07140.7395 势与BR分类器下相似,但是后期波动较大。 MLkNN avg0.21970.24500.35052.05290.7451 0.4 max min0.20570.19770.34561.97160.7535 米avg 3.2 Medical数据集上的实验结果分析 min 如图2和表3所示,在BR分类器下,avg和max 2种得分统计方式搜索到的特征子集在5种评价指 0.2 0 20 40 60 80 标下预测结果差异较小,几乎重叠在一起。但是从 选取的部分特征个数 全局最优结果看,在排序损失和覆盖范围指标下, (a)在BR分类器下的汉明损失值 avg和max都能搜到最优特征子集,而在汉明损失 0.50r max 和差一错误指标下,avg结果最好,在平均查准率指 0.45 米avg 标下,max结果最好。在min下搜索到的特征子集 0.40 min 在5种评价指标下结果最差,而且收敛速度明显慢 0.35 尿出一留卧 0.30 于avg和max,特征选择对于分类性能提升效果较 20 4060 80 差。同时,可以看出在CC分类器下,整体趋势与 选取的部分特征个数 BR分类器下相似。但是从全局最优结果看,在5种 (b)在BR分类器下的差一错误值 指标下,max下搜索到最优特征子集,结果最好。在 0.50r max MLkNN分类器下,整体趋势与BR分类器下相似。 0.45k 米avg 0.40 min 0.4 0.35 尿齿图每 max 0.30 米avg 20 40 60 80 毫02 选取的部分特征个数 min 条一量一品金金量业 (c)在CC分类器下的汉明损失值 50100150.200250 选取的部分特征个数 (a)在BR分类器下的排序损失值
观地测试特征子集的分类效果,实验选取了 3 个多标 记分类器,分别是 BR [ 10 ] 、CC [ 11 ]和 MLkNN [ 12 ] 。 3 实验结果及分析 按照上节的实验设置,在 4 个公开数据集上先 进行特征选择,再分类,实验结果做如下分析。 3.1 Emotions 数据集上的实验结果分析 如图 1(其中横轴坐标表示特征子集所含有的特 征个数,纵轴坐标表示特征子集在相应指标下的实验 结果数值,之后分析相同)和表 2 所示,在 BR 分类器 下,随着特征个数增多到最后阶段 3 种得分统计方式 搜索到的特征子集性能较差。 虽然开始在 min 下搜索 到的特征子集相比于其他 2 种方式,在 5 种评价指标 下性能较差,但是随着特征个数的增加,min 下的实验 结果渐渐超过 avg 和 max,最终达到全局最优,得到最 优特征子集。 而且 avg 和 max 下搜索得到的特征子集 除了在差一错误评价指标下的实验结果存在较明显差 异,在其余 4 种评价指标下预测结果差异较小。 同时, 可以看出在 CC 分类器下,整体趋势与 BR 分类器下相 似,但是后期波动较小。 在 MLkNN 分类器下,整体趋 势与 BR 分类器下相似,但是后期波动较大。 (a)在 BR 分类器下的汉明损失值 (b) 在 BR 分类器下的差一错误值 (c) 在 CC 分类器下的汉明损失值 (d) 在 MLkNN 分类器下的平均查准率值 图 1 Emotions 数据集部分实验结果 Fig.1 Partial results of the experiment on the emotions dataset 表 2 Emotions 数据集实验的最优结果比较 Table 2 Comparison of optimal results of the experi⁃ ment on the emotions dataset 分类器 得分 方式 排序 损失 汉明 损失 差一 错误 覆盖 范围 平均 查准率 max 0.1931 0.2211 0.3220 1.9324 0.7657 BR avg 0.1939 0.2209 0.3237 1.9423 0.7656 min 0.1738 0.2088 0.3001 1.8350 0.7849 max 0.1991 0.2316 0.3304 1.9290 0.7608 CC avg 0.1991 0.2305 0.3288 1.9524 0.7640 min 0.1796 0.2105 0.3118 1.8381 0.7810 max 0.2260 0.2448 0.3625 2.0714 0.7395 MLkNN avg 0.2197 0.2450 0.3505 2.0529 0.7451 min 0.2057 0.1977 0.3456 1.9716 0.7535 3.2 Medical 数据集上的实验结果分析 如图 2 和表 3 所示,在 BR 分类器下,avg 和 max 2 种得分统计方式搜索到的特征子集在 5 种评价指 标下预测结果差异较小,几乎重叠在一起。 但是从 全局最优结果看,在排序损失和覆盖范围指标下, avg 和 max 都能搜到最优特征子集,而在汉明损失 和差一错误指标下,avg 结果最好,在平均查准率指 标下,max 结果最好。 在 min 下搜索到的特征子集 在 5 种评价指标下结果最差,而且收敛速度明显慢 于 avg 和 max,特征选择对于分类性能提升效果较 差。 同时,可以看出在 CC 分类器下,整体趋势与 BR 分类器下相似。 但是从全局最优结果看,在 5 种 指标下,max 下搜索到最优特征子集,结果最好。 在 MLkNN 分类器下,整体趋势与 BR 分类器下相似。 (a)在 BR 分类器下的排序损失值 ·294· 智 能 系 统 学 报 第 9 卷
第3期 李国正,等:一种多标记数据的过滤式特征选择框架 ·295. 0.10 max BR分类器下相似。但是从全局最优结果看,在5种 米avg 指标下,avg下搜索到最优特征子集,结果最好。在 把 0.05 人少pg金食#修 min MLkNN分类器下,整体趋势与BR分类器相似。但 是从全局最优结果看,在5种指标下,min下搜索到 50100150 200250 最优特征子集结果最好。 选取的部分特征个数 1.0 (b)在BR分类器下的汉明损失值 max 1.0i max 0.5 米avg ..D 米avg min 0.5 min 的的的一母的一留臣的伊 香一留世图阜金辛食食电 50100150200250300 选取的部分特征个数 50 100150200250 选取的部分特征个数 (a)在BR分类器下的排序损失值 (c)在CC分类器下的差一错误值 02张 1.0 卧一甲齿量飞B多B … max 口ma容卧一唐0解合怪一色每 0.50… . 米avg 尽 米avg min min 0 50 100 150 200250 50 100150.200.250300 选取的部分特征个数 选取的部分特征个数 (d)在MLkNN分类器下的平均查准率值 (b)在BR分类器下的汉明损失值 图2 Medical数据集部分实验结果 1.0 max Fig.2 Partial results of the experiment on the medical 米avg dataset 0.5 min 表3 Medical数据集实验的最优结果比较 的留图一县一命一快多的 Table 3 Comparison of optimal results of the experi- ment on the medical dataset 0 50100150.,200250300 选取的部分特征个数 得分排序 汉明差一覆盖 平均 分类器 (c)在CC分类器下的差一错误值 方式损失 损失 错误范围 查准率 1.0 max0.01870.01960.12440.56970.9174 的一卧一由一卧一0卧留细 BR avg 0.01870.01950.11700.56970.9165 max 知0.54 米avg min0.01880.02020.12980.57070.9148 min max0.02070.01860.12660.62190.9147 50100150200250300 CC avg0.02290.01880.12770.64820.9119 选取的部分特征个数 min0.02440.01990.13730.68510.9067 (d)在MkNN分类器下的平均查准率值 max0.03090.02040.13600.80510.9014 图3 Medical数据集部分实验结果 MLkNN avg0.03590.02250.16450.91890.8806 Fig.3 Partial results of the experiment on the medical dataset min0.04170.02940.20881.03440.8535 表4 Scene数据集实验的最优结果比较 3.3 Scene数据集上的实验结果分析 Table 4 Comparison of optimal results of the experi- 如图3和表4所示,在BR分类器下,3种得分 ment on the scene dataset 统计方式搜索到的特征子集在5种评价指标下预测 得分排序 汉明差一 覆盖平均 结果差异较小,几乎重叠在一起。但是从全局最优 分类器 方式损失 损失错误范围查准率 结果看,在排序损失指标下,3种得分统计方式达到 max0.07520.09700.23020.45950.8642 相同结果,在汉明损失,覆盖范围和差一错误指标 BR 0.07520.09730.23260.45950.8629 下,min结果最好,在平均查准率指标下,max结果 avg 最好。同时,可以看出在CC分类器下,整体趋势与 min0.07520.09680.20880.45900.8629
(b) 在 BR 分类器下的汉明损失值 (c) 在 CC 分类器下的差一错误值 (d) 在 MLkNN 分类器下的平均查准率值 图 2 Medical 数据集部分实验结果 Fig.2 Partial results of the experiment on the medical dataset 表 3 Medical 数据集实验的最优结果比较 Table 3 Comparison of optimal results of the experi⁃ ment on the medical dataset 分类器 得分 方式 排序 损失 汉明 损失 差一 错误 覆盖 范围 平均 查准率 max 0.0187 0.0196 0.1244 0.5697 0.9174 BR avg 0.0187 0.0195 0.1170 0.5697 0.9165 min 0.0188 0.0202 0.1298 0.5707 0.9148 max 0.0207 0.0186 0.1266 0.6219 0.9147 CC avg 0.0229 0.0188 0.1277 0.6482 0.9119 min 0.0244 0.0199 0.1373 0.6851 0.9067 max 0.0309 0.0204 0.1360 0.8051 0.9014 MLkNN avg 0.0359 0.0225 0.1645 0.9189 0.8806 min 0.0417 0.0294 0.2088 1.0344 0.8535 3.3 Scene 数据集上的实验结果分析 如图 3 和表 4 所示,在 BR 分类器下,3 种得分 统计方式搜索到的特征子集在 5 种评价指标下预测 结果差异较小,几乎重叠在一起。 但是从全局最优 结果看,在排序损失指标下,3 种得分统计方式达到 相同结果,在汉明损失,覆盖范围和差一错误指标 下,min 结果最好,在平均查准率指标下,max 结果 最好。 同时,可以看出在 CC 分类器下,整体趋势与 BR 分类器下相似。 但是从全局最优结果看,在 5 种 指标下,avg 下搜索到最优特征子集,结果最好。 在 MLkNN 分类器下,整体趋势与 BR 分类器相似。 但 是从全局最优结果看,在 5 种指标下,min 下搜索到 最优特征子集结果最好。 (a)在 BR 分类器下的排序损失值 (b) 在 BR 分类器下的汉明损失值 (c) 在 CC 分类器下的差一错误值 (d) 在 MLkNN 分类器下的平均查准率值 图 3 Medical 数据集部分实验结果 Fig.3 Partial results of the experiment on the medical dataset 表 4 Scene 数据集实验的最优结果比较 Table 4 Comparison of optimal results of the experi⁃ ment on the scene dataset 分类器 得分 方式 排序 损失 汉明 损失 差一 错误 覆盖 范围 平均 查准率 max 0.0752 0.0970 0.2302 0.4595 0.8642 BR avg 0.0752 0.0973 0.2326 0.4595 0.8629 min 0.0752 0.0968 0.2088 0..4590 0.8629 第 3 期 李国正,等:一种多标记数据的过滤式特征选择框架 ·295·
·296· 智能系统学报 第9卷 续表1 搜索到的特征子集在排序损失、汉明损失和平均查 得分排序 汉明 差一覆盖 平均 准率指标下预测结果差异较小,几乎重叠在一起,但 分类器 方式 损失 损失错误 范围查准率 是在差一错误和覆盖范围指标下,都出现不同程度 max 0.08710.09840.25840.5184 0.8461 的小幅震荡。在min下搜索到的特征子集在5种评 CC avg0.08390.09730.25550.50100.8493 价指标下结果最差,而且收敛速度明显慢于avg和 mim0.08560.09840.25840.51140.8462 max,特征选择对于分类性能提升效果较差。从全 max0.07690.08470.22350.47110.8669 局实验结果看,avg下搜索到的特征子集,达到最优 MLkNN avg0.07660.08430.22310.47070.8674 结果。同时,可以看出在CC分类器下,3种取值方 mim0.07490.08340.21190.46110.8716 式搜索到的特征子集,在5种评价指标下的结果,都 3.4 Yeast数据集上的实验结果分析 呈现出震荡的形式,尤其是在差一错误指标下,震荡 Yeast数据集部分实验结果如图4所示。 幅度最大。虽然在震荡中,但是随着特征个数的增 加,结果逐渐改善,说明特征选择起到了很好的提高 0.25 max 分类性能的作用。从全局实验结果看,在排序损失 米avg 和平均查准率指标下,avg下搜索到的特征子集表 0.2 …“多0 min 现最好,而且其余3种评价指标下,max下搜索到的 特征子集表现最好。在MLkNN分类器下,整体趋 20 4060 80 100 选取的部分特征个数 势与在BR分类器下相似。从全局实验结果看,除 (a)在BR分类器下的排序损失值 了在排序损失和差一错误指标下,avg与max下搜 0.4 索到的特征子集,达到相同最优结果,其余3种评价 □max 指标下,max的结果最好。Scene数据集实验的最优 0.3 米avg 结果比较如表5所示。 min 表5 Scene数据集实验的最优结果比较 是。萧d能 Table 5 Comparison of optimal results of the experi- 020 40 60 80 选取的部分特征个数 ment on the scene dataset (b)在BR分类器下的汉明损失值 得分排序 汉明差一覆盖平均 分类器 方式 损失 损失错误 范围查准率 9 max 米avg max 0.0752 0.09700.23020.45950.8642 min BR avg0.07520.09730.23260.45950.8629 音首丹金队限曼光 min0.07520.09680.20880.45900.8629 米 0 20 40 60 80100 max0.08710.09840.25840.51840.8461 选取的部分特征个数 CC avg0.08390.09730.25550.50100.8493 (c)在CC分类器下的覆盖范围值 min0.08560.09840.25840.51140.8462 0.8 max0.07690.08470.22350.47110.8669 著,在尽BB80 MLkNN avg0.07660.08430.22310.47070.8674 max 米avg min0.07490.08340.21190.46110.8716 0.6 min 3.5实验结果 0 20 40、6080 100 从以上所有实验结果可以看出,针对不同类型 选取的部分特征个数 的多标记数据集,都有其特定的得分统计方式能很 (d)在MLkNN分类器下的平均查准率值 快地搜索到较优的特征子集,然后趋于稳定,说明特 图4 Yeast数据集部分实验结果 征选择起到了很好的提高分类性能的作用。为了便 Fig.4 Partial results of the experiment on the yeast 于使展示图片美观易懂,画图时特征子集所含特征 dataset 个数采用间隔选取再绘制(本身实验数据是全的), 在BR分类器下,avg和max两种得分统计方式 所有的同类型图片都采用这个方法
续表 1 分类器 得分 方式 排序 损失 汉明 损失 差一 错误 覆盖 范围 平均 查准率 max 0.0871 0.0984 0.2584 0.5184 0.8461 CC avg 0.0839 0.0973 0.2555 0.5010 0.8493 min 0.0856 0.0984 0.2584 0.5114 0.8462 max 0.0769 0.0847 0.2235 0.4711 0.8669 MLkNN avg 0.0766 0.0843 0.2231 0.4707 0.8674 min 0.0749 0.0834 0.2119 0.4611 0.8716 3.4 Yeast 数据集上的实验结果分析 Yeast 数据集部分实验结果如图 4 所示。 (a)在 BR 分类器下的排序损失值 (b) 在 BR 分类器下的汉明损失值 (c) 在 CC 分类器下的覆盖范围值 (d) 在 MLkNN 分类器下的平均查准率值 图 4 Yeast 数据集部分实验结果 Fig.4 Partial results of the experiment on the yeast dataset 在 BR 分类器下,avg 和 max 两种得分统计方式 搜索到的特征子集在排序损失、汉明损失和平均查 准率指标下预测结果差异较小,几乎重叠在一起,但 是在差一错误和覆盖范围指标下,都出现不同程度 的小幅震荡。 在 min 下搜索到的特征子集在 5 种评 价指标下结果最差,而且收敛速度明显慢于 avg 和 max,特征选择对于分类性能提升效果较差。 从全 局实验结果看,avg 下搜索到的特征子集,达到最优 结果。 同时,可以看出在 CC 分类器下,3 种取值方 式搜索到的特征子集,在 5 种评价指标下的结果,都 呈现出震荡的形式,尤其是在差一错误指标下,震荡 幅度最大。 虽然在震荡中,但是随着特征个数的增 加,结果逐渐改善,说明特征选择起到了很好的提高 分类性能的作用。 从全局实验结果看,在排序损失 和平均查准率指标下,avg 下搜索到的特征子集表 现最好,而且其余 3 种评价指标下,max 下搜索到的 特征子集表现最好。 在 MLkNN 分类器下,整体趋 势与在 BR 分类器下相似。 从全局实验结果看,除 了在排序损失和差一错误指标下,avg 与 max 下搜 索到的特征子集,达到相同最优结果,其余 3 种评价 指标下,max 的结果最好。 Scene 数据集实验的最优 结果比较如表 5 所示。 表 5 Scene 数据集实验的最优结果比较 Table 5 Comparison of optimal results of the experi⁃ ment on the scene dataset 分类器 得分 方式 排序 损失 汉明 损失 差一 错误 覆盖 范围 平均 查准率 max 0.0752 0.0970 0.2302 0.4595 0.8642 BR avg 0.0752 0.0973 0.2326 0.4595 0.8629 min 0.0752 0.0968 0.2088 0..4590 0.8629 max 0.0871 0.0984 0.2584 0.5184 0.8461 CC avg 0.0839 0.0973 0.2555 0.5010 0.8493 min 0.0856 0.0984 0.2584 0.5114 0.8462 max 0.0769 0.0847 0.2235 0.4711 0.8669 MLkNN avg 0.0766 0.0843 0.2231 0.4707 0.8674 min 0.0749 0.0834 0.2119 0.4611 0.8716 3.5 实验结果 从以上所有实验结果可以看出,针对不同类型 的多标记数据集,都有其特定的得分统计方式能很 快地搜索到较优的特征子集,然后趋于稳定,说明特 征选择起到了很好的提高分类性能的作用。 为了便 于使展示图片美观易懂,画图时特征子集所含特征 个数采用间隔选取再绘制(本身实验数据是全的), 所有的同类型图片都采用这个方法。 ·296· 智 能 系 统 学 报 第 9 卷
第3期 李国正,等:一种多标记数据的过滤式特征选择框架 .297. [7]计智伟,胡珉,尹建新.特征选择算法综述[J].电子设计 4 结束语 工程,2011,19(9):46-51. 本文提出过滤式的多标记特征选择框架,并使 JI Zhiwei,HU Ming,YIN Jianxin.A survey of feature se- 用卡方检验作为特征评价准则,在多个多标记数据 lection algorithm[J].Electronic Design Engineering,2011, 集和分类评价准则上显示特征选择有助于提高多标 19(9):46-51. [8]邱云飞,王威,刘大有,等基于方差CH的特征选择方法 记学习器的学习效果。本文通过对卡方检验得分的 [J].计算机应用研究,2012,29(4):1301-1303. 统计计算出每个特征的最终排序情况,选取了最大、 QIU Yunfei,WANG Wei,LIU Dayou,et al.CHI feature 平均、最小3种统计方式分别进行了实验比较。实 selection method based on variance [J].Application Re- 验结果表明,利用本文框架采取不同的得分统计方 search of Computers,2012,29(4):1301-1303. 式,对于不同类型的多标记数据集有不同效果。过 [9]ZHANG M L,ZHOU Z H.A review on multi-label learning 滤式多标记特征选择框架还有一些问题有待进一步 algorithms[J].IEEE Transactions on Knowledge and Data 解决,比如如何在得分统计中加入衡量类标间的关 Engineering,2013,39(10):1-43. 系,如何采取更有效得分统计方式将提升特征子集 [10]MATTHEW R B,LUO J B,SHEN X P,et al.Learning 在分类器下的分类效果等。 multi-label scene classification[]].Pattern Recognition, 2004,37(9):1757-1771. 参考文献: [11]READ J,PFAHRINGER B,HOLMES G,et al.Classifier chains for multi-label classification[J].Machine Learning, [1]TSOUMAKAS G,KATAKIS I,VLAHAVAS I.Mining 2011,85(3):333-359 Multi-label Data R].Data Minging and Knowledge Dis- [12]ZHANG M L,ZHOU Z H.ML-kNN:a lazy learning ap- covery Handbook,2010:667-685. proach to multi-label learning[J].Pattern Recognition, [2]TSOUMAKAS G,KATAKIS I.Multi-label classification:an 2007,40(7):2038-2048. overview[J].International Journal of Data Wareh -ousing 作者简介: and Mining,2007,40(3):1-13. [3]ZHANG M L,ZHANG K.Multi-label learning by exploiting 郭雨萌,男,1989年生,博士研究 label dependency[C]//Proceedings of the 16th ACM SIG- 生,主要研究方向为模式识别与机器学 KDD International Conference on Knowledge Discovery and 习等。 Data Mining.Washington,DC.USA,2010:999-1008. [4]YANG Y,PEDERSEN J O.A comparative study on feature selection in text categorization[C]//Machine Learning In- ternational Workshop then Conference.Philadelphia,USA, 1997:412-420. 李国正,男,1977年生,研究员,博 [5]SWATI S,GHATOL A,ASHOK C.Feature selection for 士生导师,博士,中国人工智能学会机 medical diagnosis:Evaluation for cardiovascular diseases 器学习专业委员会常务委员,主要研究 [J].Expert Systems with Applications,2013,40(10): 方向为模式识别和生物医学数据挖掘, 4146-4153. 在研和完成国家自然科学基金项目、上 [6]NEWTON S,EVERTON A C,MARIA C M,et al.A com- 海市科委“创新行动计划”重大项目子课题等多项课题,发 parison of multi -label feature selection methods using the 表学术论文100余篇,其中SCI检索40余篇,EI检索50余 problem transformation approach [J].Electronic Notes in 篇,参与撰写专著6部,主持翻译专著1部。 Theoretical Computer Science,2013,292:135-151
4 结束语 本文提出过滤式的多标记特征选择框架,并使 用卡方检验作为特征评价准则,在多个多标记数据 集和分类评价准则上显示特征选择有助于提高多标 记学习器的学习效果。 本文通过对卡方检验得分的 统计计算出每个特征的最终排序情况,选取了最大、 平均、最小 3 种统计方式分别进行了实验比较。 实 验结果表明,利用本文框架采取不同的得分统计方 式,对于不同类型的多标记数据集有不同效果。 过 滤式多标记特征选择框架还有一些问题有待进一步 解决,比如如何在得分统计中加入衡量类标间的关 系,如何采取更有效得分统计方式将提升特征子集 在分类器下的分类效果等。 参考文献: [1 ] TSOUMAKAS G, KATAKIS I, VLAHAVAS I. Mining Multi⁃label Data[ R]. Data Minging and Knowledge Dis⁃ covery Handbook, 2010: 667⁃685. [2]TSOUMAKAS G, KATAKIS I. Multi⁃label classification: an overview[ J]. International Journal of Data Wareh ⁃ousing and Mining, 2007, 40(3): 1⁃13. [3]ZHANG M L, ZHANG K. Multi⁃label learning by exploiting label dependency[C] / / Proceedings of the 16th ACM SIG⁃ KDD International Conference on Knowledge Discovery and Data Mining. Washington, DC, USA, 2010: 999 ⁃1008. [4]YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[C] / / Machine Learning In⁃ ternational Workshop then Conference. Philadelphia, USA, 1997: 412⁃420. [5] SWATI S, GHATOL A, ASHOK C. Feature selection for medical diagnosis: Evaluation for cardiovascular diseases [J]. Expert Systems with Applications, 2013, 40 ( 10): 4146⁃4153. [6]NEWTON S, EVERTON A C, MARIA C M, et al. A com⁃ parison of multi ⁃label feature selection methods using the problem transformation approach [ J]. Electronic Notes in Theoretical Computer Science, 2013, 292: 135⁃151. [7]计智伟,胡珉,尹建新.特征选择算法综述[ J].电子设计 工程, 2011, 19(9): 46⁃51. JI Zhiwei, HU Ming, YIN Jianxin. A survey of feature se⁃ lection algorithm[ J]. Electronic Design Engineering,2011, 19 (9): 46⁃51. [8]邱云飞,王威,刘大有,等.基于方差 CHI 的特征选择方法 [J].计算机应用研究, 2012, 29(4): 1301⁃1303. QIU Yunfei, WANG Wei, LIU Dayou, et al. CHI feature selection method based on variance [ J]. Application Re⁃ search of Computers, 2012, 29(4): 1301⁃1303. [9]ZHANG M L, ZHOU Z H. A review on multi⁃label learning algorithms[ J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 39(10): 1⁃43. [10]MATTHEW R B, LUO J B, SHEN X P, et al. Learning multi⁃label scene classification [ J]. Pattern Recognition, 2004, 37(9): 1757⁃1771. [11]READ J, PFAHRINGER B, HOLMES G, et al. Classifier chains for multi⁃label classification[ J].Machine Learning, 2011, 85(3): 333⁃359. [12]ZHANG M L, ZHOU Z H. ML⁃kNN: a lazy learning ap⁃ proach to multi⁃label learning [ J]. Pattern Recognition, 2007, 40(7): 2038 ⁃2048. 作者简介: 郭雨萌,男,1989 年生,博士研究 生,主要研究方向为模式识别与机器学 习等。 李国正,男,1977 年生,研究员,博 士生导师,博士,中国人工智能学会机 器学习专业委员会常务委员,主要研究 方向为模式识别和生物医学数据挖掘, 在研和完成国家自然科学基金项目、上 海市科委“创新行动计划”重大项目子课题等多项课题,发 表学术论文 100 余篇, 其中 SCI 检索 40 余篇,EI 检索 50 余 篇,参与撰写专著 6 部,主持翻译专著 1 部。 第 3 期 李国正,等:一种多标记数据的过滤式特征选择框架 ·297·