正在加载图片...
第9卷第3期 智能系统学报 Vol.9 No.3 2014年6月 CAAI Transactions on Intelligent Systems Jun.2014 D0:10.3969/j.issn.1673-4785.201403064 网s络出版地址:http:/www.cmki.net/kcms/doi/10.3969/j.issn.16734785.201403064.html 一种多标记数据的过滤式特征选择框架 郭雨萌,李国正 (同济大学电子与信息工程学院控制系,上海201804) 摘要:提出一种过滤式的多标记数据特征选择框架,并在卡方检验基础上进行实现和实验研究。该框架计算每个 特征在各个类标上的卡方检验,然后通过得分的统计值计算出每个特征的最终排序情况,选取了最大、平均、最小3 种统计值分别进行了实验比较。在5个评价指标、4个常用的多标记数据集和3个学习器上的对比实验表明,3种得 分统计方式各有优劣,但都能提高多标记学习的效果。 关键词:特征选择:多标记:过滤式:卡方检验 中图分类号:TP391文献标志码:A文章编号:1673-4785(2014)03-0292-06 中文引用格式:郭雨萌,李国正.一种多标记数据的过滤式特征选择框架[J].智能系统学报,2014,9(3):292-297. 英文引用格式:GUO Yumeng,LI Guozheng.A filter framework of the multi-label feature selection[J].CAAI Transactions on In- telligent Systems,2014,9(3):292-297. A filtering framework for the multi-label feature selection GUO Yumeng,LI Guozheng (School of Electronic and Information Engineering,Tongji University,Shanghai 201804,China) Abstract:The researchers of multi-label learning mainly focus on the classifier performance,regardless of the influ- ence of the dataset feature.This paper proposes a filter framework of the multi-labeled data feature selection.The al- gorithm implementation and experiment were carried out based on the Chi-square test.This framework calculates the CHI-square test for each feature on each label,and then the ranking order of each feature is computed by the statis- tics of the score.This paper considers three different types of statistical data (average,maximum,minimum)for the experimental comparisons.The contrasting experiments with the four common multi-label datasets with three classifiers and five evaluation criteria show that these three score statistical methods share both superior and inferior characteristics,but still improve the performance for multi-label learning problems. Keywords:feature selection;multi-label;filter;CHI-square test 多标记数据)中每个样本可以同时带有多个CC(classifier chain)和RAkEL(random k--labelsets) 类标,并且广泛地出现在不同的应用领域,比如文本 分类器是典型代表。而在算法适应类型中,MLkNN 分类、媒体标注、信息检索、生物信息学等。对于这 (multi-label k nearest neighbor),AdaBoost.MH(ada- 种数据的分析需要利用多标记学习技术2)。由于 boost multi-class hamming trees)RankSVM rank 大量不同的多标记学习技术被提出,所以该技术仍support vector machine)属于将一些先进的单标记分 是研究热点,目前可以分为问题转化和算法适应2 类器转化为多标记分类器的一类。LEAD(muli-la- 种类型。在问题转化类型中,BR(binary relevance), bel learning by exploiting label dependency)LIFT 收稿日期:2014-03-25.网络出版日期:2014-06-14 multi-label learning with label-specific features) 基金项目:国家自然科学基金资助项目(61273305). 器则更进一步,考虑到特征子集和利用类标的层级 通信作者:李国正.E-mail:gzi@tongji.edu.cm.第 9 卷第 3 期 智 能 系 统 学 报 Vol.9 №.3 2014 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2014 DOI:10.3969 / j.issn.1673⁃4785.201403064 网络出版地址:http: / / www.cnki.net / kcms/ doi / 10.3969 / j.issn.16734785.201403064.html 一种多标记数据的过滤式特征选择框架 郭雨萌,李国正 (同济大学 电子与信息工程学院控制系,上海 201804) 摘 要:提出一种过滤式的多标记数据特征选择框架,并在卡方检验基础上进行实现和实验研究。 该框架计算每个 特征在各个类标上的卡方检验,然后通过得分的统计值计算出每个特征的最终排序情况,选取了最大、平均、最小 3 种统计值分别进行了实验比较。 在 5 个评价指标、4 个常用的多标记数据集和 3 个学习器上的对比实验表明,3 种得 分统计方式各有优劣,但都能提高多标记学习的效果。 关键词:特征选择;多标记;过滤式;卡方检验 中图分类号: TP391 文献标志码:A 文章编号:1673⁃4785(2014)03⁃0292⁃06 中文引用格式:郭雨萌,李国正. 一种多标记数据的过滤式特征选择框架[J]. 智能系统学报, 2014, 9(3): 292⁃297. 英文引用格式:GUO Yumeng, LI Guozheng. A filter framework of the multi-label feature selection[J]. CAAI Transactions on In⁃ telligent Systems, 2014, 9(3): 292⁃297. A filtering framework for the multi⁃label feature selection GUO Yumeng, LI Guozheng (School of Electronic and Information Engineering, Tongji University, Shanghai 201804, China) Abstract:The researchers of multi⁃label learning mainly focus on the classifier performance, regardless of the influ⁃ ence of the dataset feature. This paper proposes a filter framework of the multi⁃labeled data feature selection. The al⁃ gorithm implementation and experiment were carried out based on the Chi⁃square test. This framework calculates the CHI⁃square test for each feature on each label, and then the ranking order of each feature is computed by the statis⁃ tics of the score. This paper considers three different types of statistical data ( average, maximum, minimum) for the experimental comparisons. The contrasting experiments with the four common multi⁃label datasets with three classifiers and five evaluation criteria show that these three score statistical methods share both superior and inferior characteristics, but still improve the performance for multi⁃label learning problems. Keywords:feature selection; multi⁃label; filter; CHI⁃square test 收稿日期:2014⁃03⁃25. 网络出版日期:2014⁃06⁃14. 基金项目:国家自然科学基金资助项目(61273305). 通信作者:李国正. E⁃mail:gzli@ tongji.edu.cn. 多标记数据[1] 中每个样本可以同时带有多个 类标,并且广泛地出现在不同的应用领域,比如文本 分类、媒体标注、信息检索、生物信息学等。 对于这 种数据的分析需要利用多标记学习技术[2 ⁃ 3] 。 由于 大量不同的多标记学习技术被提出,所以该技术仍 是研究热点,目前可以分为问题转化和算法适应 2 种类型。 在问题转化类型中,BR(binary relevance), CC( classifier chain) 和 RAkEL( random k⁃labelsets) 分类器是典型代表。 而在算法适应类型中,MLkNN (multi⁃label k nearest neighbor)、 AdaBoost.MH(ada⁃ boost multi⁃class hamming trees) 和 RankSVM ( rank support vector machine)属于将一些先进的单标记分 类器转化为多标记分类器的一类。 LEAD(multi⁃la⁃ bel learning by exploiting label dependency) 和 LIFT (multi⁃label learning with label⁃specific features)分类 器则更进一步,考虑到特征子集和利用类标的层级
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有