正在加载图片...
第14卷第5期 智能系统学报 Vol.14 No.5 2019年9月 CAAI Transactions on Intelligent Systems Sep.2019 D0:10.11992/tis.201807027 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190525.1801.002.html 代价敏感数据的多标记特征选择算法 黄琴2,钱文彬2,王映龙,吴兵龙 (1.江西农业大学计算机与信息工程学院,江西南昌330045,2.江西农业大学软件学院,江西南昌330045) 摘要:在多标记学习中,特征选择是提升多标记学习分类性能的有效手段。针对多标记特征选择算法计算复 杂度较大且未考虑到现实应用中数据的获取往往需要花费代价,本文提出了一种面向代价敏感数据的多标记 特征选择算法。该算法利用信息嫡分析特征与标记之间的相关性,重新定义了一种基于测试代价的特征重要 度准则,并根据服从正态分布的特征重要度和特征代价的标准差,给出一种合理的阈值选择方法,同时通过阈 值剔除冗余和不相关特征,得到低总代价的特征子集。通过在多标记数据的实验对比和分析,表明该方法的有 效性和可行性。 关键词:特征选择;属性约简;代价敏感:粗糙集:粒计算;多标记学习;信息嫡:正态分布 中图分类号:TP391 文献标志码:A 文章编号:1673-4785(2019)05-0929-10 中文引用格式:黄琴,钱文彬,王映龙,等.代价敏感数据的多标记特征选择算法.智能系统学报,2019,14(5):929-938, 英文引用格式:HUANG Qin,QIAN Wenbin,.VANG Yinglong,et aL.Multi-.label feature selection algorithm for cost-sensitive data[J.CAAI transactions on intelligent systems,2019,14(5):929-938. Multi-label feature selection algorithm for cost-sensitive data HUANG Qin2,QIAN Wenbin,WANG Yinglong',WU Binglong? (1.School of Computer and Information Engineering.Jiangxi Agricultural University,Nanchang 330045,China;2.School of Soft- ware,Jiangxi Agricultural University,Nanchang 330045,China) Abstract:In multi-label learning,feature selection is an effective means to improve multi-label learning classification performance.Aiming at the problem that the existing multi-label feature selection methods have high computation com- plexity and do not consider the cost of data acquisition in real-world applications,this paper proposes a multi-label fea- ture selection algorithm for cost-sensitive data.The algorithm first analyzes the relevance between the feature and label based on information entropy,and redefines a criterion for feature significance by employing feature test cost,it then gives a reasonable threshold selection method on the basis of the standard deviation of feature significance and feature cost that obey normal distribution.At the same time,the algorithm derives the feature subsets with low total cost by re- moving redundant and irrelevant features according to a threshold.Finally,the effectiveness and feasibility of the pro- posed algorithm are verified by the comparison and analysis of the experimental results on a multi-labeled dataset. Keywords:feature selection;attribute reduction;cost-sensitive;rough sets;granular computing;multi-label learning;in- formation entropy;normal distribution 随着物联网及信息技术的发展,数据资源呈 能满足现实应用的需求,因此多标记学习的重要 海量特征。在数据量不断增大的同时,数据标注 性逐渐突显。在多标记学习中,每个样本在一个 结构的复杂度也在增加,传统的单标记学习已不 特征向量下,可能同时隶属于多个类别标记。近 年来,多标记学习问题已成为机器学习、数据挖 收稿日期:2018-07-26.网络出版日期:2019-05-27. 基金项目:国家自然科学基金项目(61502213.61662023):江西 掘和模式识别等领域的研究热点之一。 省自然科学基金项日(20161BAB212047):江西省教 育厅科技项目(GJ180200). 波兰数学家Pawlak教授于1982年提出的粗 通信作者:钱文彬.E-mail:qianwenbinl027@l26.com 糙集理论是一种用于处理不精确、不完全和不相DOI: 10.11992/tis.201807027 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190525.1801.002.html 代价敏感数据的多标记特征选择算法 黄琴1,2,钱文彬1,2,王映龙1 ,吴兵龙2 (1. 江西农业大学 计算机与信息工程学院,江西 南昌 330045; 2. 江西农业大学 软件学院,江西 南昌 330045) 摘 要:在多标记学习中,特征选择是提升多标记学习分类性能的有效手段。针对多标记特征选择算法计算复 杂度较大且未考虑到现实应用中数据的获取往往需要花费代价,本文提出了一种面向代价敏感数据的多标记 特征选择算法。该算法利用信息熵分析特征与标记之间的相关性,重新定义了一种基于测试代价的特征重要 度准则,并根据服从正态分布的特征重要度和特征代价的标准差,给出一种合理的阈值选择方法,同时通过阈 值剔除冗余和不相关特征,得到低总代价的特征子集。通过在多标记数据的实验对比和分析,表明该方法的有 效性和可行性。 关键词:特征选择;属性约简;代价敏感;粗糙集;粒计算;多标记学习;信息熵;正态分布 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)05−0929−10 中文引用格式:黄琴, 钱文彬, 王映龙, 等. 代价敏感数据的多标记特征选择算法 [J]. 智能系统学报, 2019, 14(5): 929–938. 英文引用格式:HUANG Qin, QIAN Wenbin, WANG Yinglong, et al. Multi-label feature selection algorithm for cost-sensitive data[J]. CAAI transactions on intelligent systems, 2019, 14(5): 929–938. Multi-label feature selection algorithm for cost-sensitive data HUANG Qin1,2 ,QIAN Wenbin1,2 ,WANG Yinglong1 ,WU Binglong2 (1. School of Computer and Information Engineering, Jiangxi Agricultural University, Nanchang 330045, China; 2. School of Soft￾ware, Jiangxi Agricultural University, Nanchang 330045, China) Abstract: In multi-label learning, feature selection is an effective means to improve multi-label learning classification performance. Aiming at the problem that the existing multi-label feature selection methods have high computation com￾plexity and do not consider the cost of data acquisition in real-world applications, this paper proposes a multi-label fea￾ture selection algorithm for cost-sensitive data. The algorithm first analyzes the relevance between the feature and label based on information entropy, and redefines a criterion for feature significance by employing feature test cost; it then gives a reasonable threshold selection method on the basis of the standard deviation of feature significance and feature cost that obey normal distribution. At the same time, the algorithm derives the feature subsets with low total cost by re￾moving redundant and irrelevant features according to a threshold. Finally, the effectiveness and feasibility of the pro￾posed algorithm are verified by the comparison and analysis of the experimental results on a multi-labeled dataset. Keywords: feature selection; attribute reduction; cost-sensitive; rough sets; granular computing; multi-label learning; in￾formation entropy; normal distribution 随着物联网及信息技术的发展,数据资源呈 海量特征。在数据量不断增大的同时,数据标注 结构的复杂度也在增加,传统的单标记学习已不 能满足现实应用的需求,因此多标记学习的重要 性逐渐突显。在多标记学习中,每个样本在一个 特征向量下,可能同时隶属于多个类别标记。近 年来,多标记学习问题已成为机器学习、数据挖 掘和模式识别等领域的研究热点之一[1-4]。 波兰数学家 Pawlak 教授于 1982 年提出的粗 糙集理论是一种用于处理不精确、不完全和不相 收稿日期:2018−07−26. 网络出版日期:2019−05−27. 基金项目:国家自然科学基金项目 (61502213,61662023);江西 省自然科学基金项目 (20161BAB212047);江西省教 育厅科技项目 (GJJ180200). 通信作者:钱文彬. E-mail: qianwenbin1027@126.com. 第 14 卷第 5 期 智 能 系 统 学 报 Vol.14 No.5 2019 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2019
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有