正在加载图片...
第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0L:10.11992tis.202006045 不完备数据中面向特征值更新的增量特征选择方法 唐荣,罗川,曹潜,王思朝 (四川大学计算机学院,四川成都610065) 摘要:实际应用中,数据常常表现出不完备性和动态性的特点。针对动态不完备数据中的特征选择问题,提 出了一种基于相容粗糙集模型和信息嫡理论的增量式特征选择方法。首先,建立了不完备信息系统中特征值 动态更新时论域上条件划分与决策分类的动态更新模式,分析了作为特征重要度评价准则的不完备相容信息 嫡的增量计算机制,并将该机制引入到启发式最优特征子集搜索过程中特征重要度的迭代计算,进一步设计了 不完备数据中面向特征值动态更新的增量式特征选择算法。最后,在标准UCI数据集上从分类精度、决策性 能和计算效率3个方面对文中所提出的增量算法的有效性和高效性进行了实验验证。 关键词:特征选择;维度约简;粗糙集;信息嫡;不完备数据;缺失值;启发式搜索:增量学习 中图分类号:TP18文献标志码:A 文章编号:1673-4785(2021)03-0493-09 中文引用格式:唐荣,罗川,曹潜,等.不完备数据中面向特征值更新的增量特征选择方法J儿.智能系统学报,2021,16(3): 493-501. 英文引用格式:TANG Rong,.LUO Chuan,.CAO Qian,etal.Incremental approach for feature selection in incomplete data while updating feature values J.CAAI transactions on intelligent systems,2021,16(3):493-501. Incremental approach for feature selection in incomplete data while updating feature values TANG Rong,LUO Chuan,CAO Qian,WANG Sizhao (College of Computer Science,Sichuan University,Chengdu 610065,China) Abstract:In practical application,data often exhibits incomplete and dynamic characteristics.For the feature selection problem in dynamic incomplete data,an incremental feature selection method based on the tolerance rough set model and information entropy theory is proposed.First,the update patterns of conditional partition and decision classification are established based on the variation of feature values in incomplete information systems.The incremental computing mechanism of incomplete tolerance information entropy as the evaluation criterion of feature importance is built sub- sequently.Such an incremental mechanism is integrated into the iterative calculation of feature importance during the heuristic search of optimal feature subset,and an incremental feature selection algorithm for dynamic variation of fea- ture values is developed.Finally,the effectiveness and efficiency of the proposed incremental algorithm are verified on several standard UCI datasets in terms of classification accuracy,decision performance,and computing efficiency. Keywords:feature selection;dimensional reduction;rough set;information entropy;incomplete data;missing values, heuristic search:incremental learning 特征选择的目标是在给定评价标准下选择非冗 性,在数据挖掘与知识发现中起着重要的作用山。 余的特征子集,其作为一项重要的数据预处理步骤, 数据中存在一些缺失值是一种非常普遍的现 能够有效地提高数据分析模型的准确性和高效 象,缺失值给数据中的分类知识带来了不一致性 问题。粗糙集理论是一种能够有效应对不精确、 收稿日期:2020-06-27. 不一致信息的数据建模与知识获取工具。近年来, 基金项目:国家自然科学基金项目(62076171):四川省科技厅 应用基础研究计划项目(2019YJ0084). 人们基于粗糙集理论针对不完备数据的特征选择 通信作者:罗川.E-mall:cluo@scu.edu.cn 间题进行了深人的分析和讨论。Kryszkiewicz)DOI: 10.11992/tis.202006045 不完备数据中面向特征值更新的增量特征选择方法 唐荣,罗川,曹潜,王思朝 (四川大学 计算机学院,四川 成都 610065) 摘 要:实际应用中,数据常常表现出不完备性和动态性的特点。针对动态不完备数据中的特征选择问题,提 出了一种基于相容粗糙集模型和信息熵理论的增量式特征选择方法。首先,建立了不完备信息系统中特征值 动态更新时论域上条件划分与决策分类的动态更新模式,分析了作为特征重要度评价准则的不完备相容信息 熵的增量计算机制,并将该机制引入到启发式最优特征子集搜索过程中特征重要度的迭代计算,进一步设计了 不完备数据中面向特征值动态更新的增量式特征选择算法。最后,在标准 UCI 数据集上从分类精度、决策性 能和计算效率 3 个方面对文中所提出的增量算法的有效性和高效性进行了实验验证。 关键词:特征选择;维度约简;粗糙集;信息熵;不完备数据;缺失值;启发式搜索;增量学习 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2021)03−0493−09 中文引用格式:唐荣, 罗川, 曹潜, 等. 不完备数据中面向特征值更新的增量特征选择方法 [J]. 智能系统学报, 2021, 16(3): 493–501. 英文引用格式:TANG Rong, LUO Chuan, CAO Qian, et al. Incremental approach for feature selection in incomplete data while updating feature values[J]. CAAI transactions on intelligent systems, 2021, 16(3): 493–501. Incremental approach for feature selection in incomplete data while updating feature values TANG Rong,LUO Chuan,CAO Qian,WANG Sizhao (College of Computer Science, Sichuan University, Chengdu 610065, China) Abstract: In practical application, data often exhibits incomplete and dynamic characteristics. For the feature selection problem in dynamic incomplete data, an incremental feature selection method based on the tolerance rough set model and information entropy theory is proposed. First, the update patterns of conditional partition and decision classification are established based on the variation of feature values in incomplete information systems. The incremental computing mechanism of incomplete tolerance information entropy as the evaluation criterion of feature importance is built sub￾sequently. Such an incremental mechanism is integrated into the iterative calculation of feature importance during the heuristic search of optimal feature subset, and an incremental feature selection algorithm for dynamic variation of fea￾ture values is developed. Finally, the effectiveness and efficiency of the proposed incremental algorithm are verified on several standard UCI datasets in terms of classification accuracy, decision performance, and computing efficiency. Keywords: feature selection; dimensional reduction; rough set; information entropy; incomplete data; missing values; heuristic search; incremental learning 特征选择的目标是在给定评价标准下选择非冗 余的特征子集,其作为一项重要的数据预处理步骤, 能够有效地提高数据分析模型的准确性和高效 性,在数据挖掘与知识发现中起着重要的作用[1]。 数据中存在一些缺失值是一种非常普遍的现 象,缺失值给数据中的分类知识带来了不一致性 问题[2]。粗糙集理论是一种能够有效应对不精确、 不一致信息的数据建模与知识获取工具。近年来, 人们基于粗糙集理论针对不完备数据的特征选择 问题进行了深入的分析和讨论。Kryszkiewicz[3] 收稿日期:2020−06−27. 基金项目:国家自然科学基金项目 (62076171);四川省科技厅 应用基础研究计划项目 (2019YJ0084) . 通信作者:罗川. E-mall:cluo@scu.edu.cn. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有