第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201905049 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20190830.1438.004.html 基于三支决策的序列数据代价敏感分类算法 刘牧雷,徐菲菲 (上海电力学院计算机科学与技术学院,上海200090)】 摘要:代价敏感分类区别于一般分类方法,更关注高代价类别的分类准确性而容忍全局分类的准确性。三支 决策作为一种代价敏感分类问题的解决思路,缺乏对序列数据的支持。结合LSTM模型处理序列数据的能力, 提出一种使用三支决策(3WD)改进的序列数据分类方法。方法经过LSTM网络对原数据进行粗分类;对分类 结果进行整体代价评估:最终,对高风险分类进行延迟或拒绝处理。方法在4个数据集上进行了测试,并进行 了2组对比实验。实验结果表明:本文方法在不改变LSTM模型的情况下,对LSTM模型的分类结果进行了代 价区分。 关键词:代价敏感:三支决策;长短期记忆网络;序列数据分类;分类算法;高代价类别:代价评估 中图分类号:TP181文献标志码:A文章编号:1673-4785(2019)06-1255-07 中文引用格式:刘牧雷,徐菲菲.基于三支决策的序列数据代价敏感分类算法.智能系统学报,2019,14(6):1255-1261. 英文引用格式:LIU Mulei,,XU Feifei..A sequence data,cost-sensitive classification algorithm based on three-way decisionsJ. CAAI transactions on intelligent systems,2019,14(6):1255-1261. A sequence data,cost-sensitive classification algorithm based on three-way decisions LIU Mulei,XU Feifei (School of Computer Science and Technology,Shanghai University of Electric Power,Shanghai 200090,China) Abstract:Cost-sensitive classification is different from the general classification method,which pays more attention to the classification accuracy of high-cost categories,but tolerates the accuracy of global classification.Three-way de- cisions are a solution to a cost-sensitive classification problem and lack support for sequence data.Combined with the ability of the LSTM model in sequence data processing,a method for classifying sequence data a using three-way de- cision method (3WD)is proposed.First,a general classification of the original data was done through the LSTM net- work;second,an overall cost estimate was performed on the classification result of step one;finally,the high-risk result was delayed or rejected.Methods were tested on four data sets and two sets of comparative experiments were per- formed.Experimental results showed that the new method distinguished the classification results of the LSTM model without changing the original structure. Keywords:cost-sensitive;three-way decision;LSTM:sequence data classification;classification algorithm;high-cost categorie;cost estimate 当前,LSTM作为深度学习的一种处理序列 方式来使分类器获得对某一类代价敏感类别更高 数据最为流行的解决方案,拥有着较传统方案更 的关注从而实现减少整体的代价。但是这种方 加实用性强且准确率高的特点②。但是,基于深 法的缺点如前文所述。为了训练对高代价分类敏 度学习的代价敏感决策仍未得到主流的研究关 感的模型,筛选出的数据集将会面临严重的数据 注。当前的研究重点多集中于如何更高效的获得 不平衡问题。而无论是填充或者再平衡的方式, 精确的整体准确率。在有关于深度学习的代价敏 都会使原数据集的结构改变。其次,无论是对 感分类或决策问题上,当前的算法常见解决方案 数据集的预处理还是对运行参数或者模型结构的 多集中于通过对数据的预处理和运行参数调整的 调整,都与具体问题相关性较大”。对于不同的 具体问题,数据清洗和参数调整或模型调整的优 收稿日期:2019-05-26.网络出版日期:2019-08-30 通信作者:徐菲菲.E-mail:xufeifeil983@hotmail.com 劣与模型设计者的经验与对问题的了解有着较大DOI: 10.11992/tis.201905049 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190830.1438.004.html 基于三支决策的序列数据代价敏感分类算法 刘牧雷,徐菲菲 (上海电力学院 计算机科学与技术学院,上海 200090) 摘 要:代价敏感分类区别于一般分类方法,更关注高代价类别的分类准确性而容忍全局分类的准确性。三支 决策作为一种代价敏感分类问题的解决思路,缺乏对序列数据的支持。结合 LSTM 模型处理序列数据的能力, 提出一种使用三支决策 (3WD) 改进的序列数据分类方法。方法经过 LSTM 网络对原数据进行粗分类;对分类 结果进行整体代价评估;最终,对高风险分类进行延迟或拒绝处理。方法在 4 个数据集上进行了测试,并进行 了 2 组对比实验。实验结果表明:本文方法在不改变 LSTM 模型的情况下,对 LSTM 模型的分类结果进行了代 价区分。 关键词:代价敏感;三支决策;长短期记忆网络;序列数据分类;分类算法;高代价类别;代价评估 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2019)06−1255−07 中文引用格式:刘牧雷, 徐菲菲. 基于三支决策的序列数据代价敏感分类算法 [J]. 智能系统学报, 2019, 14(6): 1255–1261. 英文引用格式:LIU Mulei, XU Feifei. A sequence data, cost-sensitive classification algorithm based on three-way decisions[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1255–1261. A sequence data, cost-sensitive classification algorithm based on three-way decisions LIU Mulei,XU Feifei (School of Computer Science and Technology, Shanghai University of Electric Power, Shanghai 200090, China) Abstract: Cost-sensitive classification is different from the general classification method, which pays more attention to the classification accuracy of high-cost categories, but tolerates the accuracy of global classification. Three-way decisions are a solution to a cost-sensitive classification problem and lack support for sequence data. Combined with the ability of the LSTM model in sequence data processing, a method for classifying sequence data a using three-way decision method (3WD) is proposed. First, a general classification of the original data was done through the LSTM network; second, an overall cost estimate was performed on the classification result of step one; finally, the high-risk result was delayed or rejected. Methods were tested on four data sets and two sets of comparative experiments were performed. Experimental results showed that the new method distinguished the classification results of the LSTM model without changing the original structure. Keywords: cost-sensitive; three-way decision; LSTM; sequence data classification; classification algorithm; high-cost categorie; cost estimate 当前,LSTM 作为深度学习的一种处理序列 数据最为流行的解决方案,拥有着较传统方案更 加实用性强且准确率高的特点[1-2]。但是,基于深 度学习的代价敏感决策仍未得到主流的研究关 注。当前的研究重点多集中于如何更高效的获得 精确的整体准确率。在有关于深度学习的代价敏 感分类或决策问题上,当前的算法常见解决方案 多集中于通过对数据的预处理和运行参数调整的 方式来使分类器获得对某一类代价敏感类别更高 的关注从而实现减少整体的代价[3]。但是这种方 法的缺点如前文所述。为了训练对高代价分类敏 感的模型,筛选出的数据集将会面临严重的数据 不平衡问题。而无论是填充或者再平衡的方式, 都会使原数据集的结构改变[4]。其次,无论是对 数据集的预处理还是对运行参数或者模型结构的 调整,都与具体问题相关性较大[5-7]。对于不同的 具体问题,数据清洗和参数调整或模型调整的优 劣与模型设计者的经验与对问题的了解有着较大 收稿日期:2019−05−26. 网络出版日期:2019−08−30. 通信作者:徐菲菲. E-mail:xufeifei1983@hotmail.com. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019