第17卷第2期 智能系统学报 Vol.17 No.2 2022年3月 CAAI Transactions on Intelligent Systems Mar.2022 D0:10.11992/tis.202012048 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20211012.1841.002.html 面向混合数据的代价敏感三支决策边界域分类方法 周阳阳',钱文彬2王映龙,彭莉莎3,曾武序 (1,江西农业大学计算机与信息工程学院,江西南昌330045,2.江西农业大学软件学院,江西南昌330045: 3.南京大学工程管理学院.江苏南京210046) 摘要:针对现有三支决策模型的研究对象多为单一性数据的决策系统,对于混合数据边界域样本处理的研究 相对较少,本文面向混合数据提出了基于核属性的代价敏感三支决策边界域分类方法。该方法基于正域约简 计算混合邻域决策系统的核属性集,在此基础上计算混合邻域类,并利用三支决策规则分别将对象划分到各决 策类的正域、边界域和负域:提出了一种基于代价敏感学习的三支决策边界域分类方法,并构造了误分类代价 的计算方法,以此划分边界域中的对象。通过对UCI上的10个数据集进行实验对比与分析,进一步验证了本 文方法,为处理边界域样本提供了一种可行有效的方法。 关键词:三支决策:粒计算;代价敏感;混合数据:正域约简;边界域样本处理:粗糙集;核属性 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2022)02-0411-09 中文引用格式:周阳阳,钱文彬,王映龙,等.面向混合数据的代价敏感三支决策边界域分类方法J.智能系统学报,2022, 17(2):411-419. 英文引用格式:ZHOU Yangyang,.QIAN Wenbin,WANG Yinglong,etal.Classification method of cost--sensitive three-way de- cision boundary region for hybrid data[Jl.CAAI transactions on intelligent systems,2022,17(2):411-419. Classification method of cost-sensitive three-way decision boundary region for hybrid data ZHOU Yangyang',QIAN Wenbin,WANG Yinglong',PENG Lisha',ZENG Wuxu (1.School of Computer and Information Engineering,Jiangxi Agricultural University,Nanchang 330045,China;2.School of Sof- ware,Jiangxi Agricultural University,Nanchang 330045,China;3.School of Engineering Management,Nanjing University,Nanjing 210046,China) Abstract:The research objects of existing three-way decisions models are mostly decision-making systems with single data.Relatively few studies on the boundary region sample processing of mixed data have been conducted.To address this issue,a classification method of a cost-sensitive three-way decision boundary region based on core attributes for hy- brid data is proposed in this study.This method computes the core attribute set of the hybrid neighborhood decision sys- tem based on positive domain reduction.On this basis,the hybrid neighborhood class is calculated,and the objects are divided into the positive,boundary,and negative regions of each decision-making class through three-way decision rules.The classification method of the three-way decision boundary region based on cost-sensitive learning is proposed. Then,a calculation method of the misclassification cost is constructed to divide the objects in the boundary region.Ex- periments and analyses are performed on 10 datasets of UCI,which show the feasibility and the effectiveness of the pro- posed method for the processing of boundary region samples. Keywords:three-way decisions;granular computing;cost sensitive;hybrid data;positive domain reduction;boundary region sample processing;rough set;core attribute 收稿日期:2020-12-28.网络出版日期:2021-10-13 三支决策是加拿大学者Yao-21提出的一种 基金项目:国家重点研发计划项目(2020Y℉D1100605):国家自 然科学基金项目(61966016):江西省自然科学基金项 “化繁为简”决策理论,它从粒计算视角将论域划 目(20192BAB207018);江西省研究生创新专项基金 分为三个互不相交的论域子空间,并对其分别采 项目(YC2020-S236). 通信作者:钱文彬.E-mail:qianwenbinl027@l26.com 取不同的应对策略,这种分而治之的思想,可有
DOI: 10.11992/tis.202012048 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20211012.1841.002.html 面向混合数据的代价敏感三支决策边界域分类方法 周阳阳1 ,钱文彬1,2,王映龙1 ,彭莉莎3 ,曾武序1 (1. 江西农业大学 计算机与信息工程学院,江西 南昌 330045; 2. 江西农业大学 软件学院,江西 南昌 330045; 3. 南京大学 工程管理学院,江苏 南京 210046) 摘 要:针对现有三支决策模型的研究对象多为单一性数据的决策系统,对于混合数据边界域样本处理的研究 相对较少,本文面向混合数据提出了基于核属性的代价敏感三支决策边界域分类方法。该方法基于正域约简 计算混合邻域决策系统的核属性集,在此基础上计算混合邻域类,并利用三支决策规则分别将对象划分到各决 策类的正域、边界域和负域;提出了一种基于代价敏感学习的三支决策边界域分类方法,并构造了误分类代价 的计算方法,以此划分边界域中的对象。通过对 UCI 上的 10 个数据集进行实验对比与分析,进一步验证了本 文方法,为处理边界域样本提供了一种可行有效的方法。 关键词:三支决策;粒计算;代价敏感;混合数据;正域约简;边界域样本处理;粗糙集;核属性 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2022)02−0411−09 中文引用格式:周阳阳, 钱文彬, 王映龙, 等. 面向混合数据的代价敏感三支决策边界域分类方法 [J]. 智能系统学报, 2022, 17(2): 411–419. 英文引用格式:ZHOU Yangyang, QIAN Wenbin, WANG Yinglong, et al. Classification method of cost-sensitive three-way decision boundary region for hybrid data[J]. CAAI transactions on intelligent systems, 2022, 17(2): 411–419. Classification method of cost-sensitive three-way decision boundary region for hybrid data ZHOU Yangyang1 ,QIAN Wenbin1,2 ,WANG Yinglong1 ,PENG Lisha3 ,ZENG Wuxu1 (1. School of Computer and Information Engineering, Jiangxi Agricultural University, Nanchang 330045, China; 2. School of Software, Jiangxi Agricultural University, Nanchang 330045, China; 3. School of Engineering Management, Nanjing University, Nanjing 210046, China) Abstract: The research objects of existing three-way decisions models are mostly decision-making systems with single data. Relatively few studies on the boundary region sample processing of mixed data have been conducted. To address this issue, a classification method of a cost-sensitive three-way decision boundary region based on core attributes for hybrid data is proposed in this study. This method computes the core attribute set of the hybrid neighborhood decision system based on positive domain reduction. On this basis, the hybrid neighborhood class is calculated, and the objects are divided into the positive, boundary, and negative regions of each decision-making class through three-way decision rules. The classification method of the three-way decision boundary region based on cost-sensitive learning is proposed. Then, a calculation method of the misclassification cost is constructed to divide the objects in the boundary region. Experiments and analyses are performed on 10 datasets of UCI, which show the feasibility and the effectiveness of the proposed method for the processing of boundary region samples. Keywords: three-way decisions; granular computing; cost sensitive; hybrid data; positive domain reduction; boundary region sample processing; rough set; core attribute 三支决策是加拿大学者 Yao[1-2] 提出的一种 “化繁为简”决策理论,它从粒计算视角将论域划 分为三个互不相交的论域子空间,并对其分别采 取不同的应对策略,这种分而治之的思想,可有 收稿日期:2020−12−28. 网络出版日期:2021−10−13. 基金项目:国家重点研发计划项目 (2020YFD1100605);国家自 然科学基金项目 (61966016); 江西省自然科学基金项 目 (20192BAB207018);江西省研究生创新专项基金 项目(YC2020-S236). 通信作者:钱文彬. E-mail: qianwenbin1027@126.com. 第 17 卷第 2 期 智 能 系 统 学 报 Vol.17 No.2 2022 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2022
·412· 智能系统学报 第17卷 效提高决策准确度,降低误分类代价。三支决策 相对较少。 理论模拟人类认知、学习和决策的过程,可处理 为此,本文提出了一种面向混合数据的代价 决策过程中出现的不确定性问题。近年来,三支 敏感三支决策边界域分类方法。首先,基于正域 决策理论引起了许多研究者的关注,已成为了粒 约简,提出了面向混合数据的属性约简模型;然 计算和知识发现领域中的一个重要研究方向。目前, 后,提出了一种基于代价敏感的三支决策边界域 三支决策在众多应用领域中得到广泛的应用,如 样本处理方法,在贝叶斯最小风险的基础上构造 人脸识别回、推荐系统、决策系统和邮件过滤可 误分类代价公式,划分边界域中的对象。最后, 等:为了处理复杂的应用场景,提出了不同的计 对UCI上的10个数据集进行实验,结果表明该方 算模型,如序贯三支决策B1、优化三支决策、前 法能够降低误分类代价,而且能较准确地划分边 景三支决策、三支模糊集1和三支约简回等。 界域中的对象;这为三支决策的边界域样本处理 在实际应用中,代价是影响三支决策划分的 提供了一种可借鉴的方法。 重要因素之一。代价敏感学习能够有效缓解分类 过程中的数据不平衡问题,其主要作用是处理决 1基本知识 策过程和结果产生的各类代价问题。代价敏感学 1.1邻域粗糙集 习主要研究两种代价:误分类代价(结果代价)和 在粗糙集理论四中,给定一个四元组决策系统: 测试代价,两者互相关联,呈负相关。如在医疗诊 DS=U,A,=CUD,VlaEA,],(IlaEA,l 断中,患者想要获得更高的诊断准确率(即决策 其中U={x1,2,…,x表示有限非空的对象全集, 代价越低),就需要做更多的检查(即测试代价越 称为论域或者对象空间:A,表示有限非空的属性 高)。由于代价是数据的内在特征,将其与知识发 全集,由条件属性和决策属性共同组成;C={a, 现结合会使得问题更具有普适性,目前,代价敏 a2,…,an表示有限非空的条件属性全集;D表示决 感学习已经应用到现实生活中的许多领域,如: 策属性;V表示aeC的属性值集;lU×A,→V是一 人脸识别、价格预测和客户信用评价等。 个信息函数,能给每个对象的每个属性赋值,即 因此,基于代价敏感的三支决策算法与模型 la(x)→Vao 引起了许多学者的关注和研究,已取得重要的研 定义12)给定混合邻域决策系统DN={U, 究成果。Fang等81将信息粒度纳入决策分析过 FDUFC,D,Va,Ia,6,距离度量函数△N:U×U,给定 程,同时考虑决策过程和决策结果的代价,分别 属性子集B二C和邻域参数δ,则对象x和y基于B的 设计了两种不同的算法以最小化决策过程和决策 邻域关系为 结果代价。Fang等6提出了一种三支决策和可 NR(B)={(x,y∈U×U1△WB(x,y)≤6 分辨矩阵的框架,在此框架下分别设计了基于删 对Yx∈U,x的邻域粒度可表示为 除和增加的代价敏感近似属性约简算法。Ja等叨 6s(x)=x,y∈U△Ns(xy)≤ 构造了一种可以直接应用于传统的代价敏感学习 式中:FD为离散属性集合;FC为连续属性集合; 问题的三支决策模型,在此基础上,提出基于多 6是邻域参数。 类三支决策模型的多阶段代价敏感学习方法。L 12三支决策粗糙集 等!为从输入图像中顺序提取分层粒度结构,提 三支决策粗糙集2通过2个状态集和3个动 出了一种基于DNN的顺序粒度特征提取方法, 作集来描述其决策过程。其中,状态集S={X,X) 在此基础上,提出一种代价敏感的序贯三支决策 分别表示对象属于概念X和不属于概念X,动作集 模型。Yang等考虑了用户需求,提出一种基 A={ap,as,aw表示对于不同状态分别采取接受、延 于模糊粗糙集的序贯三支决策模型的优化机制, 迟和拒绝3种不同的动作。由于采取不同动作会 用来实现对代价敏感的最优粒度选择。Ma等2o 产生不同的损失,记p、AP、wp表示当x∈X时, 定义了三支特定类的最低代价约简,分别设计了 分别采取动作ap、as和aw产生的风险损失值;同样 基于添加一删除策略和删除策略来构建特定类的 地,记pw、BN、ww表示当x∈X时,分别采取动 最小代价约简算法。以上算法与模型能够最小化 作ap、ag和aw产生的风险损失值;损失之间的关系 结果代价或过程代价。而在许多应用领域中往往 满足:r<r<NP,ww<N<pw。在实际应用 需要从代价敏感视角来分析三支决策边界域样 中,这些损失值通过专家的经验获取。 本,目前三支决策的研究对象多为单一性数据的 定义2川在决策系统DS={U,CUD,V,}中, 决策系统,对于混合数据边界域样本处理的研究 令X为论域U基于决策属性D的划分,α和B为三支
效提高决策准确度,降低误分类代价。三支决策 理论模拟人类认知、学习和决策的过程,可处理 决策过程中出现的不确定性问题。近年来,三支 决策理论引起了许多研究者的关注,已成为了粒 计算和知识发现领域中的一个重要研究方向。目前, 三支决策在众多应用领域中得到广泛的应用,如 人脸识别[3] 、推荐系统[4-5] 、决策系统[6] 和邮件过滤[7] 等;为了处理复杂的应用场景,提出了不同的计 算模型,如序贯三支决策[3,8] 、优化三支决策[9] 、前 景三支决策[10] 、三支模糊集[11] 和三支约简[12] 等。 在实际应用中,代价是影响三支决策划分的 重要因素之一。代价敏感学习能够有效缓解分类 过程中的数据不平衡问题,其主要作用是处理决 策过程和结果产生的各类代价问题。代价敏感学 习主要研究两种代价:误分类代价(结果代价)和 测试代价,两者互相关联,呈负相关。如在医疗诊 断中,患者想要获得更高的诊断准确率(即决策 代价越低),就需要做更多的检查(即测试代价越 高)。由于代价是数据的内在特征,将其与知识发 现结合会使得问题更具有普适性,目前,代价敏 感学习已经应用到现实生活中的许多领域,如: 人脸识别[13] 、价格预测[14] 和客户信用评价[15] 等。 因此,基于代价敏感的三支决策算法与模型 引起了许多学者的关注和研究,已取得重要的研 究成果。Fang 等 [8] 将信息粒度纳入决策分析过 程,同时考虑决策过程和决策结果的代价,分别 设计了两种不同的算法以最小化决策过程和决策 结果代价。Fang 等 [16] 提出了一种三支决策和可 分辨矩阵的框架,在此框架下分别设计了基于删 除和增加的代价敏感近似属性约简算法。Jia 等 [17] 构造了一种可以直接应用于传统的代价敏感学习 问题的三支决策模型,在此基础上,提出基于多 类三支决策模型的多阶段代价敏感学习方法。Li 等 [18] 为从输入图像中顺序提取分层粒度结构,提 出了一种基于 DNN 的顺序粒度特征提取方法, 在此基础上,提出一种代价敏感的序贯三支决策 模型。Yang 等 [19] 考虑了用户需求, 提出一种基 于模糊粗糙集的序贯三支决策模型的优化机制, 用来实现对代价敏感的最优粒度选择。Ma 等 [20] 定义了三支特定类的最低代价约简,分别设计了 基于添加−删除策略和删除策略来构建特定类的 最小代价约简算法。以上算法与模型能够最小化 结果代价或过程代价。而在许多应用领域中往往 需要从代价敏感视角来分析三支决策边界域样 本,目前三支决策的研究对象多为单一性数据的 决策系统,对于混合数据边界域样本处理的研究 相对较少。 为此,本文提出了一种面向混合数据的代价 敏感三支决策边界域分类方法。首先,基于正域 约简,提出了面向混合数据的属性约简模型;然 后,提出了一种基于代价敏感的三支决策边界域 样本处理方法,在贝叶斯最小风险的基础上构造 误分类代价公式,划分边界域中的对象。最后, 对 UCI 上的 10 个数据集进行实验,结果表明该方 法能够降低误分类代价,而且能较准确地划分边 界域中的对象;这为三支决策的边界域样本处理 提供了一种可借鉴的方法。 1 基本知识 1.1 邻域粗糙集 在粗糙集理论[21] 中,给定一个四元组决策系统: DS = { U,At = C ∪ D, { Va|a ∈ At } , { Ia|a ∈ At }} U = {x1, x2,··· , xn} At C = {a1, a2,··· ,an} D Va a ∈ C Ia|U × At → V Ia(x) → Va 其中 表示有限非空的对象全集, 称为论域或者对象空间; 表示有限非空的属性 全集,由条件属性和决策属性共同组成; 表示有限非空的条件属性全集; 表示决 策属性; 表示 的属性值集; 是一 个信息函数,能给每个对象的每个属性赋值,即 。 DN = {U, F D ∪ F C ,D,Va,Ia,δ} ∆N : U ×U B ⊆ C δ x y B 定义 1 [22] 给定混合邻域决策系统 ,距离度量函数 ,给定 属性子集 和邻域参数 ,则对象 和 基于 的 邻域关系为 NRδ (B) = { (x, y) ∈ U ×U|∆NB(x, y) ⩽ δ } 对 ∀x ∈ U,x的邻域粒度可表示为 δB(x) = {y|x, y ∈ U,∆NB(x, y) ⩽ δ} F D F C δ 式中: 为离散属性集合; 为连续属性集合; 是邻域参数。 1.2 三支决策粗糙集 S = {X,¬X} X X A = {aP,aB,aN} λPP、λBP、λNP x ∈ X aP、aB aN λPN、λBN、λNN x ∈ ¬X aP、aB aN λPP < λBP < λNP λNN < λBN < λPN 三支决策粗糙集[23] 通过 2 个状态集和 3 个动 作集来描述其决策过程。其中,状态集 分别表示对象属于概念 和不属于概念 ,动作集 表示对于不同状态分别采取接受、延 迟和拒绝 3 种不同的动作。由于采取不同动作会 产生不同的损失,记 表示当 时, 分别采取动作 和 产生的风险损失值;同样 地,记 表示当 时,分别采取动 作 和 产生的风险损失值;损失之间的关系 满足: , 。在实际应用 中,这些损失值通过专家的经验获取。 DS = {U,C ∪ D,Va,Ia} X U D α β 定义 2 [1] 在决策系统 中, 令 为论域 基于决策属性 的划分, 和 为三支 ·412· 智 能 系 统 学 报 第 17 卷
第2期 周阳阳,等:面向混合数据的代价敏感三支决策边界域分类方法 ·413· 决策的阈值,P(X[)表示对象x的条件概率,对于 定义4给定混合邻域决策系统DN={U,FDU x∈U,根据贝叶斯决策过程,计算得到最小成本 FC,D,Va,Ia,l,令D为论域U基于决策属性D的划 准则的三支决策规则: 分,则混合邻域决策系统的上下近似表示为: POS(X)={xEUla≤P(XI[x])≤1} AN(D)={x∈Ul6c(x)sDl BND(X)={x∈UlB≤PXI[x)≤a AN(D)={xeUl6c()nD,≠O例 NEG(X)={x∈UIO≤P(XI[x)≤ 通过上下近似集,可知特征子集B上的正域 其中,PX[=XnL国,H表示对象的个数: 如下: Ifll (dPw-Asw)】 POSc(D)=AN(D)=[xEUl6c(x)C D;] a=Cpw-sw-dan-p)】 定义5给定混合邻域决策系统DN={U, B= (ABN -ANN) FDUFC,D,Va,Ia,,令属性a,∈C,则混合邻域决策 (ABN -ANN)-(ANP -ABP) 系统中基于三支决策的核属性集定义为: 其中,正域POS(X)、负域NEG(X)和边界域BNDX) CORE(C)=a llPOSc(D)I-IPOSC-1(D)I>0} 分别对应三支决策规则中的接受、拒绝和不承诺 以表1为例,给出一个混合邻域决策系统, 规则,且满足:POS(X)UBND(X)UNEG(X)=X;仅 其中,U={x,,…,xol为对象集,C={a1,a2,…,a6 当X=U时,POS(X)UBND(X)UNEG(X)=U。 为条件属性集,决策类UID={D,D2},分别为 1.3代价敏感学习 D1={x1,x3,x,x6,7,xg},D2={x2,X4xg,X10l。 代价敏感学习主要研究误分类代价和测试代 表1混合邻域决策系统DN 价,由于本文中考虑了其误分类代价,误分类代 Table 1 Hybrid neighborhood decision system DN 价表示对对象错误划分后的一种惩罚。用Cx表 U a a2 as D 示误分类代价矩阵,其中k表示k分类问题。为方 1 0 0.93 0.73 0.80 0.68 d 便理解,以二分类代价矩阵C=G:为例: C21C22 1 0.64 0.50 0.33 0.48 d 其中c表示将类别为1的对象划分到类别1中, X3 0.58 0.39 0.38 0.29 d 因此c1的值为0,同理cz的值也为0;c2表示将类 XA 02 0.12 0.11 0.18 别为1的对象划分到类别2中,此时属于误分类, d 在划分中需付出惩罚代价,因此c12>0,同理c2:>0。 Xs 4R 0.58 d 0.42 0.62 d 2基于正域约简的代价敏感三支决 0.50 0.73 策边界域分类方法 d X8 0.50 0.62 0.38 0.44 d 2.1面向混合邻域决策系统的正域约简 0 0 0.42 0.62 0.49 0.50 d 由于基于三支决策的粒计算方法大多是处理 X10 0 00.39 0.58 0.29 0.50 连续型数据或离散型数据等单一型数据,但是在 现实生活的应用领域中数据类型通常是既含有连 根据定义5可计算出混合邻域决策系统的核 续型数据又含有离散型数据的混合数据,为此需 属性集,具体的计算过程为:首先,根据定义3,利 对混合数据的三支决策模型展开研究。 用p=2时的欧氏距离计算全体对象的混合邻域粒 定义3给定混合邻域决策系统DN={U,FDU 度,再根据定义5计算出POSc(D)={1,x4,x3,x6 FC,D,Va,Ia,外,V(x)表示对象x在属性a上的属性值: ,同理可计算出POSc-a(D)={1,x4,x5,6,xl,因 对于x,y∈U,Ya∈FD,则x和y基于FD的距离为 为POSc(D)=POSc-a,(D),所以属性a1生CORE(C),同 AN(.)=0.V()=V.) 理可求出{a2,a3,as,a6}CORE(C),只有属性 11,V.(x)≠V.y) a:∈CORE(C)。由此可知核属性集为CORE(C)= 对于Yx,y∈U,Ya∈Fc,则x和y基于Fc的距离为 {a}。下面将在此基础上,提出了代价敏感下的三 支决策边界域分类方法。 △N(x,y)= 22基于核属性集的代价敏感三支决策边界域 其中,当p=1时,△We(y)为曼哈顿距离;当 分类方法 p=2时,△Wx(xy)为欧氏距离;当p→oo时, 定义6给定混合邻域决策系统DN={U, △N(x,y为切比雪夫距离。 FDUFC,D,Va,I,6,设属性子集BCC,a和B为三支
P(X|[x]) x ∀x ∈ U 决策的阈值, 表示对象 的条件概率,对于 ,根据贝叶斯决策过程,计算得到最小成本 准则的三支决策规则: POS(X) = { x ∈ U|α ⩽ P(X |[x]) ⩽ 1 } BND(X) = { x ∈ U|β ⩽ P(X |[x]) ⩽ α } NEG(X) = { x ∈ U|0 ⩽ P(X |[x]) ⩽ β } P(X|[x]) = |X ∩[x]| |[x]| 其中, ,|·| 表示对象的个数; α = (λPN −λBN) (λPN −λBN)−(λBP −λPP) β = (λBN −λNN) (λBN −λNN)−(λNP −λBP) POS(X) NEG(X) BND(X) POS(X)∪BND(X)∪ NEG(X) = X X = U POS(X)∪BND(X) ∪NEG(X) = U 其中,正域 、负域 和边界域 分别对应三支决策规则中的接受、拒绝和不承诺 规则,且满足: ;仅 当 时, 。 1.3 代价敏感学习 Ck×k k k C2×2 = [ c11 c12 c21 c22 ] c11 c11 c22 c12 c12 > 0 c21 > 0 代价敏感学习主要研究误分类代价和测试代 价,由于本文中考虑了其误分类代价,误分类代 价表示对对象错误划分后的一种惩罚。用 表 示误分类代价矩阵,其中 表示 分类问题。为方 便理解,以二分类代价矩阵 为例; 其中 表示将类别为 1 的对象划分到类别 1 中, 因此 的值为 0,同理 的值也为 0; 表示将类 别为 1 的对象划分到类别 2 中,此时属于误分类, 在划分中需付出惩罚代价,因此 ,同理 。 2 基于正域约简的代价敏感三支决 策边界域分类方法 2.1 面向混合邻域决策系统的正域约简 由于基于三支决策的粒计算方法大多是处理 连续型数据或离散型数据等单一型数据,但是在 现实生活的应用领域中数据类型通常是既含有连 续型数据又含有离散型数据的混合数据,为此需 对混合数据的三支决策模型展开研究。 DN = { U,F D∪ F C ,D,Va,Ia,δ} Va(x) x a 定义 3 给定混合邻域决策系统 , 表示对象 在属性 上的属性值: ∀x, y ∈ U,∀a ∈ F D x y F 对于 D ,则 和 基于 的距离为 ∆NFD (x, y) = { 0, Va(x) = Va(y) 1, Va(x) , Va(y) ∀x, y ∈ U,∀a ∈ F C x y F 对于 C ,则 和 基于 的距离为 ∆NFC (x, y) = ∑m k=1 |Va(x) = Va(y)|p 1 p p = 1 ∆NFC (x, y) p = 2 ∆NFC (x, y) p → ∞ ∆NFC (x, y) 其中,当 时 , 为曼哈顿距离;当 时 , 为欧氏距离;当 时 , 为切比雪夫距离。 DN = { U,F D∪ F C , D,Va,Ia,δ} Di U D 定义 4 给定混合邻域决策系统 ,令 为论域 基于决策属性 的划 分,则混合邻域决策系统的上下近似表示为: AN(D) = { x ∈ U|δC(x) ⊆ Di } AN(D) = { x ∈ U|δC(x)∩ Di , Ø } 通过上下近似集,可知特征子集 B 上的正域 如下: POSC(D) = AN(D) = { x ∈ U|δC(x) ⊆ Di } DN = {U, F D ∪ F C , D,Va,Ia,δ} ai ∈ C 定 义 5 给定混合邻域决策系统 ,令属性 ,则混合邻域决策 系统中基于三支决策的核属性集定义为: CORE(C) = { ai ||POSC(D)| − |POSC−{ai}(D)| > 0 } U = {x1, x2,··· , x10} C = {a1,a2,··· ,a6} U/ D = {D1,D2} D1 = {x1, x3, x5, x6, x7, x9} D2 = {x2, x4, x8, x10} 以表 1 为例,给出一个混合邻域决策系统, 其中, 为对象集, 为条件属性集 , 决策类 ,分别为 , 。 表 1 混合邻域决策系统 DN Table 1 Hybrid neighborhood decision system DN U a1 a2 a3 a4 a5 a6 D x1 1 0 0.93 0.73 0.80 0.68 d1 x2 1 1 0.64 0.50 0.33 0.48 d2 x3 1 1 0.58 0.39 0.38 0.29 d1 x4 0 1 0.21 0.12 0.11 0.18 d2 x5 1 0 0.63 0.80 0.48 0.58 d1 x6 0 0 0.74 0.78 0.42 0.62 d1 x7 1 0 0.85 0.80 0.50 0.73 d1 x8 1 1 0.50 0.62 0.38 0.44 d2 x9 0 0 0.42 0.62 0.49 0.50 d1 x10 0 0 0.39 0.58 0.29 0.50 d2 p = 2 POSC(D) = {x1, x4, x5, x6, x7} POSC−{a1 }(D) = {x1, x4, x5, x6, x7} POSC(D) = POSC−{a1}(D) a1 < CORE(C) {a2,a3,a5,a6} < CORE(C) a4 ∈ CORE(C) CORE(C) = {a4} 根据定义 5 可计算出混合邻域决策系统的核 属性集,具体的计算过程为:首先,根据定义 3,利 用 时的欧氏距离计算全体对象的混合邻域粒 度,再根据定 义 5 计算出 ,同理可计算出 ,因 为 ,所以属性 ,同 理可求出 , 只有属性 。由此可知核属性集为 。下面将在此基础上,提出了代价敏感下的三 支决策边界域分类方法。 2.2 基于核属性集的代价敏感三支决策边界域 分类方法 DN = {U, F D ∪ F C , D,Va,Ia,δ} B ⊆ C α β 定 义 6 给定混合邻域决策系统 ,设属性子集 , 和 为三支 第 2 期 周阳阳,等:面向混合数据的代价敏感三支决策边界域分类方法 ·413·
·414- 智能系统学报 第17卷 决策的阈值,D表示不同的决策属性,则不同属性 {x1,3,5,X6,x,xg}和BNDs(D1)={x1,x2,x4,5,X6,x,x8, 子集下的三支决策规则定义为: x9,x10l,根据定义7和性质1可将边界域中的对象 POSs(D)={x∈Ula≤P(Dl6s(x)≤1} 划分到正域和负域,具体的计算过程如下: BNDB(D)=[xEUBNCs(Dx),所 以表1为例,可给出混合邻域决策系统代价 以x∈NEG(D),同理可得{,x4,,xg,x9,x1o}∈ 矩阵,如表2所示。结合定义2和表2,可求出三 NEGg(D)和{,x}∈POSs(D)。由此可知,该混合 支决策的阈值a=7/9,B=1/3。 邻域决策系统的正域为POS(D)={,x},负域为 表2误分类代价矩阵 NEGg(D1)=[x1,X2,X3,x4.X6,X8.X9,X10lo Table 2 Misclassification cost matrix 3算法描述及复杂度分析 状态/动作 X(P) -X(N) ap APP=0 入pw=8 针对混合邻域决策系统,为了有效划分其三 aB ABp =2 ABN =1 支决策边界域中的对象,本文提出了一种面向混 合数据的代价敏感三支决策边界域分类方法,该 dN ANP=4 ANN =0 算法主要分为三个部分。首先,针对混合邻域决 令B=CORE(C)={a4l,根据定义3可计算出核 策系统中的数据,通过混合邻域计算公式计算每 属性子集B下的对象之间的邻域粒度;再根据定 个对象的混合邻域粒度,得到混合邻域决策表的 义6计算出核属性集下决策类D的的正域、负域 正域对象集合,由此基于启发式策略计算核属性 和边界域,具体的计算过程为:由定义3可计算出 集。其次,在此基础上,计算混合邻域决策表中 核属性集B下x的邻域粒度6(x1)={x,2,6,x, 每个对象的邻域粒度,从而计算出每个对象属于 xg,,xo,由此求出x的条件概率P(D5s(x)=5/8NCs(Dx),则x∈NEGB(D,): 粒度6 COREe(D()r: 2)如果PCB(Dx)≤NCB(Dx),则x∈POSB(D)。 7)对于Hx∈U,计算对象x属于决策类D,的条 以表1为例,令B=Core(C)={aa},已知D1= 件概率P(D,l6 COREUD)():
决策的阈值, Di表示不同的决策属性,则不同属性 子集下的三支决策规则定义为: POSB(Di) = { x ∈ U|α ⩽ P(Di |δB(x) ) ⩽ 1 } BNDB(Di) = { x ∈ U|β NCB(Di 1) 如果 |x) ,则x ∈NEGB(Di) ; PCB(Di |x) ⩽ NCB(Di 2 ) 如 果 |x) , 则x ∈POSB(Di) 。 以 表 1 为例,令 B = Core(C) = {a4} ,已知 D1 = {x1, x3, x5, x6, x7, x9} BNDB(D1) = {x1, x2, x4, x5, x6, x7, x8, x9, x10} 和 ,根据定义 7 和性质 1 可将边界域中的对象 划分到正域和负域,具体的计算过程如下: ∀x ∈ BNDB(D1) x1 PCB(D1|x1) = 6/ 11 NCB(D1|x1) = 5/ 11 PCB(D1|x1) > NCB(D1|x1) x1 ∈ NEGB(D1) {x2, x4, x6, x8, x9, x10} ∈ NEGB(D1) {x5, x7} ∈ POSB(D1) POSB(D1) = {x5, x7} NEGB(D1) = {x1, x2, x3, x4, x6, x8, x9, x10} 对于 ,根据定义 7 可求出划分 对象 产生的两种误分类代价 , ,因为 , 所 以 ,同理可得 和 。由此可知,该混合 邻域决策系统的正域为 ,负域为 。 3 算法描述及复杂度分析 针对混合邻域决策系统,为了有效划分其三 支决策边界域中的对象,本文提出了一种面向混 合数据的代价敏感三支决策边界域分类方法,该 算法主要分为三个部分。首先,针对混合邻域决 策系统中的数据,通过混合邻域计算公式计算每 个对象的混合邻域粒度,得到混合邻域决策表的 正域对象集合,由此基于启发式策略计算核属性 集。其次,在此基础上,计算混合邻域决策表中 每个对象的邻域粒度,从而计算出每个对象属于 不同决策类的条件概率,利用三支决策规则将对 象分别划分到不同决策类的正域、边界域和负域 中;最后,针对边界域中的对象,分别计算其划分 到正域和负域所产生的误分类代价,通过比较这 两种代价的大小,将边界域中的对象划分到正域 或负域中,为此,算法的流程图 1 所示。 算法 面向混合数据的代价敏感三支决策边 界域分类方法 DN δ α β 输入 混合邻域决策系统 ,邻域参数 和 阈值 , ; 输出 核属性集下对不同决策类的正域和 负域。 1)对混合邻域决策系统 DN 做归一化处理; 2)计算决策类 Di ⊆ U/ D ; 3)计算邻域粒度 δC(x),初始化 COREC(D)= Ø ; ∀x ∈ U δC(x) ⊆ Di x POSC(D) ← POSC(D)∪{x} 4)对于 ,若满足 ,则将对象 存 入到正域 ; ∀ai ∈ C POSC−{ai}(D) POSC(D) , POSC−{ai}(D) ai COREC(D) ← COREC(D)∪{ai} 5)对于 ,分别计算去除每个对象之后 的特征子集的正域集合 ,若满足 ,则将属性 存入到核属性集 ; COREC(D) δCOREC (D)(x) 6)基于核属性集 ,计算对象的邻域 粒度 ; ∀x ∈ U x Di P(Di |δCOREC (D)(x)) 7)对于 ,计算对象 属于决策类 的条 件概率 : ·414· 智 能 系 统 学 报 第 17 卷
第2期 周阳阳,等:面向混合数据的代价敏感三支决策边界域分类方法 ·415· ①若a≤P(D6 CORE(Dy(x)≤1,则将对象x划分 计算每个对象的混合邻域粒度,其时间复杂度为 到决策类D:的正域POSCORE(D:); O(UPICOREc(D)D;7)计算各决策类正域、边界域 ②否则,若0≤P(D6 CORE(D(x)≤B,则将对象 和负域,其时间复杂度为OUD;8)结合代价敏感 x划分到决策类D,的负域NEGcoREe(D); 划分边界域中的对象,其时间复杂度为 ③否则将对象x划分到决策类D:的边界域 O(BNDCORE(D,)D。综上所述,算法最坏情况下的 BNDCOREe(D:); 时间复杂度是OUIC);由于存储空间主要用于 8)对于Yx∈BNDCORE,(D)计算PCCORE(Dx)和 存放数据,因此算法的空间复杂度为OU川C)。 NCCORE (D) ①若满足PCCORE.(Dx)>NCcoRee(D,,),则将 4实验比较与分析 对象x划分到决策类D,的负域NEGcoRES(D,); 为了验证本文方法对边界域对象划分的可行 ②否则将对象x划分到决策类D,的正域 性和有效性,实验从UCI中选取了10个混合数据 POSCORE(D:); 集进行实验测试与分析;选用分类准确率、权衡 9)输出划分结果正域POSCOREe(D,),负域 因子、误分类损失和时间作为评价指标,对实验 NEgCoRE(D,)。I算法结束。 结果进行对比与分析。 4.1数据集与实验设置 混合邻域决策 系统DN 为了更好地说明所提出算法的普适性,本文 根据数据集的来源和规模两个方面,从国际公开 归一化混合邻域决策系统DN 计算决策类D: 的机器学习UCI数据库中选取了10个数据集进 计算混合邻域粒度x) 行实验结果的对比和分析,数据集的信息描述如 表3所示。表中Speaker Accent和Ionosphere数据 计算正域POSc(D)、POSc4(D) 集中包含连续型数据,Phishing Websites和Stu- 和核属性集CORE(D) dent Evaluation数据集中包含离散型数据;其余数 据集均包含连续型和离散型数据;这些数据集来 计算条件概率 自欺诈分析、医学诊断、信号处理和教育评价等 P (D.16CORE(x)) 应用领域。同时为了消除量纲的影响,对所有数 据集中的连续型数据进行归一化处理。本次实验 P(Dl5coRE》≥a> 的运行环境为:Winl0,Intel(R)Core(TM,i5-6500 N CPU@3.20GHz3.19GHz和8GB内存,用Py- thon编程语言实现算法设计。 P(D.lcoRE(x))p 4.2评价指标 实验将从准确率、权衡因子、误分类损失和 运行时间4种度量指标2对划分结果进行分析, 边界域BNDE(D, 计算误分类代价 定义如下: PC和NC POS(D)nD 准确率:Acc= POS(D,) 正域 负域 POScoRE(D) PC>NC NEGcRE(D,) 权衡因子:F=2 xAccxCov Acc+Cov 误分类损失:Cost=b×hp+nn×drp 图1算法流程图 式中:POS(D)和D表示正域和决策类,nb和nn分别 Fig.1 The flowchart of algorithm 表示边界域、负域中的对象个数;p和dnp分别表 算法时间复杂度分析: 示将属于某一决策类的对象错误划分到该类别的 1)算法的时间复杂度为OIUI川C:2)划分决 边界域和负域中产生的损失;由于本文算法的输 策类所需的时间复杂度为OU);3)在属性全集 出只包含正域和负域,因此Cov=1。本实验的风 下,通过混合邻域计算公式得出每个对象的混合 险损失参数为p=0.3,dp=0.7。 邻域粒度,其时间复杂度为OUIC);4)计算正域 4.3实验结果与分析 对象的时间复杂度为OU0;5)计算核属性集的 4.3.1参数pw和wp对划分结果的影响 时间复杂度为OQUPIC);6)在核属性集CORE下, 在混合邻域决策系统中,参数dpw和dwP通过影
α ⩽ P(Di |δCOREC (D)(x)) ⩽ 1 x Di POSCOREC (Di) ①若 ,则将对象 划分 到决策类 的正域 ; 0 ⩽ P(Di |δCOREC (D)(x)) ⩽ β x Di NEGCOREC (Di) ②否则,若 ,则将对象 划分到决策类 的负域 ; x Di BNDCOREC (Di) ③否则将对象 划分到决策类 的边界域 ; ∀xb ∈ BNDCOREC (Di) PCCOREC (Di |xj) NCCOREC (Di |xj) 8)对于 计算 和 : PCCOREC (Di |xj) > NCCOREC (Di |xj) xj Di NEGCOREC (Di) ①若满足 ,则将 对象 划分到决策类 的负域 ; xb Di POSCOREC (Di) ②否则将对象 划分到决策类 的正域 ; POSCOREC (Di) NEGCOREC (Di) 9 )输出划分结果正域 ,负域 。//算法结束。 混合邻域决策 系统 DN 归一化混合邻域决策系统 DN; 计算决策类 Di ; 计算混合邻域粒度 δ(xi ) 计算正域 POSC (D)、POSC-(ai} (D) 和核属性集 COREC (D) 计算条件概率 P (Di |δCORE (xi )) P (Di |δCORE (xi ))≥α P (Di |δCORE (xi ))NC N N N Y Y Y 图 1 算法流程图 Fig. 1 The flowchart of algorithm 算法时间复杂度分析: O(|U||C|) O(|U|) O(|U| 2 |C|) O(|U|) O(|U| 2 |C|) CORE 1)算法的时间复杂度为 ;2)划分决 策类所需的时间复杂度为 ;3)在属性全集 下,通过混合邻域计算公式得出每个对象的混合 邻域粒度,其时间复杂度为 ;4)计算正域 对象的时间复杂度为 ;5)计算核属性集的 时间复杂度为 ;6)在核属性集 下 , O(|U| 2 |COREC(Di)|) O(|U|) O(|BNDCOREC (Di)|) O(|U| 2 |C|) O(|U||C|) 计算每个对象的混合邻域粒度,其时间复杂度为 ;7)计算各决策类正域、边界域 和负域,其时间复杂度为 ;8)结合代价敏感 划分边界域中的对象,其时间复杂度为 。综上所述,算法最坏情况下的 时间复杂度是 ;由于存储空间主要用于 存放数据,因此算法的空间复杂度为 。 4 实验比较与分析 为了验证本文方法对边界域对象划分的可行 性和有效性,实验从 UCI 中选取了 10 个混合数据 集进行实验测试与分析;选用分类准确率、权衡 因子、误分类损失和时间作为评价指标,对实验 结果进行对比与分析。 4.1 数据集与实验设置 为了更好地说明所提出算法的普适性,本文 根据数据集的来源和规模两个方面,从国际公开 的机器学习 UCI 数据库中选取了 10 个数据集进 行实验结果的对比和分析,数据集的信息描述如 表 3 所示。表中 Speaker Accent 和 Ionosphere 数据 集中包含连续型数据,Phishing Websites 和 Student Evaluation 数据集中包含离散型数据;其余数 据集均包含连续型和离散型数据;这些数据集来 自欺诈分析、医学诊断、信号处理和教育评价等 应用领域。 同时为了消除量纲的影响,对所有数 据集中的连续型数据进行归一化处理。本次实验 的运行环境为:Win10, Intel(R)Core(TM), i5-6 500 CPU @ 3.20 GHz 3.19 GHz 和 8 GB 内存,用 Python 编程语言实现算法设计。 4.2 评价指标 实验将从准确率、权衡因子、误分类损失和 运行时间 4 种度量指标[24] 对划分结果进行分析, 定义如下: Acc = POS(Di)∩ Di POS(Di) 准确率: F = 2× Acc×Cov Acc+Cov 权衡因子: 误分类损失: Cost = nb ×λbp +nn ×λnp POS(Di) Di nb nn λbp λnp Cov = 1 λbp = 0.3 λnp = 0.7 式中: 和 表示正域和决策类, 和 分别 表示边界域、负域中的对象个数; 和 分别表 示将属于某一决策类的对象错误划分到该类别的 边界域和负域中产生的损失;由于本文算法的输 出只包含正域和负域,因此 。本实验的风 险损失参数为 , 。 4.3 实验结果与分析 4.3.1 参数 λPN和 λNP对划分结果的影响 在混合邻域决策系统中,参数 λPN和 λNP通过影 第 2 期 周阳阳,等:面向混合数据的代价敏感三支决策边界域分类方法 ·415·
·416- 智能系统学报 第17卷 响阈值对(α,β)的大小来影响三支决策的划分。因 集中选取6个作为代表进行实验分析,分别将 此,为了详细分析参数w和wp的值对划分准确 w和wp的值从3到10,且每次步长变化1进行 度的影响。本小节中,为了一般性,从上述数据 实验。实验结果如图2所示。 表3数据集的基本信息 Table 3 Basic information of the data set 属性类别 数据集 样本 决策类的样本数 连续属性离散属性 决策类 Fertility 100 2 7 3 {88.12 Heart failure 299 > 5 2 96.203, Speaker Accent 329 12 0 6 {29,30,30,30,45,165} Ionosphere 351 34 0 2 {225,126} Thoraric Surgery 470 2 14 2 400,70: Credit Approval 690 > 8 2 {307,383} Audit Data 773 11 15 2 305,468} Diabetic 1151 16 3 2 {540,611} Phishing Websites 2456 0 30 2 {1094.1362} Student Evaluation 5820 0 33 {812,560,1612,1695,1141} 当dwp的取值区间在[4,5]时,Credit Approval等5个 1.00 数据集的准确率随代价的增加而上升,且变化趋 势较为显著;当w的取值在[6,7刀区间时,数据集 0.96 Speaker Accent的准确率随代价的增加而升高,进 0.92 而达到平稳状态;当wp的取值在[7,8]时,Credit ★Fertility Approval等个5数据集的准确率随代价的增加而 0.88 -Heart failure Speaker Accent 升高,且变化趋势较为平缓;当代价dw和dwp的取 0.84 Credit Approval 值在[8,10]时,准确率达到平稳状态,所有数据集 -Phishing Websites ◆-Student Evaluation 的准确率不再随着代价的变化而变化。 0.80 6 8910 综上所述,从整体上看,代价Pw和dwP对分类 准确度的影响呈负相关,数据集的准确率随着代 (a)代价pw对划分准确率的影响 价入w的增加,呈现出整体下降的趋势;而随着代 1.00 价w的增加,整体呈现上升的趋势。从局部上 0.96 看,当代价的取值在[4,5]和[7,8]这两个区间时,数 据集的准确率随着代价的增加而发生变化,当代 0.92 价的取值在其他区间时,数据集的准确率趋于稳 ★Fertility 0.88 --Heart failure 定的状态。由此,在实际的决策过程中,可结合 Speaker Accent 上述分析的结论,并根据数据集的分布和代价敏 0.84 Credit Approval 4Phishing Websites 感学习构造合适的代价矩阵。 ◆Student Evaluation .80 43.2本文模型与不同三支决策模型的对比分析 5 6 7 8 9 10 本节主要分析不同三支决策模型对分类性能 (b)代价入p对划分准确率的影响 的影响,表4~7给出了3种粗糙集模型下准确率 图2参数入ew和yp对准确率的影响 Acc、权衡因子F、误分类损失Cost和运行时间 Fig.2 Influence of parameters Aey and Ave on the accuracy Time的实验结果。其中,NCTM(neighborhood 在图2(a)中,当w的取值区间在[4,5)时, rough set based cost-sensitive three-way decision Credit Approval等5个数据集的准确率随代价的 boundary region processing model)是基于邻域粗糙 增加而下降,且变化趋势较为平缓;当w的取值 集2设计考虑了代价敏感的三支决策边界域处 区间在[7,8]时,这些数据集的准确率随代价的增 理模型,PCTM(pawlak rough set based cost-sensit- 加而下降,且变化趋势较为显著。在图2(b)中, ive three-way decision boundary region processing
(α, β) λPN λNP 响阈值对 的大小来影响三支决策的划分。因 此,为了详细分析参数 和 的值对划分准确 度的影响。本小节中,为了一般性,从上述数据 λPN λNP 集中选取 6 个作为代表进行实验分析,分别将 和 的值从 3 到 10,且每次步长变化 1 进行 实验。实验结果如图 2 所示。 表 3 数据集的基本信息 Table 3 Basic information of the data set 数据集 样本 属性类别 决策类 决策类的样本数 连续属性 离散属性 Fertility 100 2 7 2 {88, 12} Heart failure 299 7 5 2 {96, 203} Speaker Accent 329 12 0 6 {29, 30, 30, 30, 45, 165} Ionosphere 351 34 0 2 {225, 126} Thoraric Surgery 470 2 14 2 {400, 70} Credit Approval 690 7 8 2 {307, 383} Audit Data 773 11 15 2 {305, 468} Diabetic 1 151 16 3 2 {540, 611} Phishing Websites 2 456 0 30 2 {1094, 1 362} Student Evaluation 5 820 0 33 5 {812,560,1612,1 695,1141} 1.00 0.96 0.92 0.88 0.84 0.80 3 4 5 6 7 8 9 10 Fertility Heart_failure Speaker Accent Credit Approval Phishing Websites Student Evaluation λPN Acc 1.00 0.96 0.92 0.88 0.84 0.80 3 4 5 6 7 8 9 10 Fertility Heart_failure Speaker Accent Credit Approval Phishing Websites Student Evaluation λNP Acc (a) 代价 λPN 对划分准确率的影响 (b) 代价 λNP 对划分准确率的影响 图 2 参数 λPN和 λNP对准确率的影响 Fig. 2 Influence of parameters λPN and λNP on the accuracy λPN [4,5] λPN [7,8] 在 图 2 ( a ) 中,当 的取值区间在 时 , Credit Approval 等 5 个数据集的准确率随代价的 增加而下降,且变化趋势较为平缓;当 的取值 区间在 时,这些数据集的准确率随代价的增 加而下降,且变化趋势较为显著。在图 2(b) 中, λNP [4,5] λNP [6,7] λNP [7,8] λPN λNP 当 的取值区间在 时,Credit Approval 等 5 个 数据集的准确率随代价的增加而上升,且变化趋 势较为显著;当 的取值在 区间时,数据集 Speaker Accent 的准确率随代价的增加而升高,进 而达到平稳状态;当 的取值在 时 ,Credit Approval 等个 5 数据集的准确率随代价的增加而 升高,且变化趋势较为平缓;当代价 和 的取 值在 [8,10] 时,准确率达到平稳状态,所有数据集 的准确率不再随着代价的变化而变化。 λPN λNP λPN λNP [4,5] [7,8] 综上所述,从整体上看,代价 和 对分类 准确度的影响呈负相关,数据集的准确率随着代 价 的增加,呈现出整体下降的趋势;而随着代 价 的增加,整体呈现上升的趋势。从局部上 看,当代价的取值在 和 这两个区间时,数 据集的准确率随着代价的增加而发生变化,当代 价的取值在其他区间时,数据集的准确率趋于稳 定的状态。由此,在实际的决策过程中,可结合 上述分析的结论,并根据数据集的分布和代价敏 感学习构造合适的代价矩阵。 4.3.2 本文模型与不同三支决策模型的对比分析 本节主要分析不同三支决策模型对分类性能 的影响,表 4~7 给出了 3 种粗糙集模型下准确率 Acc、权衡因子 F、误分类损失 Cost 和运行时间 Time 的实验结果。其中,NCTM (neighborhood rough set based cost-sensitive three-way decision boundary region processing model) 是基于邻域粗糙 集 [25] 设计考虑了代价敏感的三支决策边界域处 理模型,PCTM (pawlak rough set based cost-sensitive three-way decision boundary region processing ·416· 智 能 系 统 学 报 第 17 卷
第2期 周阳阳,等:面向混合数据的代价敏感三支决策边界域分类方法 ·417· model)是基于经典粗糙集a设计考虑了代价敏 表53种粗糙集模型的权衡因子F(个)对比 感的三支决策边界域处理模型,MCTM(mixed- Table 5 Comparison of trade-off factor F()under three kinds of rough set models neighborhood rough set based cost-sensitive three-way decision boundary region processing model)代表本 数据集 NCTM PCTM MCTM Fertility 0.9647 0.9676 1.0000 文基于混合邻域粗糙集的代价敏感三支决策边界 Heart failure 0.9393 0.9819 1.0000 域处理模型。在PCTM模型中对数据集进行离散 Speaker Accent 1.0000 0.9220 1.0000 化预处理,在NCTM和MCTM模型中对数据集 Ionosphere 0.9602 0.9941 0.9602 进行了归一化预处理,另外,为了使距离处于同 Thoraric Surgery 0.9632 0.9661 0.9981 一量纲下,在NCTM模型中采取平均距离度量, Credit Approval 0.9553 0.9651 0.9806 同时Acc、F、Cost和Time的值均为数据集所有决 Audit Data 0.9664 0.9935 0.9872 策类的平均值。实验结果如表47所示,其中,符 Diabetic 0.9174 0.9448 0.9234 号↑表示度量指标的值越大越好,符号表示度量 Phishing Websites 0.9852 0.9948 0.9998 指标的值越小越好,加粗字体表示算法在所对应 Student Evaluation 0.7616 0.9599 0.9989 的数据集上的最优值。 如表6所示,使用本文模型的误分类损失整 表4三种粗糙集模型的准确率Acc(个)对比 体上明显低于其他2种模型,例如,在数据集Su Table 4 Comparison of accuracy Acc(T)under three kinds dent Evaluation中,本文模型的误分类损失比 of rough set models NCTM和PCTM分别降低了478.1和287.0。从不 数据集 NCTM PCTM MCTM 同的模型角度分析,针对混合邻域决策系统,P℃TM Fertility 0.9318 0.9385 1.0000 对划分的要求较为苛刻,而NCTM对划分的要求 Heart failure 0.8863 0.9646 1.0000 较于放松,容错率低,导致划分错误率提高;本文 Speaker Accent 1.0000 0.8558 1.0000 模型MCTM可灵活应用于不同类型的决策系统, Ionosphere 0.9241 0.9884 0.9241 容错率高,所以具有更低的误分类代价。 Thoraric Surgery 0.9314 0.9345 0.9962 表63种粗糙集模型的误分类损失C0st(仙)对比 Credit Approval 0.9144 0.9326 0.9620 Table 6 Comparison of misclassification loss Cost (un- Audit Data 0.9370 0.9870 0.9750 der three kinds of rough set models Diabetic 0.8582 0.8965 0.8590 数据集 NCTM PCTM MCTM Phishing Websites 0.9709 0.9897 0.9996 Fertility 4.2000 1.4000 0.0000 Student Evaluation 0.6582 0.9257 0.9979 Heart_failure 20.3000 7.0000 0.0000 Speaker Accent 0.0000 23.8000 0.0000 如表4所示,使用本文模型的分类准确率高 Ionosphere 13.3000 3.5000 13.3000 于其他2种模型,例如,其在数据集Credit Ap Thoraric Surgery 44.1000 21.7000 2.1000 proval上的准确率比NCTM和PCTM模型分别提 Credit Approval 33.6000 28.7000 16.8000 高了4.8%和2.9%,由于MCTM能够针对不同的 Audit Data 46.2000 7.0000 14.7000 数据类型采取不同的分类方法,且具有更低的错 Diabetic 13.3000 23.8000 32.2000 误率,因此其划分准确率能整体上高于NCTM和 Phishing Websites 42.0000 16.8000 0.7000 Student Evaluation 485.1000 294.0000 7.0000 PCTM。此外,在数据集Ionosphere上,PCTM模 型的优势更加明显,而在数据集Speaker Accent 如表7所示,从整体上看,3种粗糙集粒计算 上,本文模型和NCTM模型的准确率相同,由此 模型所消耗的时间较少且随着数据规模的增大而 可知,本文模型能有效地提高分类准确率,且在 增多;从部分上看,NCTM模型耗时相对较长,主 数据集上整体表现良好。 要是由于NCTM是用邻域关系计算邻域类,每两 如表5所示,对权衡因子而言,由其度量公式 个对象之间都要计算,导致其时间复杂度较高。 可知,权衡因子由准确率和覆盖率共同决定,由 而PCTM模型和MCTM模型在耗时方面差异性 于本文中的三支决策最终转换成二支决策,因此 不大,且差异性随数据规模的增大而减小。 覆盖率Cov=1,在本文中权衡因子F很大程度上 综上所述,与其他2种不同的粗糙集模型进 取决于准确率Acc的值。对比表4和表5的实验 行实验对比和分析可知,本文模型总体上具有较 结果可知,权衡因子F的值略高于准确率Acc的 高的分类准确度和较低的误分类损失,因此,用 值,但是整体上的变化趋势和Acc相同。 其对混合邻域决策系统进行划分较为合理
↑ ↓ model) 是基于经典粗糙集[22] 设计考虑了代价敏 感的三支决策边界域处理模型,MCTM (mixedneighborhood rough set based cost-sensitive three-way decision boundary region processing model) 代表本 文基于混合邻域粗糙集的代价敏感三支决策边界 域处理模型。在 PCTM 模型中对数据集进行离散 化预处理,在 NCTM 和 MCTM 模型中对数据集 进行了归一化预处理,另外,为了使距离处于同 一量纲下,在 NCTM 模型中采取平均距离度量, 同时 Acc、F、Cost 和 Time 的值均为数据集所有决 策类的平均值。实验结果如表 4~7 所示,其中,符 号 表示度量指标的值越大越好,符号 表示度量 指标的值越小越好,加粗字体表示算法在所对应 的数据集上的最优值。 表 4 三种粗糙集模型的准确率 Acc (↑) 对比 Table 4 Comparison of accuracy Acc (↑) under three kinds of rough set models 数据集 NCTM PCTM MCTM Fertility 0.9318 0.9385 1.0000 Heart_failure 0.8863 0.9646 1.0000 Speaker Accent 1.0000 0.8558 1.0000 Ionosphere 0.9241 0.9884 0.9241 Thoraric Surgery 0.9314 0.9345 0.9962 Credit Approval 0.9144 0.9326 0.9620 Audit Data 0.9370 0.9870 0.9750 Diabetic 0.8582 0.8965 0.8590 Phishing Websites 0.9709 0.9897 0.9996 Student Evaluation 0.6582 0.9257 0.9979 如表 4 所示,使用本文模型的分类准确率高 于其他 2 种模型,例如,其在数据集 Credit Approval 上的准确率比 NCTM 和 PCTM 模型分别提 高了 4.8% 和 2.9%,由于 MCTM 能够针对不同的 数据类型采取不同的分类方法,且具有更低的错 误率,因此其划分准确率能整体上高于 NCTM 和 PCTM。此外,在数据集 Ionosphere 上,PCTM 模 型的优势更加明显,而在数据集 Speaker Accent 上,本文模型和 NCTM 模型的准确率相同,由此 可知,本文模型能有效地提高分类准确率,且在 数据集上整体表现良好。 Cov = 1 如表 5 所示,对权衡因子而言,由其度量公式 可知,权衡因子由准确率和覆盖率共同决定,由 于本文中的三支决策最终转换成二支决策,因此 覆盖率 ,在本文中权衡因子 F 很大程度上 取决于准确率 Acc 的值。对比表 4 和表 5 的实验 结果可知,权衡因子 F 的值略高于准确率 Acc 的 值,但是整体上的变化趋势和 Acc 相同。 表 5 3 种粗糙集模型的权衡因子 F (↑) 对比 Table 5 Comparison of trade-off factor F (↑) under three kinds of rough set models 数据集 NCTM PCTM MCTM Fertility 0.9647 0.9676 1.0000 Heart_failure 0.9393 0.9819 1.0000 Speaker Accent 1.0000 0.9220 1.0000 Ionosphere 0.9602 0.9941 0.9602 Thoraric Surgery 0.9632 0.9661 0.9981 Credit Approval 0.9553 0.9651 0.9806 Audit Data 0.9664 0.9935 0.9872 Diabetic 0.9174 0.9448 0.9234 Phishing Websites 0.9852 0.9948 0.9998 Student Evaluation 0.7616 0.9599 0.9989 如表 6 所示,使用本文模型的误分类损失整 体上明显低于其他 2 种模型,例如,在数据集 Student Evaluation 中,本文模型的误分类损失比 NCTM 和 PCTM 分别降低了 478.1 和 287.0。从不 同的模型角度分析,针对混合邻域决策系统,PCTM 对划分的要求较为苛刻,而 NCTM 对划分的要求 较于放松,容错率低,导致划分错误率提高;本文 模型 MCTM 可灵活应用于不同类型的决策系统, 容错率高,所以具有更低的误分类代价。 表 6 3 种粗糙集模型的误分类损失 Cost (↓) 对比 Table 6 Comparison of misclassification loss Cost (↓) under three kinds of rough set models 数据集 NCTM PCTM MCTM Fertility 4.200 0 1.400 0 0.000 0 Heart_failure 20.300 0 7.000 0 0.000 0 Speaker Accent 0.000 0 23.800 0 0.000 0 Ionosphere 13.300 0 3.500 0 13.300 0 Thoraric Surgery 44.100 0 21.700 0 2.100 0 Credit Approval 33.600 0 28.700 0 16.800 0 Audit Data 46.200 0 7.000 0 14.700 0 Diabetic 13.300 0 23.800 0 32.200 0 Phishing Websites 42.000 0 16.800 0 0.700 0 Student Evaluation 485.100 0 294.000 0 7.000 0 如表 7 所示,从整体上看,3 种粗糙集粒计算 模型所消耗的时间较少且随着数据规模的增大而 增多;从部分上看,NCTM 模型耗时相对较长,主 要是由于 NCTM 是用邻域关系计算邻域类,每两 个对象之间都要计算,导致其时间复杂度较高。 而 PCTM 模型和 MCTM 模型在耗时方面差异性 不大,且差异性随数据规模的增大而减小。 综上所述,与其他 2 种不同的粗糙集模型进 行实验对比和分析可知,本文模型总体上具有较 高的分类准确度和较低的误分类损失,因此,用 其对混合邻域决策系统进行划分较为合理。 第 2 期 周阳阳,等:面向混合数据的代价敏感三支决策边界域分类方法 ·417·
·418 智能系统学报 第17卷 表73种粗糙集模型的运行时间Time()对比 set based sequential three-way decision boundary re- Table 7 Comparison of operation hours Time()under three kinds of rough set models gion processing model)是基于经典序贯三支决策图 改造的基于混合邻域粗糙集的序贯三支决策边界 数据集 NCTM PCTM MCTM 域处理模型。实验结果如表8所示,分别给出了 Fertility 0.1467 0.0185 0.1112 Heart failure 1.4253 0.1860 1.1989 MCTM和MSTM的分类准确度、权衡因子、误分 Speaker Accent 1.5592 0.2207 1.5177 类损失和时间的对比。 Ionosphere 1.6507 0.2217 1.4853 由表8的实验结果可知,在数据集Iono- Thoraric Surgery 3.9171 0.9209 2.7756 sphere和Audit Data上,本文模型MCTM的分类 Credit Approval 7.9367 1.1905 6.7061 性能与MSTM相同,而在另外8个数据集上,本 Audit Data 9.0060 1.6071 6.6358 文模型MCTM的分类性能要优于序贯三支决策 Diabetic 30.0278 10.4657 26.6360 模型MSTM。从理论上分析,由于MSTM直接由 Phishing Websites 135.5500 16.6810 14.1239 代价矩阵计算的阈值划分边界域对象,而本文在 Student Evaluation 868.6762 82.2837 73.5983 此基础上进一步考虑条件概率和误分类代价来划 43.3本文模型和序贯三支决策模型的边界域 分边界域中的对象,因此本文模型MCTM在 分类方法对比 Acc、F、Cost和Time上表现较优。为此,在同等 为了进一步验证本文模型的有效性,本小节 条件下,对于混合邻域决策系统,本文基于属性 将本文模型与序贯三支决策的方法进行实验对比 约简的混合代价敏感三支决策边界域分类方法为 和分析。其中,MSTM(mixed-.neighborhood rough 处理边界域对象提供了一种可借鉴的分析方法。 表8不同边界域处理模型的实验结果对比 Table 8 Comparison of experimental results of different boundary domain processing models Acc(T) F(T) Cost() Time() 数据集 MCTM MSTM MCTM MSTM MCTM MSTM MCTM MSTM Fertility 1.0000 0.9880 1.0000 0.9939 0.0000 1.4000 0.1112 0.1092 Heart_failure 1.0000 0.9854 1.0000 0.9926 0.0000 2.8000 1.1989 1.2184 Speaker Accent 1.0000 0.9889 1.0000 0.9943 0.0000 0.7000 1.5177 1.5807 lonosphere 0.9241 0.9241 0.9602 0.9602 13.3000 13.3000 1.4853 1.50835 Thoraric Surgery 0.9962 0.9924 0.9981 0.9962 2.1000 4.2000 2.7756 2.6520 Credit Approval 0.9620 0.9540 0.9806 0.9764 16.8000 20.9999 6.7061 6.9013 Audit Data 0.9750 0.9750 0.9872 0.9872 14.7000 14.7000 6.6358 6.7636 Diabetic 0.8590 0.8408 0.9234 0.9131 32.2000 42.0000 26.6360 24.9780 Phishing Websites 0.9996 0.9979 0.9998 0.9989 0.7000 3.5000 14.1239 14.3478 Student Evaluation 0.9979 0.9971 0.9989 0.9985 7.0000 9.1000 73.5983 74.0003 5结束语 划分方法。由于序贯三支决策更加符合现实生活 中的决策过程及人类的认知,下一步工作将研究 近年来三支决策理论成为热点研究问题,其 基于代价敏感的序贯三支决策的粒化问题。 研究对象多为单一型决策系统,然而,在许多的 应用领域中,数据往往呈现混合类型的特点,目 参考文献: 前三支决策对混合数据边界域样本处理的研究相 [1]YAO Yiyu.Three-way decisions with probabilistic rough 对较少。为划分混合决策系统中的边界域对象, sets[J].Information sciences,2010,180(3):341-353. 本文提出了基于混合数据的属性约简方法;并在 [2]YAO Yiyu.Three-way decision and granular comp- 此基础上,提出了一种基于核属性的代价敏感三 uting[J].International journal of approximate reasoning, 支决策边界域分类方法。通过在不同的数据集上 2018,103:107-123 进行实验对比与分析,验证了本文方法的可行性 [3]LI Huaxiong,ZHANG Libo,HUANG Bing,et al.Se- 和有效性,获得了一种相对合理的边界域对象的 quential three-way decision and granulation for cost-sens-
表 7 3 种粗糙集模型的运行时间 Time (↓) 对比 Table 7 Comparison of operation hours Time (↓) under three kinds of rough set models 数据集 NCTM PCTM MCTM Fertility 0.1467 0.018 5 0.1112 Heart_failure 1.4253 0.186 0 1.1989 Speaker Accent 1.5592 0.220 7 1.5177 Ionosphere 1.6507 0.221 7 1.4853 Thoraric Surgery 3.9171 0.920 9 2.7756 Credit Approval 7.9367 1.190 5 6.7061 Audit Data 9.0060 1.607 1 6.6358 Diabetic 30.0278 10.465 7 26.6360 Phishing Websites 135.5500 16.681 0 14.1239 Student Evaluation 868.6762 82.283 7 73.5983 4.3.3 本文模型和序贯三支决策模型的边界域 分类方法对比 为了进一步验证本文模型的有效性,本小节 将本文模型与序贯三支决策的方法进行实验对比 和分析。其中,MSTM (mixed-neighborhood rough set based sequential three-way decision boundary region processing model) 是基于经典序贯三支决策[8] 改造的基于混合邻域粗糙集的序贯三支决策边界 域处理模型。实验结果如表 8 所示,分别给出了 MCTM 和 MSTM 的分类准确度、权衡因子、误分 类损失和时间的对比。 由 表 8 的实验结果可知,在数据 集 Iono - sphere 和 Audit Data 上,本文模型 MCTM 的分类 性能与 MSTM 相同,而在另外 8 个数据集上,本 文模型 MCTM 的分类性能要优于序贯三支决策 模型 MSTM。从理论上分析,由于 MSTM 直接由 代价矩阵计算的阈值划分边界域对象,而本文在 此基础上进一步考虑条件概率和误分类代价来划 分边界域中的对象,因此本文模型 MCTM 在 Acc、F、Cost 和 Time 上表现较优。为此,在同等 条件下,对于混合邻域决策系统,本文基于属性 约简的混合代价敏感三支决策边界域分类方法为 处理边界域对象提供了一种可借鉴的分析方法。 表 8 不同边界域处理模型的实验结果对比 Table 8 Comparison of experimental results of different boundary domain processing models 数据集 Acc (↑) F (↑) Cost(↓) Time(↓) MCTM MSTM MCTM MSTM MCTM MSTM MCTM MSTM Fertility 1.0000 0.9880 1.0000 0.9939 0.000 0 1.400 0 0.1112 0.1092 Heart_failure 1.0000 0.9854 1.0000 0.9926 0.000 0 2.800 0 1.1989 1.2184 Speaker Accent 1.0000 0.9889 1.0000 0.9943 0.000 0 0.700 0 1.5177 1.5807 Ionosphere 0.9241 0.9241 0.9602 0.9602 13.300 0 13.300 0 1.4853 1.50835 Thoraric Surgery 0.9962 0.9924 0.9981 0.9962 2.100 0 4.200 0 2.7756 2.6520 Credit Approval 0.9620 0.9540 0.9806 0.9764 16.800 0 20.999 9 6.7061 6.9013 Audit Data 0.9750 0.9750 0.9872 0.9872 14.700 0 14.700 0 6.6358 6.7636 Diabetic 0.8590 0.8408 0.9234 0.9131 32.200 0 42.000 0 26.6360 24.9780 Phishing Websites 0.9996 0.9979 0.9998 0.9989 0.700 0 3.500 0 14.1239 14.3478 Student Evaluation 0.9979 0.9971 0.9989 0.9985 7.000 0 9.100 0 73.5983 74.0003 5 结束语 近年来三支决策理论成为热点研究问题,其 研究对象多为单一型决策系统,然而,在许多的 应用领域中,数据往往呈现混合类型的特点,目 前三支决策对混合数据边界域样本处理的研究相 对较少。为划分混合决策系统中的边界域对象, 本文提出了基于混合数据的属性约简方法;并在 此基础上,提出了一种基于核属性的代价敏感三 支决策边界域分类方法。通过在不同的数据集上 进行实验对比与分析,验证了本文方法的可行性 和有效性,获得了一种相对合理的边界域对象的 划分方法。由于序贯三支决策更加符合现实生活 中的决策过程及人类的认知,下一步工作将研究 基于代价敏感的序贯三支决策的粒化问题。 参考文献: YAO Yiyu. Three-way decisions with probabilistic rough sets[J]. Information sciences, 2010, 180(3): 341–353. [1] YAO Yiyu. Three-way decision and granular computing[J]. International journal of approximate reasoning, 2018, 103: 107–123. [2] LI Huaxiong, ZHANG Libo, HUANG Bing, et al. Sequential three-way decision and granulation for cost-sens- [3] ·418· 智 能 系 统 学 报 第 17 卷
第2期 周阳阳,等:面向混合数据的代价敏感三支决策边界域分类方法 ·419· itive face recognition[J].Knowledge-based systems sciences..2019,485:248-262 2016.91:241-251 [18]LI Huaxiong,ZHANG Libo,ZHOU Xianzhong,et al. [4]ZHANG Hengru,MIN Fan,SHI Bing,et al.Regression- Cost-sensitive sequential three-way decision modeling based three-way recommendation[J].Information sci- using a deep neural network[J].International journal of ences,2017,378:444-461. approximate reasoning,2017.85:68-78 [5]HUANG Jiajin,WANG Jian,YAO Yiyu,et al.Cost-sens- [19]YANG Jie,WANG Guoying,ZHANG Qinghua,et al. itive three-way recommendations by learning pair-wise Optimal granularity selection based on cost-sensitive se- preferences[J].International journal of approximate reas- quential three-way decisions with rough fuzzy sets[J]. 0ning,2017,86:28-40. Knowledge-based systems,2019,163:131-144. [6]CHEN Yufei,YUE Xiaodong,FUJITA H,et al.Three- [20]MA Xi'ao,ZHAO Xuerong.Cost-sensitive three-way way decision support for diagnosis on focal liver lesions class-specific attribute reduction[J].International journ- [J].Knowledge-based systems,2017,127:85-99. al of approximate reasoning,2019,105:153-174 [7]ZHOU Bing,YAO Yiyu,LUO Jigang.Cost-sensitive [21]PAWLAK Z.SKOWRON A.Rough sets:some exten- three-way email spam filtering[J].Journal of intelligent sions[J].Information sciences,2007,177(1):28-40. information systems,2014,42(1):19-45. [22]HU Qinghua,YU Daren,XIE Zhongxia.Neighborhood [8]FANG Yu,GAO Cong,YAO Yiyu.Granularity-driven classifiers[J].Expert systems with applications,2008, sequential three-way decisions:a cost-sensitive approach 34(2:866-876. to classification[J].Information sciences,2020,507: [23]YAO YY.WONG S K M.A decision theoretic frame- 644-664 work for approximating concepts[J].International journ- [9]LIU Jiubing,LI Huaxiong,ZHOU Xianzhong,et al.An al of nan-machine studies,1992.37(6):793-809. optimization-based formulation for three-way decisions [24]XU Yi,TANG Jingxin,WANG Xusheng.Three sequen- [J].Information sciences,2019,495:185-214. tial multi-class three-way decision models[J].Informa- [10]WANG Tianxing,LI Huaxiong,ZHOU Xianzhong,et tion sciences,2020,537:62-90. al.A prospect theory-based three-way decision model[]. [25]HU Qinghua.YU Daren,LIU Jinfu,et al.Neighborhood Knowledge-based systems,2020,203:106129. rough set based heterogeneous feature subset selection [11]YAO Yiyu,WANG Shu,DENG Xiaofei.Constructing [J].Information sciences,2008,178(18):3577-3594. shadowed sets and three-way approximations of fuzzy 作者简介: sets[J].Information sciences,2017,412-413:132-153. 周阳阳,硕士研究生,主要研究方 [12]MA Xi'ao,YAO Yiyu.Three-way decision perspectives 向为粒计算与知识发现。 on class-specific attribute reducts[J].Information sci- ences,.2018,450:227-245. [13]WAN Jianwu,WANG Yi.Cost-sensitive label propaga- tion for semi-supervised face recognition[J].IEEE trans- actions on information forensics and security,2019, 14(7):1729-1743. 钱文彬,副教授.博士,主要研究 [14]MA Chao,LIU Zhenbing,CAO Zhiguang,et al.Cost- 方向为知识发现与机器学习。主持国 sensitive deep forest for price prediction[J].Pattern re- 家自然科学基金项目2项、江西省自 c0 gnition,,2020,107:107499. 然科学基金项目2项。发表学术论文 [15]XIAO Jin,ZHOU Xu,ZHONG Yu,et al.Cost-sensitive 30余篇。 semi-supervised selective ensemble model for customer credit scoring[J].Knowledge-based systems,2020,189: 105118 王映龙,教授,博士,主要研究方 [16]FANG Yu,MIN Fan.Cost-sensitive approximate attrib- 向为知识发现与数据挖掘。参与国家 ute reduction with three-way decisions[J].International 自然科学基金项目2项,主持江西省 journal of approximate reasoning,2019,104:148-165. 自然科学基金项目3项。发表学术论 [17]JIA Xiuyi,LI Weiwei,SHANG Lin.A multiphase cost- 文20余篇。 sensitive learning method based on the multiclass three- way decision-theoretic rough set model[J].Information
itive face recognition[J]. Knowledge-based systems, 2016, 91: 241–251. ZHANG Hengru, MIN Fan, SHI Bing, et al. Regressionbased three-way recommendation[J]. Information sciences, 2017, 378: 444–461. [4] HUANG Jiajin, WANG Jian, YAO Yiyu, et al. Cost-sensitive three-way recommendations by learning pair-wise preferences[J]. International journal of approximate reasoning, 2017, 86: 28–40. [5] CHEN Yufei, YUE Xiaodong, FUJITA H, et al. Threeway decision support for diagnosis on focal liver lesions [J]. Knowledge-based systems, 2017, 127: 85–99. [6] ZHOU Bing, YAO Yiyu, LUO Jigang. Cost-sensitive three-way email spam filtering[J]. Journal of intelligent information systems, 2014, 42(1): 19–45. [7] FANG Yu, GAO Cong, YAO Yiyu. Granularity-driven sequential three-way decisions: a cost-sensitive approach to classification[J]. Information sciences, 2020, 507: 644–664. [8] LIU Jiubing, LI Huaxiong, ZHOU Xianzhong, et al. An optimization-based formulation for three-way decisions [J]. Information sciences, 2019, 495: 185–214. [9] WANG Tianxing, LI Huaxiong, ZHOU Xianzhong, et al. A prospect theory-based three-way decision model[J]. Knowledge-based systems, 2020, 203: 106129. [10] YAO Yiyu, WANG Shu, DENG Xiaofei. Constructing shadowed sets and three-way approximations of fuzzy sets[J]. Information sciences, 2017, 412-413: 132–153. [11] MA Xi’ao, YAO Yiyu. Three-way decision perspectives on class-specific attribute reducts[J]. Information sciences, 2018, 450: 227–245. [12] WAN Jianwu, WANG Yi. Cost-sensitive label propagation for semi-supervised face recognition[J]. IEEE transactions on information forensics and security, 2019, 14(7): 1729–1743. [13] MA Chao, LIU Zhenbing, CAO Zhiguang, et al. Costsensitive deep forest for price prediction[J]. Pattern recognition, 2020, 107: 107499. [14] XIAO Jin, ZHOU Xu, ZHONG Yu, et al. Cost-sensitive semi-supervised selective ensemble model for customer credit scoring[J]. Knowledge-based systems, 2020, 189: 105118. [15] FANG Yu, MIN Fan. Cost-sensitive approximate attribute reduction with three-way decisions[J]. International journal of approximate reasoning, 2019, 104: 148–165. [16] JIA Xiuyi, LI Weiwei, SHANG Lin. A multiphase costsensitive learning method based on the multiclass threeway decision-theoretic rough set model[J]. Information [17] sciences, 2019, 485: 248–262. LI Huaxiong, ZHANG Libo, ZHOU Xianzhong, et al. Cost-sensitive sequential three-way decision modeling using a deep neural network[J]. International journal of approximate reasoning, 2017, 85: 68–78. [18] YANG Jie, WANG Guoying, ZHANG Qinghua, et al. Optimal granularity selection based on cost-sensitive sequential three-way decisions with rough fuzzy sets[J]. Knowledge-based systems, 2019, 163: 131–144. [19] MA Xi’ao, ZHAO Xuerong. Cost-sensitive three-way class-specific attribute reduction[J]. International journal of approximate reasoning, 2019, 105: 153–174. [20] PAWLAK Z, SKOWRON A. Rough sets: some extensions[J]. Information sciences, 2007, 177(1): 28–40. [21] HU Qinghua, YU Daren, XIE Zhongxia. Neighborhood classifiers[J]. Expert systems with applications, 2008, 34(2): 866–876. [22] YAO Y Y, WONG S K M. A decision theoretic framework for approximating concepts[J]. International journal of nan-machine studies, 1992, 37(6): 793–809. [23] XU Yi, TANG Jingxin, WANG Xusheng. Three sequential multi-class three-way decision models[J]. Information sciences, 2020, 537: 62–90. [24] HU Qinghua, YU Daren, LIU Jinfu, et al. Neighborhood rough set based heterogeneous feature subset selection [J]. Information sciences, 2008, 178(18): 3577–3594. [25] 作者简介: 周阳阳,硕士研究生,主要研究方 向为粒计算与知识发现。 钱文彬,副教授,博士,主要研究 方向为知识发现与机器学习。主持国 家自然科学基金项目 2 项、江西省自 然科学基金项目 2 项。发表学术论文 30 余篇。 王映龙,教授,博士,主要研究方 向为知识发现与数据挖掘。参与国家 自然科学基金项目 2 项,主持江西省 自然科学基金项目 3 项。发表学术论 文 20 余篇。 第 2 期 周阳阳,等:面向混合数据的代价敏感三支决策边界域分类方法 ·419·