第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201905048 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190909.1712.008.html 面向混合数据的多伴随三支决策 赵天娜,苗夺谦2,米据生3,张远健2 (1.同济大学电子与信息工程学院,上海201804:2.同济大学嵌入式系统与服务计算教有部重点实验室,上海 201804;3.河北师范大学数学与信息科学学院,河北石家庄050024) 摘要:针对混合数据的知识表示和分类的问题,在思考混合数据的有效表示时,提出代价敏感多伴随模糊粗 糙集模型,在解决混合数据的分类问题上,引入三支决策思想,同时在多伴随模型基础上做了两点改进:)提 出贴近代价敏感多伴随模糊粗糙集模型特点的概率定义;2)借助双量化延迟代价目标函数的思想,构造面向混 合数据的新型三支决策模型。该模型具有如下特点:1)引入多个伴随对,模拟了数值型属性和符号型属性之间 异构互补的关系;2)定义多伴随算子,充分表达了不同类型属性之间的偏好:3)结合模糊粗糙集,克服了分类 问题的不确定性:4)考虑获取不同类型属性的代价,提高了应用到实际生活的可能性。最后用实例验证了此模 型的有效性。 关键词:混合数据:模糊粗糙集;三支决策:多伴随:代价敏感:知识表示:分类 中图分类号:TP391文献标志码:A文章编号:1673-4785(2019)06-1092-08 中文引用格式:赵天娜,苗夺谦,米据生,等.面向混合数据的多伴随三支决策智能系统学报,2019,14(6):1092-1099 英文引用格式:ZHAO Tianna,MIAO Duoqian,,MI Jusheng,etal.Multi--adjoint three--way decisions on heterogeneous data[J. CAAI transactions on intelligent systems,2019,14(6):1092-1099 Multi-adjoint three-way decisions on heterogeneous data ZHAO Tianna,MIAO Duoqian"2,MI Jusheng',ZHANG Yuanjian2 (1.College of Computer Science and Technology,Tongji University,Shanghai 201804,China;2.Key Laboratory of Embedded Sys- tem and Service Computing of Ministry of Education,Tongji University,Shanghai 201804,China;3.College of Mathematics and In- formation Science,Hebei Normal University,Shijiazhuang 050024,China) Abstract:Considering the problem of knowledge representation and classification relating to heterogeneous data,a cost- sensitive multi-adjoint fuzzy rough set model is proposed for the effective representation of heterogeneous data and in order to solve the classification problem of heterogeneous data,the idea of three-way decisions is introduced.Moreover, two improvements are made on the basis of the multi-adjoint model:1)A revised probability definition is presented to approximately characterize the cost-sensitive fuzzy rough set model.2)Based on the idea of the dual quantization delay cost objective function,a novel three-way decisions model is constructed for heterogeneous data.This model has the fol- lowing characteristics:1)Multiple adjoint pairs are introduced to simulate the relationship of heterogeneous comple- mentarity between numerical attribute and categorical attribute.2)The multi-adjoint operator is defined to fully express the preference among different attributes.3)A fuzzy rough set is combined to overcome the uncertainty of the classifica- tion problem.4)The cost of acquiring both numerical and categorical attributes is considered to improve the possibility of application to real life.The effectiveness of the model is verified in the heterogeneous dataset. Keywords:heterogeneous data;fuzzy rough set;three-way decisions;multi-adjoint;cost-sensitive;knowledge repres- entation;classification 收稿日期:2019-05-24.网络出版日期:2019-09-10. 混合数据是非结构化的、互补的、超高维 基金项目:国家重点研发项目(213):国家自然科学基金项目 (61673301,61573127,61763031):河北省自然科学基金 的,包含大量冗余信息,研究如何有效表示,特征 项目(A2018210120):公安部重大专项项目(20170004). 通信作者:赵天娜.E-mail:1810375@tongji.edu.cn 选择和融合混合数据有重要的实际意义。尤其是
DOI: 10.11992/tis.201905048 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190909.1712.008.html 面向混合数据的多伴随三支决策 赵天娜1,2,苗夺谦1,2,米据生3 ,张远健1,2 (1. 同济大学 电子与信息工程学院,上海 201804; 2. 同济大学 嵌入式系统与服务计算教育部重点实验室,上海 201804; 3. 河北师范大学 数学与信息科学学院,河北 石家庄 050024) 摘 要:针对混合数据的知识表示和分类的问题,在思考混合数据的有效表示时,提出代价敏感多伴随模糊粗 糙集模型,在解决混合数据的分类问题上,引入三支决策思想,同时在多伴随模型基础上做了两点改进:1) 提 出贴近代价敏感多伴随模糊粗糙集模型特点的概率定义;2) 借助双量化延迟代价目标函数的思想,构造面向混 合数据的新型三支决策模型。该模型具有如下特点:1) 引入多个伴随对,模拟了数值型属性和符号型属性之间 异构互补的关系;2) 定义多伴随算子,充分表达了不同类型属性之间的偏好;3) 结合模糊粗糙集,克服了分类 问题的不确定性;4) 考虑获取不同类型属性的代价,提高了应用到实际生活的可能性。最后用实例验证了此模 型的有效性。 关键词:混合数据;模糊粗糙集;三支决策;多伴随;代价敏感;知识表示;分类 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)06−1092−08 中文引用格式:赵天娜, 苗夺谦, 米据生, 等. 面向混合数据的多伴随三支决策 [J]. 智能系统学报, 2019, 14(6): 1092–1099. 英文引用格式:ZHAO Tianna, MIAO Duoqian, MI Jusheng, et al. Multi-adjoint three-way decisions on heterogeneous data[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1092–1099. Multi-adjoint three-way decisions on heterogeneous data ZHAO Tianna1,2 ,MIAO Duoqian1,2 ,MI Jusheng3 ,ZHANG Yuanjian1,2 (1. College of Computer Science and Technology, Tongji University, Shanghai 201804, China; 2. Key Laboratory of Embedded System and Service Computing of Ministry of Education, Tongji University, Shanghai 201804, China; 3. College of Mathematics and Information Science, Hebei Normal University, Shijiazhuang 050024, China) Abstract: Considering the problem of knowledge representation and classification relating to heterogeneous data, a costsensitive multi-adjoint fuzzy rough set model is proposed for the effective representation of heterogeneous data and in order to solve the classification problem of heterogeneous data, the idea of three-way decisions is introduced. Moreover, two improvements are made on the basis of the multi-adjoint model: 1) A revised probability definition is presented to approximately characterize the cost-sensitive fuzzy rough set model. 2) Based on the idea of the dual quantization delay cost objective function, a novel three-way decisions model is constructed for heterogeneous data. This model has the following characteristics: 1) Multiple adjoint pairs are introduced to simulate the relationship of heterogeneous complementarity between numerical attribute and categorical attribute. 2) The multi-adjoint operator is defined to fully express the preference among different attributes. 3) A fuzzy rough set is combined to overcome the uncertainty of the classification problem. 4) The cost of acquiring both numerical and categorical attributes is considered to improve the possibility of application to real life. The effectiveness of the model is verified in the heterogeneous dataset. Keywords: heterogeneous data; fuzzy rough set; three-way decisions; multi-adjoint; cost-sensitive; knowledge representation; classification 混合数据[1] 是非结构化的、互补的、超高维 的,包含大量冗余信息,研究如何有效表示,特征 选择和融合混合数据有重要的实际意义。尤其是 收稿日期:2019−05−24. 网络出版日期:2019−09−10. 基金项目:国家重点研发项目(213);国家自然科学基金项目 (61673301,61573127,61763031);河北省自然科学基金 项目 (A2018210120);公安部重大专项项目 (20170004). 通信作者:赵天娜. E-mail: 1810375@tongji.edu.cn.. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
第6期 赵天娜,等:面向混合数据的多伴随三支决策 ·1093· 在数字化时代,多通道传感器广泛化产生,混合 型结合三支决策模型的研究已有成果,AL-Hmoz网 数据的分类任务普遍存在于实际生活中,如文本 运用三支决策的思想做多模态生物识别系统的开 情感分类,医学影像分析更多复杂的语义以混合 发。赵天娜初步研究了多伴随直觉模糊粗糙 属性值形式表示。数值型和符号型数据的相互作 集与三支决策模型的简单结合。鉴于模型与三支 用,导致概念往往具有不一致性和模糊性。如何 决策组合的优越性,本文将进一步深入地研究用 利用混合数据的上述性质降低此类数据的不确定 三支决策模型处理混合数据分类问题更优化的方 性是一个值得研究的课题。 式,代价敏感多伴随模糊粗糙集模型赋予三支语 模糊粗糙集是一种处理不确定性问题的有 义,并在决策代价最小化意义下优化混合数据三 效数学工具,然而现有的模糊粗糙集模型不能处 支分类结果,扩展三支决策理论的应用范围。 理混合数据分类问题。因此,研究模糊粗糙集扩 本文的贡献可从以下几个方面体现:混合数 展模型,并应用于混合属性分类具有重要的理论 据的非结构化,互补以及大量冗余无关信息等特 创新价值。M等)用对偶三角模构造逻辑算子, 点造成数据的高度不确定性,因此数据分类不一 发展了粗糙近似算子的构造方法。Feng等用概 致性和模糊性使得挖掘混合数据蕴含的内部信息 率方法研究并构造了信任函数与似然函数。目 有难度。找出数值型和符号型属性之间的各种关 前,模糊粗糙近似算子的构造大多使用一对三角 系,降低分类的不确定性是混合数据挖掘中亟待 模与蕴含算子作为逻辑算子,没有考虑对象或者 解决的问题。针对上述问题,本文用多个伴随对 属性之间的差异性。用多伴随对构造模糊Galois 模拟不同类型属性之间的关系,多伴随算子可充 连接,模糊粗糙近似算子,可以体现数值型数据 分表达不同类型属性对对象之间的偏好,同时考 和符号型属性之间的偏好。近几年来,Medina等 虑了获取不同类型属性值的代价,提出代价敏感 研究了多伴随理论,并探究其在多伴随概念格和 多伴随模糊粗糙集模型。给出充分体现此模型特 多伴随粗糙集等概念上的应用,但混合数据的表 点的概率公式,并优化了损失函数。改造三支决 示方面需进一步深入研究。不同类型属性获取所 策模型,挖掘出不同类型属性的关系特点。针对 需的不同代价问题,是现实生活中数据处理时必 混合数据的不确定性特点,提出此模型。此模型 不可少要考虑的因素。Tan向提出代价敏感学习, 是数据特点驱动的,从数据本质出发,分析混合 并将其应用到许多方面,如遗传算法川、粗糙集 数据的特点,找出数值型属性和符号型属性之间 等。国内学者也研究进展颇丰,如Fan等针对 的各种关系。 测试代价敏感决策系统,构造数据模型。Ju等o 1基本概念 提出了带有多粒度指标的代价敏感粗糙集模型。 系列学者都将获取数据的代价作为数据处理时 1.1 多伴随模糊粗糙集理论 的重要因素。受上述工作的启发,本文引人代价 Cornelis等2o1提出的多伴随模糊粗糙集理论 敏感多伴随模糊粗糙集表示数值型属性和符号型 研究了多伴随对与模糊粗糙集理论结合的基本定 属性之间的异构互补关系,使得伴随对与不同类 义和简单性质。 型属性之间产生关联:在利用多伴随算子表达不 定义12给定偏序集(P,≤1)、(P2,≤2)、(P,≤) 同类型属性之间偏好的同时,兼顾了获取不同类 和映射&:P1×P2→P,:P3×P2→P,人:P×P1→ 型属性值的代价。 P2,称(&,/,)是一个伴随三元组,如果满足: Yao2l提出的三支决策是处理数据分类任 1)对于x∈P,y∈P2,z∈P,都有x≤3/y台x&y≤ 务时基于人类认知的高效决策模式,已有许多专 Z台y≤2zx 家将其与其他模型结合,大大提高了数据分类能 2)&在P、P2、P3上是保序映射: 力。Liang等13.11研究了处理多阶段信息和双犹 3),、在第1和第2论域上是保序映射。 豫模糊信息的基于直觉模糊粗糙集的三支决策模 定义220设(L1,L2,P&1,…,&)是多伴随框 型。Qiao将三支决策引入到推荐系统时,考虑 架,称(A,U,Rt)为多伴随背景,其中A是非空对 了代价和用户的偏好,极大改进了推荐质量。徐健锋吗 象集,U是非空属性集,R:A×U→P是P模糊关 以混淆矩阵为工具,多目标优化三支决策阈值求 系,满足自反性和对称性。T:A×A→(1,2,…,n 解模型,同时发现了三支决策的代价与决策的条 是将A×A中元素对映射到多伴随框架上一个特 件概率之间存在非单调现象。混合数据分类模 定的伴随三元组
在数字化时代,多通道传感器广泛化产生,混合 数据的分类任务普遍存在于实际生活中,如文本 情感分类,医学影像分析更多复杂的语义以混合 属性值形式表示。数值型和符号型数据的相互作 用,导致概念往往具有不一致性和模糊性。如何 利用混合数据的上述性质降低此类数据的不确定 性是一个值得研究的课题。 模糊粗糙集[2] 是一种处理不确定性问题的有 效数学工具,然而现有的模糊粗糙集模型不能处 理混合数据分类问题。因此,研究模糊粗糙集扩 展模型,并应用于混合属性分类具有重要的理论 创新价值。Mi 等 [3] 用对偶三角模构造逻辑算子, 发展了粗糙近似算子的构造方法。Feng 等 [4] 用概 率方法研究并构造了信任函数与似然函数。目 前,模糊粗糙近似算子的构造大多使用一对三角 模与蕴含算子作为逻辑算子,没有考虑对象或者 属性之间的差异性。用多伴随对构造模糊 Galois 连接,模糊粗糙近似算子,可以体现数值型数据 和符号型属性之间的偏好。近几年来,Medina 等 [5] 研究了多伴随理论,并探究其在多伴随概念格和 多伴随粗糙集等概念上的应用,但混合数据的表 示方面需进一步深入研究。不同类型属性获取所 需的不同代价问题,是现实生活中数据处理时必 不可少要考虑的因素。Tan[6] 提出代价敏感学习, 并将其应用到许多方面,如遗传算法[7] 、粗糙集[8-9] 等。国内学者也研究进展颇丰,如 Fan 等 [8] 针对 测试代价敏感决策系统,构造数据模型。Ju 等 [10] 提出了带有多粒度指标的代价敏感粗糙集模型。 一系列学者都将获取数据的代价作为数据处理时 的重要因素。受上述工作的启发,本文引入代价 敏感多伴随模糊粗糙集表示数值型属性和符号型 属性之间的异构互补关系,使得伴随对与不同类 型属性之间产生关联;在利用多伴随算子表达不 同类型属性之间偏好的同时,兼顾了获取不同类 型属性值的代价。 Yao[11-12] 提出的三支决策是处理数据分类任 务时基于人类认知的高效决策模式,已有许多专 家将其与其他模型结合,大大提高了数据分类能 力。Liang 等 [13-14] 研究了处理多阶段信息和双犹 豫模糊信息的基于直觉模糊粗糙集的三支决策模 型。Qiao[15] 将三支决策引入到推荐系统时,考虑 了代价和用户的偏好,极大改进了推荐质量。徐健锋[16] 以混淆矩阵为工具,多目标优化三支决策阈值求 解模型,同时发现了三支决策的代价与决策的条 件概率之间存在非单调现象[17]。混合数据分类模 型结合三支决策模型的研究已有成果,AL-Hmouz[18] 运用三支决策的思想做多模态生物识别系统的开 发。赵天娜[19] 初步研究了多伴随直觉模糊粗糙 集与三支决策模型的简单结合。鉴于模型与三支 决策组合的优越性,本文将进一步深入地研究用 三支决策模型处理混合数据分类问题更优化的方 式,代价敏感多伴随模糊粗糙集模型赋予三支语 义,并在决策代价最小化意义下优化混合数据三 支分类结果,扩展三支决策理论的应用范围。 本文的贡献可从以下几个方面体现:混合数 据的非结构化,互补以及大量冗余无关信息等特 点造成数据的高度不确定性,因此数据分类不一 致性和模糊性使得挖掘混合数据蕴含的内部信息 有难度。找出数值型和符号型属性之间的各种关 系,降低分类的不确定性是混合数据挖掘中亟待 解决的问题。针对上述问题,本文用多个伴随对 模拟不同类型属性之间的关系,多伴随算子可充 分表达不同类型属性对对象之间的偏好,同时考 虑了获取不同类型属性值的代价,提出代价敏感 多伴随模糊粗糙集模型。给出充分体现此模型特 点的概率公式,并优化了损失函数。改造三支决 策模型,挖掘出不同类型属性的关系特点。针对 混合数据的不确定性特点,提出此模型。此模型 是数据特点驱动的,从数据本质出发,分析混合 数据的特点,找出数值型属性和符号型属性之间 的各种关系。 1 基本概念 1.1 多伴随模糊粗糙集理论 Cornelis 等 [20] 提出的多伴随模糊粗糙集理论 研究了多伴随对与模糊粗糙集理论结合的基本定 义和简单性质。 (P1,⩽1)、(P2,⩽2)、(P3,⩽3) & : P1 × P2 → P3 ↙: P3 × P2 → P1 ↖: P3 × P1 → P2 (&,↙,↖) 定义 1 [20] 给定偏序集 和映射 , , ,称 是一个伴随三元组,如果满足: x ∈ P1, y ∈ P2,z ∈ P3 x⩽1z ↙ y ⇔ x&y⩽3 z ⇔ y⩽2z ↖ x 1 )对于 ,都有 ; 2) & 在 P1、P2、P3 上是保序映射; 3) ↙,↖ 在第 1 和第 2 论域上是保序映射。 (L1,L2,P,&1,··· ,&n) (A,U,R,τ) A U R : A×U → P P τ : A× A → {1,2,··· ,n} A× A 定义 2 [20] 设 是多伴随框 架,称 为多伴随背景,其中 是非空对 象集, 是非空属性集, 是 -模糊关 系,满足自反性和对称性。 是将 中元素对映射到多伴随框架上一个特 定的伴随三元组。 第 6 期 赵天娜,等:面向混合数据的多伴随三支决策 ·1093·
·1094· 智能系统学报 第14卷 定义32o,在模糊决策信息系统(U,AUId) 传感器产生的,获取途径差异很大,采集不同类 中,给定属性子集BSA,和P模糊关系R。:X×X→ 型属性付出的代价均不相同。在现实生活中,考 PYa∈A,对于x,y∈U,模糊关系Rs:U×U→P定 虑经济因素,研究人员希望用几个代价较小的属 义为: 性,提取同样有价值的信息,因此不同类型的属 Rs(x,y)=@(pg(a1,…,中g(am) (1) 性代价是必不可少要考虑的因素。本文希望用更 其中@:Pm→P是一个聚合算子,对于a∈A,有 少的代价获取更有价值的信息。 R(xy,a∈B 定义6设A=(U,AUD)是混合数据决策系 蛤(a= Tp,aB 统,U是非空论域,AnD=中,A=As UAR,As={a1, 其中TP是P的最大值。 a2,…,a,…,am}和AR={am+1,am+2,…,am+i,…,am+n} 定义421在多伴随面向属性框架(CL,L, 分别是符号和数值型条件属性的集合。获取对象 &1,…,&)下,考虑形式背景(U,U,Ra,t),对于xy∈U, x分别关于不同模态属性As和AR的信息付出的 定义似然算子↑.:L”→L“和必然算子1:L”→L 代价为CosL,、Costr。考虑模态属性代价得到的权 g(x)=sup(Rg(x,y)&(y)ly EU] (2) 重w定义如下: f(y)=inflf(x)rRg(x.y)lxEU) (3) 1)对于a:∈As,ie{1,2,…,m以,每个属性的权重 那么g.是g的上近似,“是f的下近似。其中 定义为: 1 Costs L'表示所有由U映射到L的函数的集合。 w= (7) As|Costs Costs 定义52o1对于模糊子集h∈L',(h,h)称为 2)对于a∈AR,i∈{m+1,m+2,…,m+n,每个 多伴随模糊粗糙集。 属性的权重定义为: 1.2基于决策粗糙集的三支决策 w=1 Costg (8) ARI Costs Costg 决策粗糙集模型用状态集和行动集来描述决 策过程。状态集2={C,C}中的2个状态分别表 定义7设A°=(U,AUD)是混合数据决策系 示某事件属于C和不属于C,行动集A={ar,a,aw 统,U是非空论域,AnD=Φ,对于a∈A,a-模糊关 分别表示接受某事件、延迟决策和拒绝某事件 系R:U×U→[0,1定义如下: Ra(x,y)=1-a(x)-a(y) 3种行动,用p、BP、P;PN、BN、N表示采取 YBSA,B-模糊关系R定义如下: 不同的行动会产生不同的损失,分别表示当x属 Rg(x,y)=wSg(a)+…+wSp分(am)+ 于C或x不属于C时采取行动A={ap,ag,aw}的损失。 (9) 采取3种行动的期望损失函数由如下式子表示: 听g'(am+i)+…+wf馆(am+n) 其中:A→[0,1]定义如下: R(apl[x])=APPP(CI[x])+PN P(-CI[x]) (4) R(aBl[x])=4BPP(CI[x])+4BN P(-CI[x]) (5) Φ(a@={ R(x,y),aEB 1,a年B R(aNl[x])=INP P(CI[x])+ANN P(-CI[x]) (6) 性质1RS满足自反性和对称性。 式中:P(C=C;川是基数:冈表示x关于 证明1)由的定义可知,R(x,x)=1,进而 推出Rs(x,x)=1。因此,R满足自反性。 R的等价类。 2)因为R.(xy)=1-la(x)-ayl,并且R0,x)= 根据贝叶斯决策规则,以期望损失函数最小 1-lay)-a(xl,所以R.(,y)=R.0y,x)。由Rs的定 为原则选择最佳行动方案,决策规则如下: 义可知,R(x,y)=RS,x)。因此,R满足对称性。 (P)若R(apl[x)≤R(aglx)且R(apl[x)≤R(awl[x), 则x∈POS(C); 性质2R满足单调性,即B:SB2→R,≤R%g (B)若R(aslx)≤R(aplx)且R(aslx])≤R(awlx), 证明1)若B1=B2,则显然R=R,。 则x∈BNDC); 2)若B:CB2,则必存在a:∈B2,但是a:B1。 N若R(awl[x)≤R(arl[x)且R(awlx)≤R(aslx), 由p”(a)=1,p”(a)=Ra(x,y以,则”(a)≤中”(a)。 则x∈NEG(C)。 对于其他属性aeB,nB2=B,有”(a)=g”(a) 成立。由R的定义可知,R≤Rs, 2代价敏感多伴随模糊粗糙集 定义8在多伴随面向属性框架(PL,L,&1,…, 混合数据的数值型和符号型属性是由多通道 &n)下,考虑有代价的形式背景(U,U,Rs,t),对于
(U,A∪{d}) B ⊆ A Ra : X × X → P,∀a ∈ A, x, y ∈ U RB : U ×U → P 定义 3 [ 2 0 ] 在模糊决策信息系统 中,给定属性子集 ,和 P-模糊关系 对于 ,模糊关系 定 义为: RB(x, y) = @(ϕ x,y B (a1),··· , ϕx,y B (am)) (1) @ : P 其中 m →P 是一个聚合算子,对于 a ∈ A ,有 ϕ x,y B (a) = Ra(x, y), a ∈ B TP, a < B 其中 TP 是 P 的最大值。 (P,L,L, &1,··· ,&n) (U,U,RB,τ) x, y ∈ U ↑π : L U → L U ↓ N : L U → L U 定义 4 [ 2 0 ] 在多伴随面向属性框架 下,考虑形式背景 ,对于 , 定义似然算子 和必然算子 g ↑π (x) = sup{RB (x, y)&τ(x,y)g(y)|y ∈ U} (2) f ↓ N (y) = inf{f(x)↖τ(x,y)RB(x, y)|x ∈ U} (3) g ↑π g f ↓ N f L U U L 那么 是 的上近似, 是 的下近似。其中 表示所有由 映射到 的函数的集合。 h ∈ L U (h ↓ N ,h ↑π 定义 5 ) [20] 对于模糊子集 , 称为 多伴随模糊粗糙集。 1.2 基于决策粗糙集的三支决策 Ω = {C,¬C} C C A = {aP,aB,aN} λPP、λBP、λNP λPN、λBN、λNN x C x C A = {aP,aB,aN} 决策粗糙集模型用状态集和行动集来描述决 策过程。状态集 中的 2 个状态分别表 示某事件属于 和不属于 ,行动集 分别表示接受某事件、延迟决策和拒绝某事件 3 种行动,用 ; 表示采取 不同的行动会产生不同的损失,分别表示当 属 于 或 不属于 时采取行动 的损失。 采取 3 种行动的期望损失函数由如下式子表示: R(aP|[x]) = λPPP(C|[x])+λPN P(¬C|[x]) (4) R(aB|[x]) = λBPP(C|[x])+λBN P(¬C|[x]) (5) R(aN|[x]) = λNPP(C|[x])+λNN P(¬C|[x]) (6) P(C|[x]) = |C ∩[x]| |[x]| | · | [x] x R 式中: ; 是基数; 表示 关于 的等价类。 根据贝叶斯决策规则,以期望损失函数最小 为原则选择最佳行动方案,决策规则如下: R(aP|[x]) ⩽ R(aB|[x]) R(aP|[x]) ⩽ R(aN|[x]) x ∈ POS (C) (P) 若 且 , 则 ; R(aB|[x]) ⩽ R(aP|[x]) R(aB|[x]) ⩽ R(aN|[x]) x ∈ BND(C) (B) 若 且 , 则 ; R(aN|[x]) ⩽ R(aP|[x]) R(aN|[x]) ⩽ R(aB|[x]) x ∈ NEG(C) (N) 若 且 , 则 。 2 代价敏感多伴随模糊粗糙集 混合数据的数值型和符号型属性是由多通道 传感器产生的,获取途径差异很大,采集不同类 型属性付出的代价均不相同。在现实生活中,考 虑经济因素,研究人员希望用几个代价较小的属 性,提取同样有价值的信息,因此不同类型的属 性代价是必不可少要考虑的因素。本文希望用更 少的代价获取更有价值的信息。 A ∗ = (U,A∪ D) U A∩ D = ϕ A = AS ∪ AR a2,··· ,ai ,··· ,am} AR = {am+1,am+2,··· ,am+i ,··· ,am+n} x AS AR Costr CostR w C i 定义 6 设 是混合数据决策系 统, 是非空论域, , ,AS = {a1 , 和 分别是符号和数值型条件属性的集合。获取对象 分别关于不同模态属性 和 的信息付出的 代价为 、 。考虑模态属性代价得到的权 重 定义如下: 1) 对于 ai ∈ AS ,i ∈ {1,2,··· ,m} ,每个属性的权重 定义为: w C S = 1 |AS | CostS CostS +CostR (7) 2) 对于 ai ∈ AR,i ∈ {m+1,m+2,··· ,m+n} ,每个 属性的权重定义为: w C R = 1 |AR| CostR CostS +CostR (8) A ∗ = (U,A∪ D) U A∩ D = ϕ a ∈ A a Ra : U ×U → [0,1] 定义 7 设 是混合数据决策系 统, 是非空论域, ,对于 , -模糊关 系 定义如下: Ra(x, y) = 1−|a¯(x)−a¯(y)| ∀B ⊆ A B R C , B -模糊关系 定义如下: R C B (x, y) = w C S ϕ x,y B (a1)+···+w C S ϕ x,y B (am)+ w C R ϕ x,y B (am+1)+···+w C R ϕ x,y B (am+n) (9) ϕ x,y B 其中 : A → [0,1] 定义如下: ϕ x,y B (a) = { Ra(x, y), a ∈ B 1, a < B R C 性质 1 B 满足自反性和对称性。 R C B Ra (x, x) R C B (x, x) R C B 证明 1) 由 的定义可知, =1,进而 推出 =1。因此, 满足自反性。 Ra (x, y) = 1−|a¯ (x)−a¯ (y)| Ra (y, x) = 1−|a¯ (y)−a¯ (x)| Ra (x, y) = Ra (y, x) R C B R C B (x, y) = R C B (y, x) R C B 2) 因为 ,并且 ,所以 。由 的定 义可知, 。因此, 满足对称性。 R C B B1 ⊆ B2 ⇒ R C B2 ⩽ R C 性质 B1 2 满足单调性,即 。 B1 = B2 R C B2 = R C 证明 B1 1) 若 ,则显然 。 B1 ⊂ B2 ai ∈ B2 ai < B1 φ (x,y) B1 (ai)=1,φ (x,y) B2 (ai)=Rai (x, y) ϕ (x,y) B2 (ai) ⩽ ϕ (x,y) B1 (ai) aj ∈ B1 ∩ B2 = B1 ϕ (x,y) B2 ( aj ) = ϕ (x,y) B1 ( aj ) R C B R C B2 ⩽ R C B1 2) 若 ,则必存在 ,但是 。 由 ,则 。 对于其他属性 ,有 成立。由 的定义可知, 。 (P,L,L,&1,··· , &n) (U,U,R C B ,τ) 定义 8 在多伴随面向属性框架 下,考虑有代价的形式背景 ,对于 ·1094· 智 能 系 统 学 报 第 14 卷
第6期 赵天娜,等:面向混合数据的多伴随三支决策 ·1095· m∈L“,定义似然算子↑.:L'→L”和必然算子 种双延迟代价目标函数的策略。本文借鉴这一思 w:L'→L":对于x,yeL 想,在代价敏感多伴随模糊粗糙集模型上,给出 me(x)=sup(Rg(x,y)&rm(y)ly EU) (10) 充分贴近此模型特点的概率定义,并优化做延迟 决策s时的非线性损失函数,期望得到更准确处 me (y)=inf(m(x)(x,y)xEU) (11) 理分类任务的三支决策模型。 其中,m是m的上近似,m心是m的下近似。 对于模糊子集m∈L,称(m,m正)为代价敏 FaB) FaB) 感多伴随模糊粗糙集。 经过对代价敏感多伴随模糊粗糙集的研究, 本文发现,添加一个简单条件后,它仍满足经典 FaB) 的粗糙集中上下近似的性质。由性质1和性质 -Pr(X l[x]) 0 a 1 2可知,本文定义的关系R%满足文献[13]中关系 7 B R的性质,因此,本文中代价敏感多伴随模糊粗 图1经典三支决策FN、FP、F:的线性关系 Fig.1 Classical linear relation diagram of three decisions 糙集的上下近似需添加的条件和文献[7]中3.2 中命题1的条件一致。 FaB) 性质3对于m∈L', FH(a.B) 1)若满足m(x)人1≤(,则mEy)≤my)。 FdaB) 2)若满足m(x)≤1&.m(x),则m)≤mCGy)o F"daB) 证明过程可参照文献[12]中3.2中命题1的 证明。 0 B"uy a' aPXI网 图2新型三支决策FN,FP,F,F的非线性关系 3基于代价敏感多伴随模糊粗糙集 Fig.2 Novel linear relation diagram of three decisions 的新型三支决策模型 3.1改进的三支决策模型 基于决策粗糙集的经典三支决策模型利用状 改进的三支决策模型,与传统三支决策模型 态集2={C,C}和行动集A={ar,a,aw}描述决策 相比,p、w、p、N定义不变,只改进p、N和 过程。采取不同的行动产生不同的损失函数矩阵 ”P、'”N,如表2,它们的含义为:分别从正域和 如表1所示,这些损失函数满足0>pe-N和Np-NN>BP-车N>”sP- 由经验可知,对象属于状态集的概率直接影 '"sN>p-N,本文只讨论图2这种非线性的情 响决策过程。在三支决策模型中,体现为概率是 况。其他情况类似,在此不再赘述。 定义决策目标函数(期望损失函数)的关键因 表2新型模糊损失函数矩阵 素。因此,给出体现模型特点的概率定义对精确 Table 2 New fuzzy loss function matrix 决策至关重要。 C 在经典的三支决策模型中,代价与决策的条 ap App PN 件概率是单调的线性关系,如图1,但在实际生活 即 N 中,三支决策的代价与决策的条件概率之间存在 着非单调情况”,如图2,针对这种现象,徐健锋 p N 等以延迟代价目标函数为研究对象,提出了一 aN ANP N
m ∈ L U ↑π : L U → L U ↓N : L U → L U x, y ∈ L ,定义似然算子 和必然算子 :对于 m ↑π C (x) = sup{R C B (x, y)&τ(x,y)m(y)|y ∈ U} (10) m ↓ N C (y) = inf{m(x)↖τ(x,y)R C B (x, y)|x ∈ U} (11) m ↑π C m m ↓ N 其中, 是 的上近似, C 是 m 的下近似。 m ∈ L X (m ↓ N C ,m ↑ π C 对于模糊子集 ,称 ) 为代价敏 感多伴随模糊粗糙集。 R C B RB 经过对代价敏感多伴随模糊粗糙集的研究, 本文发现,添加一个简单条件后,它仍满足经典 的粗糙集中上下近似的性质。由性质 1 和性质 2 可知,本文定义的关系 满足文献 [13] 中关系 的性质,因此,本文中代价敏感多伴随模糊粗 糙集的上下近似需添加的条件和文献 [7] 中 3.2 中命题 1 的条件一致。 m ∈ L 性质 U 3 对于 , m(x)↖τ(x,x)1 ⩽ m(x) m ↓ N C 1) 若满足 ,则 (y) ⩽ m(y)。 m(x) ⩽ 1&τ(x,x)m(x) m(y) ⩽ m ↑ π C 2) 若满足 ,则 (y)。 证明过程可参照文献 [12] 中 3.2 中命题 1 的 证明。 3 基于代价敏感多伴随模糊粗糙集 的新型三支决策模型 Ω = {C,¬C} A = {aP,aB,aN} λPP 0 > λPP −λPN λNP −λNN > λ ′ BP −λ ′ BN > λ ′′ BP− λ ′′ BN > λPP −λPN 改进的三支决策模型,与传统三支决策模型 相比, 定义不变,只改进 和 ,如表 2,它们的含义为:分别从正域和 负域视角出发,实际为正域元素和负域元素但决 策时被划分为延迟域的 2 组代价函数。正域决策 代价目标函数 、负域决策代价目标函数 不变, 只改进双延迟决策代价目标函数,记为 。 由于非线性函数 有很多种定义方式,不同的定 义方式导致不同的非线性函数 ,为了简化和一 般性,本文选取最简单的非线性模型进行说明, 由这 2 个线性函数组成一个非线性函数,并假设 和 ,本文只讨论图 2 这种非线性的情 况。其他情况类似,在此不再赘述。 表 2 新型模糊损失函数矩阵 Table 2 New fuzzy loss function matrix λ C ¬C aP λPP λPN aB λ ′ BP λ ′ BN λ ′′ BP λ ′′ BN aN λNP λNN 第 6 期 赵天娜,等:面向混合数据的多伴随三支决策 ·1095·
·1096· 智能系统学报 第14卷 Fp AppPr(XI[xlg)+APN (1-Pr(XI[xlg)) PP(Clx)=m (x) (16) FN ANPPr (XI[xlg)+ANN (1-Pr(XI[x]lR)) 定义12对象x分别采取A={ap,ag,aw}3种 F8=pPr(XI[xl)+(1-Pr(XI[x]R)) 行动的悲观模糊期望损失函数计算公式为: F(aplx)"=ppp(Clx)+(1-PP(Cx)) (17) FB=X”BPPr(XI[xR)+A”"sN(I-Pr(XI[xR)》 令Fg=F,解得Pr(XI[UR)=μ。 (A"BpP"(CIx)+1"BN(1-P"(Clx)).PP(Cx)u F(aglx)"= F”B,Pr(XI[xR)≥4 所以FB=} P"(C)+(1-P"(C)),P(C)<u F's,Pr(XIxR)<μ (18) 多伴随模糊粗糙集充分考虑了数值型和符号 F(aNx)=INPPP(CIx)+iNN(1-P(Cx)) (19) 型属性之间的互补性、关联性、大量无关冗余信 比较F(aplx)P、F(alx)f、F(awx)P的大小,确定行 息的特点,用此模型从混合数据中提取的蕴含信 动a,(i∈{PB,N)使悲观模糊期望损失函数FP最小。 息高效体现对象属于状态集的可能性程度。本文 定义13(乐观概率) 用3种策略描述对象属于状态集的概率。 P(Cx)=m'-(x) (20) 定义9(平均概率)对象x属于状态集C的 定义14对象x采取习={ap,ag,aw}3种行动 平均概率定义为: 的乐观模糊期望损失函数计算公式为: PCr)=m(+m“x) (12) F(aplx)=APpP(Cx)+APN(1-PO(Clx)) (21) "BpPO(Cx)+"BN(1-PO(Cr),PO(Cx)≥μ F(aslx)= 定义10对象x分别采取={ar,as,aw}3种 ipp(Cx)+(1-P(Cx)),PO(Clx)<u 行动的平均模糊期望损失函数计算公式为: (22) F(avlx)=INpPO(CIx)+iNN(1-PO(Cx)) (23) F(aplx)=AppP(Cx)+(1-P(Cx)) (13) 4 基于代价敏感多伴随模糊粗糙集 4"BPP(Cx)+4"BN (1-P(CIx)),P(Clx) F(aBlx)= 的三支决策算法 P(Cx)+(1-P(Cl)).P(CI)< (14) 本文提出的基于代价敏感多伴随模糊粗糙集 F(aNlx)=iNpP(Cx)+iNN(1-P(C)) (15) 的三支决策算法,是处理具有偏好的模糊信息的 不确定性决策理论,以最小期望损失为目标,得 比较F(apld、F(aslE、F(awd的大小,确定行 到损失最小的决策。 动a,i∈{P,B,W)使平均模糊期望损失函数F最小。 本文仅以乐观概率为例给出混合数据分类的 定义11(悲观概率)对象x属于状态集C的 基于代价敏感多伴随模糊粗糙集的三支决策算 悲观概率定义为: 法。整个算法流程图,如图3所示。 期望损失 代价敏感多伴随模糊 po(r). Fay=Po(x)) 粗糙集(mm) FaP=n,,p,,Pox》 FaP=pw,Por》 as=arg min(F(apx)o.Faaxyo,F(ay) a.7 输入:混合 数据集 正域POS 边界域BND 负域NEG 图3三支决策算法的流程 Fig.3 Flow chart of three decision algorithms 比较F(apx)P、F(ale)、F(awlx)的大小,确Fo最小。 定行动a,i∈{PB,W)使乐观模糊期望损失函数 算法1基于代价敏感多伴随模糊粗糙集的
FP = λPPPr(X |[x]R )+λPN (1−Pr(X |[x]R )) FN = λNPPr(X |[x]R )+λNN (1−Pr(X |[x]R )) F ′ B = λ ′ BPPr(X |[x]R )+λ ′ BN (1−Pr(X |[x]R )) F ′′ B = λ ′′ BPPr(X |[x]R )+λ ′′ BN (1−Pr(X |[x]R )) F ′ B=F ′′ B Pr(X |[x]R 令 ,解得 )=µ。 FB = F ′′ B, Pr(X |[x]R ) ⩾ µ F ′ B, Pr(X |[x]R ) < µ 所以 多伴随模糊粗糙集充分考虑了数值型和符号 型属性之间的互补性、关联性、大量无关冗余信 息的特点,用此模型从混合数据中提取的蕴含信 息高效体现对象属于状态集的可能性程度。本文 用 3 种策略描述对象属于状态集的概率。 定义 9 (平均概率) 对象 x 属于状态集 C 的 平均概率定义为: P¯(C|x ) = 1 2 (m ↑π (x)+m ↓ N (x)) (12) 定义 10 对象 x 分别采取 A = {aP,aB,aN} 3 种 行动的平均模糊期望损失函数计算公式为: F(aP|x) = λPPP¯(C|x )+λPN(1− P¯(C|x )) (13) F(aB|x) = λ ′′ BPP¯(C|x )+λ ′′ BN ( 1−P¯(C|x ) ) ,P¯(C|x ) ⩾ µ λ ′ BPP¯(C|x )+λ ′ BN ( 1−P¯(C|x ) ) ,P¯(C|x ) < µ (14) F(aN|x) = λNPP¯(C|x )+λNN(1− P¯(C|x )) (15) F(aP|x)、F(aB|x)、F(aN|x) ai(i ∈ {P,B,N}) F¯ 比较 的大小,确定行 动 使平均模糊期望损失函数 最小。 定义 11 (悲观概率) 对象 x 属于状态集 C 的 悲观概率定义为: P P (C|x ) = m ↓ N (x) (16) 定义 12 对象 x 分别采取 A = {aP,aB,aN} 3 种 行动的悲观模糊期望损失函数计算公式为: F(aP|x) P = λPPP P (C|x )+λPN(1− P P (C|x )) (17) F(aB|x) P = λ ′′ BPP P (C|x )+λ ′′ BN ( 1−P P (C|x ) ) ,P P (C|x ) ⩾ µ λ ′ BPP P (C|x )+λ ′ BN ( 1−P P (C|x ) ) ,P P (C|x ) < µ (18) F(aN|x) P = λNPP P (C|x )+λNN(1− P P (C|x )) (19) F(aP|x) P、F(aB|x) P、F(aN|x) P ai(i ∈ {P,B,N}) F P 比较 的大小,确定行 动 使悲观模糊期望损失函数 最小。 定义 13 (乐观概率) P O (C|x ) = m ↑π (x) (20) 定义 14 对象 x 采取 A = {aP,aB,aN} 3 种行动 的乐观模糊期望损失函数计算公式为: F(aP|x) O = λPPP O (C|x )+λPN(1− P O (C|x )) (21) F(aB|x) O = λ ′′ BPP O (C|x )+λ ′′ BN ( 1−P O (C|x ) ) ,P O (C|x ) ⩾ µ λ ′ BPP O (C|x )+λ ′ BN ( 1−P O (C|x ) ) ,P O (C|x ) < µ (22) F(aN|x) O = λNPP O (C|x )+λNN(1− P O (C|x )) (23) 4 基于代价敏感多伴随模糊粗糙集 的三支决策算法 本文提出的基于代价敏感多伴随模糊粗糙集 的三支决策算法,是处理具有偏好的模糊信息的 不确定性决策理论,以最小期望损失为目标,得 到损失最小的决策。 本文仅以乐观概率为例给出混合数据分类的 基于代价敏感多伴随模糊粗糙集的三支决策算 法。整个算法流程图,如图 3 所示。 输入:混合 数据集 aB = arg min(F(aP |x) O , F(aB |x) O ,F(aN |x) O ) a* F(aP |x) O = f(λ PP , λ PN ,P O (x)) F(aN |x) O = f(λ NP , λ NN ,P O (x)) F(aB |x) O = f(λ′ BP , λ′ BN , λ″ BP , λ″ BN ,P O (x)) 期望损失 P O (x), λ RB C 正域 POS 边界域 BND 负域 NEG 代价敏感多伴随模糊 粗糙集(mC N ,mC π ) ↓ ↓ 图 3 三支决策算法的流程 Fig. 3 Flow chart of three decision algorithms F(aP|x) O、F(aB|x) O、F(aN|x) O ai(i ∈ {P,B,N}) 比较 的大小,确 定行动 使乐观模糊期望损失函数 F O 最小。 算法 1 基于代价敏感多伴随模糊粗糙集的 ·1096· 智 能 系 统 学 报 第 14 卷
第6期 赵天娜,等:面向混合数据的多伴随三支决策 ·1097· 乐观三支决策算法 表3混合数据的决策表 输入混合数据决策表(U,AUD),属性代价 Table 3 Decision table of heterogeneous data Costs,Costg,模糊集m,损失函数矩阵1。 a a2 d 输出行动集,分类精度Acc。 0.25 1 X 0 0.63 0 0 1)根据定义7,计算模糊关系; X3 0 0.13 0 0 2)For每个对象x∈U 4 0.35 根据定义8,计算代价敏感多伴随模糊粗糙 0 0.36 1 1 X6 集(mw,m2; 1 1 X 1 0.43 0 0 根据定义13,计算乐观概率P(C)=m(x): 设每个对象对应的m(x)的值分别为:0.76 根据定义14,计算采取3种行动A={ar,as, 0.17、0.15、0.76、0.53、1、0,由定义8,利用Godel aw的期望损失Fa、Fa、Faw; t模和相应的蕴含算子构造的伴随对(&cc,下c), 比较期望损失函数Fm,ie{PB,NM,选择期望 Productt模和相应的蕴含算子构造的伴随对(&p 损失F。最小的行动集a:作为最佳行动方案; /p,p,其中x&cy=min{x,yhz人Gx= zelsei= 1,x≤z sum(a-d) G;x&y=x*y;x=min(1,/xh p=Po 计算分类精度Acc=1- -{么287得到代价敏感多 End For 伴随模糊粗糙集为: 3)Return行动集d,分类精度Acc。 m2(x1)=0.50,m2(2)=0.17,m2(x3)=0.15,m2(x)= 5实例验证 0.50,m2(xs)=0.50,m2(x6)=0.50,m2(x)=0:m2()= 0.76,(2)=0.17,m()=0.15,m(4)=0.76 设混合数据的决策表(U,AUD)如表3,获取符 m2(xs)=0.53,m2(x6)=1,m2(x)=0 号型属性和数值型属性的代价比为Costs:Cost= 由对象属于状态集的概率的定义11,得Pc)= 1,则由定义6得每个符号型属性和数值型属性的 0.76、P(x)=0.17、P(x)=0.15、P(x)=0.76、P(x)= 权重分别为哈=子、哈=分由定义7得到模糊关 0.53、P(x6)=1、P(x)=0。 参照徐健锋中双延迟代价双量化三支决策 系R。如表4所示。 模型第4章模型1的参数: 表4模糊关系RS Table 4 Fuzzy relation Rg RE 古 3 专 专 x 0.5 0.375 0.375 0.5 0.375 0.5 0.5 0.375 0.5 0.5 0.375 0.5 0.375 0.375 0.375 0.5 0.5 0.375 0.5 0.375 0.375 X4 0.5 0.375 0.375 0.5 0.375 0.5 0.5 0.375 0.5 0.5 0.375 0.5 0.375 0.375 X6 0.5 0.375 0.375 0.5 0.375 0.5 0.5 0.5 0.375 0.375 0.5 0.375 0.5 0.5 pm=0.00,pw=2.00,X'Bp=0.25,1BN=1.00 得到数据分类如表5所示,由此可知分类精 1”"Bp=1.00,1”BN=0.25,1p=2.00,w=0.00 度为85.7%。 以代价风险函数最小为原则,得到数据分类 表5是分别采用乐观概率,悲观概率,平均概 规则为: 率时,对每个对象的采取决策的结果,从结果可 ap, P(x)<0.36 知,依据3种概率得到的期望损失函数的判断结 d= aB, 0.36≤P(x)≤0.65 aN, P(x)<0.65 果是一致的
乐观三支决策算法 (U,A∪ D) CostS , CostR m λ 输入 混合数据决策表 ,属性代价 ,模糊集 ,损失函数矩阵 。 →− 输出 行动集 ai,分类精度 Acc。 R C 1) 根据定义 7,计算模糊关系 B ; 2) For 每个对象 x ∈ U (m ↓N C ,m ↑π C ) 根据定义 8,计算代价敏感多伴随模糊粗糙 集 ; P O (C| x) = m ↑π 根据定义 13,计算乐观概率 (x) ; A = {aP,aB, aN} FaP、FaB、FaN 根据定义 14,计算采取 3 种行动 的期望损失 ; Fai ,i ∈ {P,B,N} Fai ai 比较期望损失函数 ,选择期望 损失 最小的行动集 作为最佳行动方案; Acc = 1− sum( a¯ −d¯ ) |U| 计算分类精度 ; End For →− 3) Return 行动集 ai,分类精度 Acc。 5 实例验证 (U,A∪ D) CostS : CostR = w C S = 1 4 、w C R = 1 2 R C B 设混合数据的决策表 如表 3,获取符 号型属性和数值型属性的代价比为 1,则由定义 6 得每个符号型属性和数值型属性的 权重分别为 ,由定义 7 得到模糊关 系 。如表 4 所示。 (&G,↙G,↖G) (&P, ↙P,↖P) x&Gy=min{x, y} z↖G x= { 1, x ⩽ z z, else ↙G = ↖G x&Ly = x ∗ y z↖P x = min{1,z/x} ↙P = ↖P 设每个对象对应的 m(x) 的值分别为:0.76、 0.17、0.15、0.76、0.53、1、0,由定义 8,利用 Godel t 模和相应的蕴含算子构造的伴随对 , Product t 模和相应的蕴含算子构造的伴随对 ,其中 ; ; ; ; ; 。 τ ( xi , xj ) = { G, j = 1,3,5,7,i ∈ |U| P, j = 2,4,6, i ∈ |U| ,得到代价敏感多 伴随模糊粗糙集为: m ↓N C (x1) = 0.50,m ↓N C (x2) = 0.17,m ↓N C (x3) = 0.15,m ↓N C (x4) = 0.50,m ↓N C (x5) = 0.50,m ↓N C (x6)=0.50,m ↓N C (x7)=0;m ↑π C (x1)= 0.76,m ↑π C (x2) = 0.17,m ↑π C (x3) = 0.15,m ↑π C (x4) = 0.76 m ↑π C (x5) = 0.53,m ↑π C (x6) = 1,m ↑π C (x7) = 0 由对象属于状态集的概率的定义 11,得 P (x1 ) = 0.76、P (x2 ) = 0.17、P (x3 ) = 0.15、P (x4 ) = 0.76、P (x5 ) = 0.53、P (x6 ) = 1、P (x7 ) = 0。 参照徐健锋[16] 中双延迟代价双量化三支决策 模型第 4 章模型 1 的参数: R C 表 B 4 模糊关系 R C Table 4 Fuzzy relation B R C B x1 x2 x3 x4 x5 x6 x7 x1 0.5 0.375 0.375 0.5 0.375 0.5 0.5 x2 0.375 0.5 0.5 0.375 0.5 0.375 0.375 x3 0.375 0.5 0.5 0.375 0.5 0.375 0.375 x4 0.5 0.375 0.375 0.5 0.375 0.5 0.5 x5 0.375 0.5 0.5 0.375 0.5 0.375 0.375 x6 0.5 0.375 0.375 0.5 0.375 0.5 0.5 x7 0.5 0.375 0.375 0.5 0.375 0.5 0.5 λPP = 0.00, λPN = 2.00, λ ′ BP = 0.25, λ ′ BN = 1.00 λ ′′ BP = 1.00, λ ′′ BN = 0.25, λNP = 2.00, λNN = 0.00 以代价风险函数最小为原则,得到数据分类 规则为: a = aP, P(x) < 0.36 aB, 0.36 ⩽ P(x) ⩽ 0.65 aN, P(x) < 0.65 得到数据分类如表 5 所示,由此可知分类精 度为 85.7%。 表 5 是分别采用乐观概率,悲观概率,平均概 率时,对每个对象的采取决策的结果,从结果可 知,依据 3 种概率得到的期望损失函数的判断结 果是一致的。 表 3 混合数据的决策表 Table 3 Decision table of heterogeneous data U a1 a2 a3 d x1 1 0.25 1 1 x2 0 0.63 0 0 x3 0 0.13 0 0 x4 1 0.35 1 1 x5 0 0.36 1 1 x6 1 1 1 1 x7 1 0.43 0 0 第 6 期 赵天娜,等:面向混合数据的多伴随三支决策 ·1097·
·1098· 智能系统学报 第14卷 表5乐观、悲观、平均概率情况下数据分类结果 1993,13(1)7-33 Table 5 Data classification results in positive,negative,av- [7]SUSMAGA R.Computation of minimal cost reducts[M]// erage cases RAS Z W,SKOWRON A.Foundations of Intelligent Sys- U X2 X3 X4 Xs X6 X7 tems.Berlin,Heidelberg:Springer,1999:448-456. 乐观 ap aN ap ag ap an [8]FAN Min,HE Huaping,QIAN Yuhua,et al.Test-cost- sensitive attribute reduction[J.Information sciences,2011. 悲观 aB aN aBaBaB aN 181(22):4928-4942. 平均 ap aNaN aB as ap an [9]TURNEY P D.Cost-sensitive classification:empirical evaluation of a hybrid genetic decision tree induction al- 6结束语 gorithm[].Journal of artificial intelligence research,1995, 2(1:369-409. 混合数据的分类问题是研究热点。本文从混 [10]JU Hengrong,LI Huaxiong,YANG Xibei,et al.Cost- 合数据的模糊性和符号型、数据型属性的不一致 sensitive rough set:a multi-granulation approach[J]. 性等特点出发,利用多伴随,模糊粗糙集给出不 Knowledge-based systems,2017,300:137-153 同类型属性之间的不同度量,考虑不同类型属性 [11]YAO Yiyu.Three-way decisions with probabilistic rough 的代价,期望花费最小的代价得到最有价值的信 sets[J].Information sciences,2017,180(3):341-353. 息。在延迟代价双量化的基础上,研究了多种不 [12]YAO Y Y,WONG S K M.A decision theoretic frame- work for approximating concepts[J].International journal 同的模糊概率策略,构造了混合数据分类过程中 of man-machine studies,1992,37(6):793-809. 的三支决策模型。该模型既能反应出数据本身的 [13]LIANG Decui,LIU Dun.Deriving three-way decisions 客观不确定性,也可以表达决策者主观上对不同 from intuitionistic fuzzy decision-theoretic rough sets[J]. 类型属性的偏好及数值型和符号型属性数据获得 Information sciences,2015,300:28-48. 难易程度的认识。未来可继续研究更多的模糊粗 [14]LIANG Decui,XU Zeshui,LIU Dun.Three-way de- 糙集的扩展模型,期望在超大规模数据集上刻画 cisions based on decision-theoretic rough sets with dual 混合数据的精确表示,挖掘出更多数据内部蕴含 hesitant fuzzy information[J].Information sciences,2017, 396:127-143 的信息。 [15]QIAO Junsheng,HU Baoqing.On transformations from 参考文献: semi-three-way decision spaces to three-way decision spaces based on triangular norms and triangular cono- [1]YANG Rong,WANG Zhenyuan,HENG P A,et al.Classi- rms[J].Information sciences,2018,432:22-51. fication of heterogeneous fuzzy data by choquet integral [16]徐健锋,苗夺谦,张远健.基于混淆矩阵的多目标优化 with fuzzy-valued integrand[J].IEEE transactions on fuzzy 三支决策模型).模式识别与人工智能,2017,30(9): systems,,2007,15(5):931-942 859-864. [2]HU Qinghua,ZHANG Lingjun,ZHOU Yucan,et al. XU Jianfeng,MIAO Duoqian,ZHANG Yuanjian.Three- Large-scale multimodality attribute reduction with multi- way decisions model for multi-object optimization based kernel fuzzy rough sets[J].IEEE transactions on fuzzy sys- on confusion matrix[J].Pattern recognition and artificial tems,2018.26(1:226-238 intelligence,2017,30(9):859-864. [3]MI Jusheng,LEUNG Y,ZHAO Huiyin,et al.Generalized [17刀徐健锋,苗夺谦,张远健.延迟代价双量化三支决策) fuzzy rough sets determined by a triangular norm[J].In- 小型微型计算机系统,2019,40(2):260-266. formation sciences,2008,178:3203-3213. XU Jianfeng,MIAO Duoqian,ZHANG Yuanjian. Double-quantification of cost function with deferment for [4]FENG Tao,MI Jusheng,ZHANG Shaopu.Belief func- three-way decisions[J].Journal of Chinese computer sys- tions on general intuitionistic fuzzy information systems[J]. tems.2019,40(2):260-266. Information sciences,2014,271:143-158 [18]AL-HMOUZ R,PEDRYCZ W,DAQROUQ K,et al.De- [5]MEDINA J.OJEDA-ACIEGO M.VALVERDE A.et al. velopment of multimodal biometric systems with three- Towards biresiduated multi-adjoint logic program- way and fuzzy set-based decision mechanisms[J].Interna- ming[M]//CONEJO R,URRETAVIZCAYA M,PEREZ- tional journal of fuzzy systems,2018,20(1):128-140. DE-LA-CRUZ J L.Current Topics in Artificial Intelli- [19]赵天娜,米据生,解滨,等.基于多伴随直觉模糊粗糙集 gence.Berlin,Heidelberg:Springer,2004:608-617. 的三支决策).南京大学学报(自然科学),2017,53(6): [6]TAN Ming.Cost-sensitive learning of classification know- 1081-1090. ledge and its applications in robotics[J].Machine learning. ZHAO Tianna,MI Jusheng,XIE Bin,et al.Three-way de-
表 5 乐观、悲观、平均概率情况下数据分类结果 Table 5 Data classification results in positive, negative, average cases U x1 x2 x3 x4 x5 x6 x7 乐观 aP aN aN aP aB aP aN 悲观 aB aN aN aB aB aB aN 平均 aP aN aN aB aB aP aN 6 结束语 混合数据的分类问题是研究热点。本文从混 合数据的模糊性和符号型、数据型属性的不一致 性等特点出发,利用多伴随,模糊粗糙集给出不 同类型属性之间的不同度量,考虑不同类型属性 的代价,期望花费最小的代价得到最有价值的信 息。在延迟代价双量化的基础上,研究了多种不 同的模糊概率策略,构造了混合数据分类过程中 的三支决策模型。该模型既能反应出数据本身的 客观不确定性,也可以表达决策者主观上对不同 类型属性的偏好及数值型和符号型属性数据获得 难易程度的认识。未来可继续研究更多的模糊粗 糙集的扩展模型,期望在超大规模数据集上刻画 混合数据的精确表示,挖掘出更多数据内部蕴含 的信息。 参考文献: YANG Rong, WANG Zhenyuan, HENG P A, et al. Classification of heterogeneous fuzzy data by choquet integral with fuzzy-valued integrand[J]. IEEE transactions on fuzzy systems, 2007, 15(5): 931–942. [1] HU Qinghua, ZHANG Lingjun, ZHOU Yucan, et al. Large-scale multimodality attribute reduction with multikernel fuzzy rough sets[J]. IEEE transactions on fuzzy systems, 2018, 26(1): 226–238. [2] MI Jusheng, LEUNG Y, ZHAO Huiyin, et al. Generalized fuzzy rough sets determined by a triangular norm[J]. Information sciences, 2008, 178: 3203–3213. [3] FENG Tao, MI Jusheng, ZHANG Shaopu. Belief functions on general intuitionistic fuzzy information systems[J]. Information sciences, 2014, 271: 143–158. [4] MEDINA J, OJEDA-ACIEGO M, VALVERDE A, et al. Towards biresiduated multi-adjoint logic programming[M]//CONEJO R, URRETAVIZCAYA M, PÉREZDE-LA-CRUZ J L. Current Topics in Artificial Intelligence. Berlin, Heidelberg: Springer, 2004: 608−617. [5] TAN Ming. Cost-sensitive learning of classification knowledge and its applications in robotics[J]. Machine learning, [6] 1993, 13(1): 7–33. SUSMAGA R. Computation of minimal cost reducts[M]// RAŚ Z W, SKOWRON A. Foundations of Intelligent Systems. Berlin, Heidelberg: Springer, 1999: 448−456. [7] FAN Min, HE Huaping, QIAN Yuhua, et al. Test-costsensitive attribute reduction[J]. Information sciences, 2011, 181(22): 4928–4942. [8] TURNEY P D. Cost-sensitive classification: empirical evaluation of a hybrid genetic decision tree induction algorithm[J]. Journal of artificial intelligence research, 1995, 2(1): 369–409. [9] JU Hengrong, LI Huaxiong, YANG Xibei, et al. Costsensitive rough set: a multi-granulation approach[J]. Knowledge-based systems, 2017, 300: 137–153. [10] YAO Yiyu. Three-way decisions with probabilistic rough sets[J]. Information sciences, 2017, 180(3): 341–353. [11] YAO Y Y, WONG S K M. A decision theoretic framework for approximating concepts[J]. International journal of man-machine studies, 1992, 37(6): 793–809. [12] LIANG Decui, LIU Dun. Deriving three-way decisions from intuitionistic fuzzy decision-theoretic rough sets[J]. Information sciences, 2015, 300: 28–48. [13] LIANG Decui, XU Zeshui, LIU Dun. Three-way decisions based on decision-theoretic rough sets with dual hesitant fuzzy information[J]. Information sciences, 2017, 396: 127–143. [14] QIAO Junsheng, HU Baoqing. On transformations from semi-three-way decision spaces to three-way decision spaces based on triangular norms and triangular conorms[J]. Information sciences, 2018, 432: 22–51. [15] 徐健锋, 苗夺谦, 张远健. 基于混淆矩阵的多目标优化 三支决策模型 [J]. 模式识别与人工智能, 2017, 30(9): 859–864. XU Jianfeng, MIAO Duoqian, ZHANG Yuanjian. Threeway decisions model for multi-object optimization based on confusion matrix[J]. Pattern recognition and artificial intelligence, 2017, 30(9): 859–864. [16] 徐健锋, 苗夺谦, 张远健. 延迟代价双量化三支决策 [J]. 小型微型计算机系统, 2019, 40(2): 260–266. XU Jianfeng, MIAO Duoqian, ZHANG Yuanjian. Double-quantification of cost function with deferment for three-way decisions[J]. Journal of Chinese computer systems, 2019, 40(2): 260–266. [17] AL-HMOUZ R, PEDRYCZ W, DAQROUQ K, et al. Development of multimodal biometric systems with threeway and fuzzy set-based decision mechanisms[J]. International journal of fuzzy systems, 2018, 20(1): 128–140. [18] 赵天娜, 米据生, 解滨, 等. 基于多伴随直觉模糊粗糙集 的三支决策 [J]. 南京大学学报 (自然科学), 2017, 53(6): 1081–1090. ZHAO Tianna, MI Jusheng, XIE Bin, et al. Three-way de- [19] ·1098· 智 能 系 统 学 报 第 14 卷
第6期 赵天娜,等:面向混合数据的多伴随三支决策 ·1099· cisions with multi-adjoint intuitionistic fuzzy rough 苗夺谦,男,1964年生,教授,博 sets[J].Journal of Nanjing University (Natural Science). 士生导师,主要研究方向为人工智能 机器学习、大数据分析、粒度计算。主 2017,53(6):1081-1090. 持完成国家自然科学基金项目6项, [20]CORNELIS C,MEDINA J,VERBIEST N.Multi-adjoint 在研项目有国家重点研发计划课题和 fuzzy rough sets:definition,properties and attribute selec- 公安部重点计划项目。荣获CAAI吴 tion[J].International journal of approximate reasoning, 文俊人工智能自然科学奖二等奖、国 2014.55(1上412-426. 家教学成果二等奖,授权专利12项。出版教材和学术著作 作者简介: 10部。发表学术论文100余篇。 赵天娜.女,1992年生.博士研究 米据生,男,1966年生,教授,博 生,主要研究方向为模糊粗糙集、多伴 士生导师,主要研究方向为粗糙集、粒 随理论、人工智能、机器学习。 计算、概念格、数据挖掘与近似推理。 主持国家自然科学基金项目3项,教 育部博土点基金项目1项。获得省级 自然科学奖3项。发表学术论文130 余篇。 International Conference on Robotics and Automation (ICRA 2020) ICRA is the IEEE Robotics and Automation Society's flagship conference and the premier internation- al forum for robotics researchers to present and discuss their work.The conference will include plenary ses- sions,contributed paper sessions,workshops and tutorial sessions,forums,videos,exhibitions,and robot challenges. 会议日期:May31 to June4,2020 会议地点:Palais des Congres de Paris,Paris,France 网站:htp://icra2020.org
cisions with multi-adjoint intuitionistic fuzzy rough sets[J]. Journal of Nanjing University (Natural Science), 2017, 53(6): 1081–1090. CORNELIS C, MEDINA J, VERBIEST N. Multi-adjoint fuzzy rough sets: definition, properties and attribute selection[J]. International journal of approximate reasoning, 2014, 55(1): 412–426. [20] 作者简介: 赵天娜,女,1992 年生,博士研究 生,主要研究方向为模糊粗糙集、多伴 随理论、人工智能、机器学习。 苗夺谦,男,1964 年生,教授,博 士生导师,主要研究方向为人工智能、 机器学习、大数据分析、粒度计算。主 持完成国家自然科学基金项目 6 项, 在研项目有国家重点研发计划课题和 公安部重点计划项目。荣获 CAAI 吴 文俊人工智能自然科学奖二等奖、国 家教学成果二等奖,授权专利 12 项。出版教材和学术著作 10 部。发表学术论文 100 余篇。 米据生,男,1966 年生,教授,博 士生导师,主要研究方向为粗糙集、粒 计算、概念格、数据挖掘与近似推理。 主持国家自然科学基金项目 3 项,教 育部博士点基金项目 1 项。获得省级 自然科学奖 3 项。发表学术论文 130 余篇。 International Conference on Robotics and Automation (ICRA 2020) ICRA is the IEEE Robotics and Automation Society’s flagship conference and the premier international forum for robotics researchers to present and discuss their work. The conference will include plenary sessions, contributed paper sessions, workshops and tutorial sessions, forums, videos, exhibitions, and robot challenges. 会议日期:May 31 to June 4, 2020 会议地点:Palais des Congrès de Paris, Paris, France 网站: http://icra2020.org/ 第 6 期 赵天娜,等:面向混合数据的多伴随三支决策 ·1099·