第14卷第3期 智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201804055 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180607.1357.002html 基于模糊超网络的知识获取方法研究 程麟焰2,胡峰2 (1.重庆邮电大学计算机科学与技术学院,重庆400065,2.重庆邮电大学计算智能重庆市重点实验室,重庆 400065) 摘要:本文结合模糊粗糙集理论与超网络的相关知识,提出了一种模糊超网络模型。与传统超网络模型的不 同之处在于,模糊超网络模型采用了模糊等效关系来代替超网络中的分明等效关系,并在此基础上对超边的生 成和演化进行了改进。根据样本的分布将样本集划分成3个区域,即正域、边界域和负域,不同区域的样本按 照不同的方式生成超边:根据分类效果将超边集也划分成3个区域,并对不同区域的超边进行相应地替换处 理。实验结果表明,在正确率、Precision、Recall等指标上,模糊超网络分类算法具有明显的优势。 关键词:模糊等价;模糊集;模糊粗糙集;三支决策:超网络;知识获取方法;分类算法 中图分类号:TP18文献标志码:A文章编号:1673-4785(2019)03-0479-12 中文引用格式:程麟焰,胡峰.基于模糊超网络的知识获取方法研究智能系统学报,2019,14(3):479-490. 英文引用格式:CHENG Linyan,HU Feng.Fuzzy hypernetwork-based knowledge acquisition method J.CAAI transactions on in- telligent systems,2019,14(3):479-490. Fuzzy hypernetwork-based knowledge acquisition method CHENG Linyan,HU Feng'2 (1.College of Computer Science and Technology,Chongqing University of Posts and Telecommunications,Chongqing 400065, China;2.Chongqing Key Laboratory of Computational Intelligence,Chongqing University of Posts and Telecommunications, Chongqing 400065,China) Abstract:Combining the fuzzy rough set theory with the related knowledge on hypernetworks,this paper proposes a fuzzy hypernetwork mode.In comparison with the traditional hypernetwork model,the fuzzy hypernetwork model uses the fuzzy equivalence relationship to replace the distinct equivalence relation in hypernetworks and then improves the generation and evolution of hyperedges on this basis.First,the samples are divided into three regions according to their distribution:positive,boundary,and negative regions.The samples of different regions generate hyperedges in different ways.Second,the hyperedges are also divided into three regions according to their classification results,and the corres- ponding replacement of hyperedges in different regions is implemented.The experimental results show that the fuzzy hypernetwork classification algorithm presents prominent advantages in terms of accuracy,precision,and recall,thus proving the validity of the classification algorithm. Keywords:fuzzy equivalence;fuzzy set;fuzzy rough set;three-way decision;hypernetworks;knowledge acquisition method:classification algorithm 模糊粗糙集理论是1990年由D.Dubios和H.Prade共同提出的处理数值型数据中存在的不 收稿日期:2018-04-26.网络出版日期:2018-06-07. 一致性的数学理论山。经过多年的发展,模糊粗 基金项目:国家自然科学基金项目(61533020,61472056 61309014):重点产业共性关键技术创新专项项目 糙集在理论和应用方面都取得了相当丰富的研究 (cstc2017zdcy-zd小yf0332,cstc2017zdcy-zdzx0046):重庆 市基础与前沿项目(cstc2017 jcyjAX0408). 成果,在系统控制、故障诊断、机器学习与数据挖 通信作者:程麟焰.E-mail:496732322@qq,com. 掘等众多领域都有着广泛的应用。经典的粗糙集
DOI: 10.11992/tis.201804055 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180607.1357.002.html 基于模糊超网络的知识获取方法研究 程麟焰1,2,胡峰1,2 (1. 重庆邮电大学 计算机科学与技术学院,重庆 400065; 2. 重庆邮电大学 计算智能重庆市重点实验室,重庆 400065) 摘 要:本文结合模糊粗糙集理论与超网络的相关知识,提出了一种模糊超网络模型。与传统超网络模型的不 同之处在于,模糊超网络模型采用了模糊等效关系来代替超网络中的分明等效关系,并在此基础上对超边的生 成和演化进行了改进。根据样本的分布将样本集划分成 3 个区域,即正域、边界域和负域,不同区域的样本按 照不同的方式生成超边;根据分类效果将超边集也划分成 3 个区域,并对不同区域的超边进行相应地替换处 理。实验结果表明,在正确率、Precision、Recall 等指标上,模糊超网络分类算法具有明显的优势。 关键词:模糊等价;模糊集;模糊粗糙集;三支决策;超网络;知识获取方法;分类算法 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2019)03−0479−12 中文引用格式:程麟焰, 胡峰. 基于模糊超网络的知识获取方法研究[J]. 智能系统学报, 2019, 14(3): 479–490. 英文引用格式:CHENG Linyan, HU Feng. Fuzzy hypernetwork-based knowledge acquisition method[J]. CAAI transactions on intelligent systems, 2019, 14(3): 479–490. Fuzzy hypernetwork-based knowledge acquisition method CHENG Linyan1,2 ,HU Feng1,2 (1. College of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing 400065, China; 2. Chongqing Key Laboratory of Computational Intelligence, Chongqing University of Posts and Telecommunications, Chongqing 400065, China) Abstract: Combining the fuzzy rough set theory with the related knowledge on hypernetworks, this paper proposes a fuzzy hypernetwork mode. In comparison with the traditional hypernetwork model, the fuzzy hypernetwork model uses the fuzzy equivalence relationship to replace the distinct equivalence relation in hypernetworks and then improves the generation and evolution of hyperedges on this basis. First, the samples are divided into three regions according to their distribution: positive, boundary, and negative regions. The samples of different regions generate hyperedges in different ways. Second, the hyperedges are also divided into three regions according to their classification results, and the corresponding replacement of hyperedges in different regions is implemented. The experimental results show that the fuzzy hypernetwork classification algorithm presents prominent advantages in terms of accuracy, precision, and recall, thus proving the validity of the classification algorithm. Keywords: fuzzy equivalence; fuzzy set; fuzzy rough set; three-way decision; hypernetworks; knowledge acquisition method; classification algorithm 模糊粗糙集理论是 1990 年由 D.Dubios 和 H.Prade 共同提出的处理数值型数据中存在的不 一致性的数学理论[1]。经过多年的发展,模糊粗 糙集在理论和应用方面都取得了相当丰富的研究 成果,在系统控制、故障诊断、机器学习与数据挖 掘等众多领域都有着广泛的应用。经典的粗糙集 收稿日期:2018−04−26. 网络出版日期:2018−06−07. 基金项目:国家自然科学基金项 目 (61533020, 61472056, 61309014);重点产业共性关键技术创新专项项目 (cstc2017zdcy-zdyf0332, cstc2017zdcy-zdzx0046);重庆 市基础与前沿项目 (cstc2017jcyjAX0408). 通信作者:程麟焰. E-mail:496732322@qq.com. 第 14 卷第 3 期 智 能 系 统 学 报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019
·480· 智能系统学报 第14卷 理论强调的是对象间的不可区分性,主要用于处 定义2设P是U上的模糊相似关系,对于 理清晰、离散且有限的属性值,而在实际生活中 给定的x∈U,令xp=p(x,y),y∈U,则[xp是论 大部分的数据集都具有多种多样的属性值,粗糙 域U上的一个模糊集,称其为x关于P的模糊邻 集在处理这些本身具有模糊性的数据和连续属性 域o。(x,)表示由模糊相似关系P确定的对象 时存在一定的局限性四。粗糙集理论中的等效关 x和y之间的模糊相似度,可由式(1)确定: 系是研究模糊粗糙集理论的基础,将经典粗糙集 4(,y >u(x.y)P (1) 理论中的被近似对象由清晰集转换为模糊集,并 将论域上的分明等效关系弱化为模糊等效关系即 对于属性a∈P,若a为连续属性,则(x,y) 可得到模糊粗糙集。 可由式(2)表示的模糊相似度确定: 超网络(hypernetworks)是受生物分子网络启 (a(x)-a(y) ua(x,y))=exp (2) 发而建立的一种基于超图实现的认知学习模型, 20.2 能够表示模式特征间的高阶关联关系。目前, 式中:σ。表示所有对象在属性a上取值的标准方 差。若α为离散属性,则按式(3)计算模糊相似度: 国内的研究者们主要研究演化超网络模型,探究 0,a(x)≠ay) 其应用领域并在此基础上对超网络模型进行改 ua(x,y)= 11,a(x)=ay) (3) 进。王进等结合OCDD算法,提出了一种能处 式中a(x)、ay)分别表示对象x、y在属性a上的属 理多值数据的细粒度超网络分类方法;王进等 性值。 在超网络的演化学习过程中引入遗传算法,从而 定义3给定决策表(U,AUD),P是U上的 得到了一种具有较高的分类准确率的模式识别方 模糊相似关系,对于给定的x∈U有 法;为了处理多类型癌症分子问题,王进等提出 闲pa={yμp(x,y)≥,1∈[0,1]} (4) 了一种基于演化超网的多类型癌症分子分型系 式中:[x称为x关于P的-等价类;实数入为模 统。同时,在中文文本分类⑧、评分预测、道路限 糊相似度阈值。 速标志识别等方面,演化超网络模型也得到了 定义4设(U,P)是模糊近似空间,U为论 很好的应用。超网络的研究在国内起步较晚,在 域,P是U上的模糊相似关系,(U,P)上的(L,T)-模 许多领域都值得研究和学习。 糊粗糙近似是一个映射Apr:F(U→F(U)xF(U, 任意X∈F(U),Apr:F(X)=(PX,PTX),其中,PX 本文结合模糊粗糙集的思想提出了一种模 糊超网络(fuzzy hypernetworks,F-hypernet- 称为X在(U,P)中的L下模糊粗糙近似回、pTx称 为T上模糊粗糙近似,两者的隶属函数描述为 works)。在模糊超网络中,对于连续型的属性不 ugax(x)=infsevl(up(x.y).ux(y)).VxEU (5) 需要对其进行离散化处理,解决了传统超网络只 HFx()=supyeuT(μp(x,y)4xy),x∈U (6) 能处理离散型属性的问题,并对传统超网络训 对y∈U,若y∈X,则uxy为1,否则为0。 练过程中具有很大随机性的超边替代环节进行了 4(x,y)由式(I)确定。其中I表示边缘蕴含算子、 改进。 T表示-模: /(x,y)=min(1-x+y,1) (7) 1相关概念 T(x.y)=max(x+y-1,0) (8) 1.1模糊等价类 根据式(⑤),对象x关于模糊正域的隶属度] 定义1给定决策表(U,AUD),其中:U为非 可表示为 空有限论域;A为条件属性集合,也称特征集合; upos(D (x)=sup uex(x) (9) XEUjD D为决策属性集合,也称类别属性集。在没有说 在模糊粗糙集条件下,决策属性D对条件属 明的情况下,属性是指条件属性。PA对应一个 性集P的依赖度为 不可分辨的等效关系,简记为P。若P满足: LPOS (x) ∑4 POSAADY(x) 1)自反性,x∈U,μp(x,x)=l k=yp(D)=- (10) 1U1 IUI 2)对称性,Yx,y∈U,(,y)=y,x k值的大小,反映了条件属性集P的分类能 则称P为U上的模糊相似关系o。 力。决策属性D对属性集P的依赖程度越大,以
理论强调的是对象间的不可区分性,主要用于处 理清晰、离散且有限的属性值,而在实际生活中 大部分的数据集都具有多种多样的属性值,粗糙 集在处理这些本身具有模糊性的数据和连续属性 时存在一定的局限性[2]。粗糙集理论中的等效关 系是研究模糊粗糙集理论的基础,将经典粗糙集 理论中的被近似对象由清晰集转换为模糊集,并 将论域上的分明等效关系弱化为模糊等效关系即 可得到模糊粗糙集[3]。 超网络 (hypernetworks) 是受生物分子网络启 发而建立的一种基于超图实现的认知学习模型, 能够表示模式特征间的高阶关联关系[4]。目前, 国内的研究者们主要研究演化超网络模型,探究 其应用领域并在此基础上对超网络模型进行改 进。王进等[5]结合 OCDD 算法,提出了一种能处 理多值数据的细粒度超网络分类方法;王进等[6] 在超网络的演化学习过程中引入遗传算法,从而 得到了一种具有较高的分类准确率的模式识别方 法;为了处理多类型癌症分子问题,王进等[7]提出 了一种基于演化超网的多类型癌症分子分型系 统。同时,在中文文本分类[8] 、评分预测、道路限 速标志识别[9]等方面,演化超网络模型也得到了 很好的应用。超网络的研究在国内起步较晚,在 许多领域都值得研究和学习。 本文结合模糊粗糙集的思想提出了一种模 糊超网络 (fuzzy hypernetworks, F-hypernetworks)。在模糊超网络中,对于连续型的属性不 需要对其进行离散化处理,解决了传统超网络只 能处理离散型属性的问题,并对传统超网络训 练过程中具有很大随机性的超边替代环节进行了 改进。 1 相关概念 1.1 模糊等价类 P ⊆ A 定义 1 给定决策表 (U, A∪D),其中:U 为非 空有限论域;A 为条件属性集合,也称特征集合; D 为决策属性集合,也称类别属性集。在没有说 明的情况下,属性是指条件属性。 对应一个 不可分辨的等效关系,简记为 P。若 P 满足: 1) 自反性, ∀x ∈ U,µP(x, x) = 1 ; 2) 对称性, ∀x, y ∈ U,µP(x, y) = µP(y, x) ; 则称 P 为 U 上的模糊相似关系[10]。 x ∈ U [x]P = µP(x, y) y ∈ U [x]P µP(x, y) 定义 2 设 P 是 U 上的模糊相似关系,对于 给定的 ,令 , ,则 是论 域 U 上的一个模糊集,称其为 x 关于 P 的模糊邻 域 [10]。 表示由模糊相似关系 P 确定的对象 x 和 y 之间的模糊相似度,可由式 (1) 确定: µP(x, y) = ∑ a∈p µa(x, y) / |P| (1) 对于属性 a ∈ P ,若 a 为连续属性,则 µa(x, y) 可由式 (2) 表示的模糊相似度确定: µa(x, y) = exp( − (a(x)−a(y))2 2σa 2 ) (2) 式中:σa 表示所有对象在属性 a 上取值的标准方 差。若 a 为离散属性,则按式 (3)[11]计算模糊相似度: µa(x, y) = { 0, a(x) , a(y) 1, a(x) = a(y) (3) 式中a(x)、a(y) 分别表示对象 x、y 在属性 a 上的属 性值。 x ∈ U 定义 3 给定决策表 (U, A∪D),P 是 U 上的 模糊相似关系,对于给定的 有 [x]Pλ = { y|µP(x, y) ⩾ λ, λ ∈ [0,1]} (4) 式中: [x]Pλ 称为 x 关于 P 的 λ-等价类;实数 λ 为模 糊相似度阈值。 (U,P) (U,P) Apr : F (U) → F (U)× F (U) X ∈ F (U) Apr : F (X) = (PIX,PTX) PIX (U,P) PTX 定义 4 设 是模糊近似空间,U 为论 域,P 是 U 上的模糊相似关系, 上的 (I, T)-模 糊粗糙近似是一个映射 , 任 意 , ,其中, 称为 X 在 中的 I-下模糊粗糙近似[12] 、 称 为 T-上模糊粗糙近似[12] ,两者的隶属函数描述为 µPIX(x) = infy∈U I(µP(x, y), µX(y)), ∀x ∈ U (5) µPT X (x) = supy∈U T (µP(x, y), µX(y)), ∀x ∈ U (6) ∀y ∈ U y ∈ X µX(y) µP(x, y) 对 ,若 ,则 为 1,否则为 0。 由式 (1) 确定。其中 I 表示边缘蕴含算子、 T 表示 t-模 [3] : I(x, y) = min(1− x+y,1) (7) T(x, y) = max(x+y−1,0) (8) 根据式 (5),对象 x 关于模糊正域的隶属度[13] 可表示为 µPOSP(D) (x) = sup X∈U/D µPIX (x) (9) 在模糊粗糙集条件下,决策属性 D 对条件属 性集 P 的依赖度[13]为 k = γ ′ P (D) = µPOSP(D) (x) |U| = ∑ x∈U µPOSP(D) (x) |U| (10) k 值的大小,反映了条件属性集 P 的分类能 力。决策属性 D 对属性集 P 的依赖程度越大,以 ·480· 智 能 系 统 学 报 第 14 卷
第3期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·481· P为依据进行分类的效果越好。以表1所示的决 ya(D)=0.1185 策信息系统为例计算各个属性的依赖度。 y,(D)=0.2210 表1决策信息系统 由此可以计算出每个属性的依赖度,并称其 Table 1 Decision information system 为属性的重要度。 样本 a 0 1.2模糊超网络模型 1 -0.4 -0.3 0.5 3 -0.4 0.2 -0.1 上 定义5设G=是一个模糊超网络, 3 -0.3 -0.4 0.3 N X={,,…,x}表示模糊超网络的顶点集合, 0.3 -0.3 0 E={e1,e,…,en}为超网络的超边集合,1为模糊超 5 0.2 -0.3 0 Y 6 0.2 0 0 网络模型的最优模糊相似度阈值。超边的条件属 性集为C={c,c2,…,c,D为超边的决策属性,e a1、a2、a为条件属性,D为决策属性。对于 是超边集E中连接k个顶点x,x2,…,x的超 所有x,y∈U,根据式(I)分别计算关于条件属性 边。其中顶点:为样本,且一条超边中的样本具 a1、a2、a的对象间的模糊相似度: 有相同的属性集。 μa,(x,y)= 定义6模糊超网络G=,模糊超 1.00001.00000.95580.10930.19660.1966 1.00001.00000.95580.10930.19660.1966 网络G=,超边的属 0.10930.10930.19661.00000.95580.9558 性集为C={G1,C,…,c},VB(BSC),在属性集 0.19660.19660.32320.95581.00001.0000 B上,样本x={c1(x,c2(x,c3(x,…,C(,D(x},C(, 0.19660.19660.32320.95581.00001.0000 c2(x,…,c,(x)表示x在属性C上的取值,D(x)表 4a,(x,y)= 示x的决策分类。 1.00000.09740.91101.00001.00000.4324 定义8给定模糊超网络G=,样本 0.09741.00000.03490.09740.09740.6889 0.91100.03491.00000.91100.91100.2252 x在属性集B(B二C)上的1-等价类超边集合为 1.00000.09740.91101.00001.00000.4324 [xa={el(e∈E)As(x,e)≥ (11) 1.00000.09740.91101.00001.00000.4324 -等价类样本集合为 0.43240.68890.22520.43240.43241.0000 [xg=yy∈X)A4s(x,y)≥ Ha,(x,y)= 定义9给定模糊超网络G=, 1.00000.15560.62810.05460.05460.0546 0.15561.00000.62810.89020.89020.8902 Ye∈E,在属性集B(BsC)上,关联超边e的样本 0.62810.62811.00000.35120.35120.3512 集合表示为 0.05460.89020.35121.00001.00001.0000 Ra(e)={xe∈[xsa,x∈X (12) 0.05460.89020.35121.00001.00001.0000 0.05460.89020.35121.00001.00001.0000 定义10给定模糊超网络G=, 决策划分: Ye∈E,D(e)表示超边e的决策分类,在属性集 U/D={1,3,6,{2,4,5}={X1,X2} B(BcC)上,关联超边e的样本集合为Raa(e),当 x(x={1,0,1,0,0,1} Ra(e)≠O时,超边e对样本分类的置信度为 x(x)={0,1,0,1,1,01 Conf=R(e).D(x)=D()l (13) 根据式(5)可得: I{xr∈Ra(e)川 Lux(1)=0,4k(2)=0,4x(3)=0.0442 定义11给定模糊超网络G=,C为 x(4)=0,4ex(⑤)=0,4ax(⑥)=0 样本的条件属性集,D为样本的决策属性,对任 Lx()=0,0,0.0442,0,0,0 意的样本x∈X有: 1)如果fx)≥a,则x∈POS(X): 同理可得: 2)如果B<f)<a,则x∈BNDX: La4x()=0,0,0,0.0442,0,01 3)如果fx≤B或f(x)=-1,则x∈NEG(X)。 Hpos.(D (x)=sup Hax (x)= max(0,ex(x}={0,0,0.0442,0.0442,0,0 f闭=bc≥AD田=D6 ,yeX(14) Ibc(x,y)≥ a(D)=0.0147 如果{bye(x,y)≥=0则fx)=-1。x)表示 按上述方法分别求出a2、a的依赖度: 在样本x的-等价类样本集合中,与x同类的样
P 为依据进行分类的效果越好。以表 1 所示的决 策信息系统为例计算各个属性的依赖度。 表 1 决策信息系统 Table 1 Decision information system 样本 a1 a2 a3 D 1 −0.4 −0.3 −0.5 N 2 −0.4 0.2 −0.1 Y 3 −0.3 −0.4 −0.3 N 4 0.3 −0.3 0 Y 5 0.2 −0.3 0 Y 6 0.2 0 0 N x, y ∈ U a1、a2、a3 为条件属性,D 为决策属性。对于 所有 ,根据式 (1) 分别计算关于条件属性 a1、a2、a3 的对象间的模糊相似度: µa1 (x, y) = 1.000 0 1.000 0 0.955 8 0.109 3 0.196 6 0.196 6 1.000 0 1.000 0 0.955 8 0.109 3 0.196 6 0.196 6 0.955 8 0.955 8 1.000 0 0.196 6 0.323 2 0.323 2 0.109 3 0.109 3 0.196 6 1.000 0 0.955 8 0.955 8 0.196 6 0.196 6 0.323 2 0.955 8 1.000 0 1.000 0 0.196 6 0.196 6 0.323 2 0.955 8 1.000 0 1.000 0 µa2 (x, y) = 1.000 0 0.097 4 0.911 0 1.000 0 1.000 0 0.432 4 0.097 4 1.000 0 0.034 9 0.097 4 0.097 4 0.688 9 0.911 0 0.034 9 1.000 0 0.911 0 0.911 0 0.225 2 1.000 0 0.097 4 0.911 0 1.000 0 1.000 0 0.432 4 1.000 0 0.097 4 0.911 0 1.000 0 1.000 0 0.432 4 0.432 4 0.688 9 0.225 2 0.432 4 0.432 4 1.000 0 µa3 (x, y) = 1.000 0 0.155 6 0.628 1 0.054 6 0.054 6 0.054 6 0.155 6 1.000 0 0.628 1 0.890 2 0.890 2 0.890 2 0.628 1 0.628 1 1.000 0 0.351 2 0.351 2 0.351 2 0.054 6 0.890 2 0.351 2 1.000 0 1.000 0 1.000 0 0.054 6 0.890 2 0.351 2 1.000 0 1.000 0 1.000 0 0.054 6 0.890 2 0.351 2 1.000 0 1.000 0 1.000 0 决策划分: U/D = {{1,3,6},{2,4,5}}= {X1,X2} µX1 (x) = {1,0,1,0,0,1} µX2 (x) = {0,1,0,1,1,0} 根据式 (5) 可得: µa1 IX1 (1) = 0, µa1 IX1 (2) = 0, µa1 IX1 (3) = 0.044 2 µa1 IX1 (4) = 0, µa1 IX1 (5) = 0, µa1 IX1 (6) = 0 µa1 IX1 (x) = {0,0,0.044 2,0,0,0} 同理可得: µa1 IX2 (x) = {0,0,0,0.044 2,0,0} µPOSa1 (D) (x) = sup X∈U/D µa1 IX (x) = max{µa1 IX1 (x), µa1 IX2 (x)} = {0,0,0.044 2,0.044 2,0,0} γ ′ a1 (D) = 0.014 7 按上述方法分别求出 a2、a3 的依赖度: γ ′ a2 (D) = 0.118 5 γ ′ a3 (D) = 0.221 0 由此可以计算出每个属性的依赖度,并称其 为属性的重要度。 1.2 模糊超网络模型 X = {x1, x2,··· , xn} E = {e1, e2,··· , em} C = {c1, c2,··· , cs} ei xi1, xi2,··· , xik xi 定义 5 设 G=是一个模糊超网络, 表示模糊超网络的顶点集合, 为超网络的超边集合,λ 为模糊超 网络模型的最优模糊相似度阈值。超边的条件属 性集为 ,D 为超边的决策属性, 是超边 集 E 中 连 接 k 个顶点 的 超 边。其中顶点 为样本,且一条超边中的样本具 有相同的属性集。 定义 6 模糊超网络 G1=,模糊超 网络 G2=,若 X1=X2 则 λ1=λ2。 C = {c1, c2,··· , cs} ∀B(B ⊆ C) x = {c1(x), c2(x), c3(x),··· , cp(x),D(x)} c1(x), c2(x), ··· , cp(x) ci 定义 7 模糊超网络 G=,超边的属 性集为 , ,在属性 集 B 上,样本 , 表示 x 在属性 上的取值,D(x) 表 示 x 的决策分类。 B(B ⊆ C) 定义 8 给定模糊超网络 G=,样本 x 在属性集 上的 λ-等价类超边集合为 [x]Bλ = {e|(e ∈ E)∧µB (x, e) ⩾ λ} (11) λ-等价类样本集合为 [x] λ B = {y|(y ∈ X)∧µB(x, y) ⩾ λ} ∀e ∈ E B(B ⊆ C) 定 义 9 给定模糊超网 络 G = , ,在属性集 上,关联超边 e 的样本 集合表示为 RBλ (e) = {x|e ∈ [x]Bλ , x ∈ X} (12) ∀e ∈ E D(e) B(B ⊆ C) RBλ (e) RBλ (e) , Ø 定义 10 给定模糊超网络 G=, , 表示超边 e 的决策分类,在属性集 上,关联超边 e 的样本集合为 ,当 时,超边 e 对样本分类的置信度为 ConfB = |{x|x ∈ RBλ (e),D(x) = D(e)}| |{x|x ∈ RBλ (e)}| (13) x ∈ X 定义 11 给定模糊超网络 G=,C 为 样本的条件属性集,D 为样本的决策属性,对任 意的样本 有: 1) 如果 f(x) ⩾ α,则 x ∈ POS(X) ; 2) 如果 β < f(x) < α ,则 x ∈ BND(X) ; 3) 如果 f(x) ⩽ β 或 f(x) = −1 ,则 x ∈ NEG(X)。 f (x) = |{y|µC (x, y) ⩾ λ,D(x) = D(y)}| |{y|µC (x, y) ⩾ λ}| , y ∈ X (14) 如果 |{y|µC (x, y) ⩾ λ}| = 0 则 f(x) = −1。f(x) 表示 在样本 x 的 λ-等价类样本集合中,与 x 同类的样 第 3 期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·481·
·482· 智能系统学报 第14卷 本所占的比例。x)越大,说明x的模糊等价类 负域超边需满足条件: 与x类别一致的概率越大。 max{μs(x,e)}≥0.75 Dx≠DXe) 图1给出了4个样本的1-等价类样本集合, 表2样本-超边相似度 由式(14)可得:fx)=1,fx2)=0.2,f)=0, Table 2 Sample_Hyperedge similarity fx4)=-1。本文实验选取a=1,B=0,fx)≥1,故 u(e,x) ex e3 ea x1是正域样本;00.5不满足正域条件 定义12给定模糊超网络G=,C为 1),所以e是边界域超边。 样本的条件属性集,D为样本的决策属性,任意 对于超边e2,与e2相似度最高的异类样本为 超边集E'(ESE)关于属性集B的正域、负域和边 x1,(e2,x=0.30+1与 (15) 对于超边e3,与e3相似度最高的异类样本为 2 x6,(e,x)=0.77>0.75,满足负域条件,所以e是负 x∈X,e∈E) BND(E)=E'-POS(E)-NEG(E) 域超边。 对于超边e4,与e4相似度最高的异类样本为 以表1的决策信息系统为例,图2是表1的 ,4(e4,x=0.340.5满足正域条件,所以e4是 设超边与各样本的模糊相似度如表2所示,最优 正域超边。 模糊相似度阈值为1=0.5。图2中实线圆区域表 综上所述,POS(Ev)={ea},BND(E)={e,el, 示超边的λ-等价类,虚线圆区域表示该超边的。 NEG(Er)={e3}。 等价类,10=1+(1-)/2=0.75。 2模糊超网络分类算法 ▲Y类样本 ■N类样本 △Y类超边 2.1算法思路 同传统超网络一样,模糊超网络生成算法也 分为三大步骤:初始化超边集,训练样本分类,超 边替代。超网络通过迭代训练的方式进行演化学 习,当分类正确率和迭代次数满足特定条件时, 即可退出迭代,输出模型。由于传统超网络采用 图2模糊超网络示例 随机生成的方式初始化超边,增大了超边替代阶 Fig.2 Example of a Fuzzy hypergraph 段筛选和替换分类能力差的超边的难度。所以 根据式(15)、表2与图2可知,正域超边需同 本文提出的模糊超网络对超边的初始化随机生成 时满足两个条件: 进行了控制,同时在超边替代过程中,对不同域 1)5 中的超边进行相应的处理以提高超网络的分类效 2)m.e})≥0.5。 果。算法流程如图3所示
本所占的比例。f(x) 越大,说明 x 的模糊等价类 与 x 类别一致的概率越大。 f(x1) = 1 f(x2) = 0.2 f(x3) = 0 f(x4) = −1 α = 1, β = 0 f(x1) ⩾ 1 0 ,C 为 样本的条件属性集,D 为样本的决策属性,任意 超边集 关于属性集 B 的正域、负域和边 界域可分别定义为 POS(E ′ ) = {e| max D(x),D(e) {µB (x, e)} 0.5 不满足正域条件 1),所以 e1 是边界域超边。 对于超边 e2,与 e2 相似度最高的异类样本为 x1,μ(e2 , x1 )=0.300.75,满足负域条件,所以 e3 是负 域超边。 对于超边 e4,与 e4 相似度最高的异类样本为 x3,μ(e4 , x3 )=0.340.5 满足正域条件,所以 e4 是 正域超边。 POS(EY ) = {e4} BND(EY ) = {e1, e2} NEG(EY ) = {e3} 综上所述, , , 。 2 模糊超网络分类算法 2.1 算法思路 同传统超网络一样,模糊超网络生成算法也 分为三大步骤:初始化超边集,训练样本分类,超 边替代。超网络通过迭代训练的方式进行演化学 习,当分类正确率和迭代次数满足特定条件时, 即可退出迭代,输出模型。由于传统超网络采用 随机生成的方式初始化超边,增大了超边替代阶 段筛选和替换分类能力差的超边的难度[14]。所以 本文提出的模糊超网络对超边的初始化随机生成 进行了控制,同时在超边替代过程中,对不同域 中的超边进行相应的处理以提高超网络的分类效 果。算法流程如图 3 所示。 ·482· 智 能 系 统 学 报 第 14 卷
第3期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·483· 开始 根据训练集 根据训练集样本 计算最优入 生成超边 超边替代 生成超边集 初始化超边集 騷 分类,迭代 选代次数大 于100次,且连续10次运算 筛选需要 的最高分类正确率无增 替换的超边集 Y 结束 对攀类 换路 图3分类算法流程 Fig.3 Flow of this algorithm 2.1.1计算最优模糊相似度阈值1 2.1.2超边初始化 由定义6可知,每一个训练样本集都有且只 根据训练集中的样本生成模糊超网络中的超 有一个最优模糊相似度阈值入,所以本文在执行 边。本文设置每个样本直接生成5条超边,超边 分类算法前需要通过循环迭代的方法计算出最 的属性数目与样本一致。每条超边的初始化主要 优1,具体流程如图4所示。初始设置模糊相似 由条件属性初始化和决策属性初始化两部分组成。 度阈值1。为0,然后通过叠加步长来改变1。的取 1)条件属性初始化 值,在不同的值下,采用模糊超网络分类方法 条件属性初始化主要有两种方式:一种是随 对训练集进行十折交叉验证得到相应的分类正 机属性继承,超边从条件属性集中随机选择十分 之七的属性继承样本的属性值,即超边在这些属 确率。将正确率最高的。值作为最优模糊相似 性上的取值与生成该超边的样本相同。剩余属性 度阈值1执行后续的分类算法。值得注意之处在 则根据训练集在该属性上的取值范围随机生成属 于,从理论上说,对于同一个训练集,入是唯一的, 性值。如图5所示,x为样本,e为x按照随机属 本方法计算出的结果仅是一个接近的阈值,一般 性继承方式生成的超边。 步长设置越短越接近最优模糊相似度阈值。本文 x12345678910☐ 所设置的步长=0.01,足以满足实验需求。 1210665678912 开始 设置初始。0 设置步长s 图5随机属性继承示例图 Fig.5 Example of random attribute inheritance 采用模糊超网络分类算法对 训练集进行十折交叉验证 另一种是择优属性继承,超边从所有属性中 选择重要度较高的前十分之七的属性继承样本的 输出分类正确率 若≥1,则。 属性值,剩余属性上的取值则根据训练集中同类 P(),保存结果 样本在该属性上的取值范围随机生成。如图6所 少 Lo-lo+s 示,样本x拥有10个属性,首先利用样本x的- 等价类样本集合按照定义4所示的方法计算出各 个属性的重要度k,然后重新生成重要度较低的 比较PO,Ps,P2s.,PI)大小N 属性1、2、9对应的属性值。 P(n)=max(P(0),P(s),P(2s)., k0.350.230.551.000.540.40.780.400.280.66 P(1)以,则训练集的最优n x12345678910 (结束 e3355345678210 图4计算最优1流程图 图6择优属性继承示例图 Fig.4 Flow chart for calculating optimal Fig.6 Example of preferred attribute inheritance
开始 根据训练集样本 生成超边 生成超边集 利用超边集对 训练集分类 筛选需要 替换的超边集 替换需要 替换的超边 输出最高分类正确 率对应的超网络 对测试集分类 结束 输出结果 根据训练集 计算最优 λ N Y 初始化超边集 分类,迭代 超边替代 迭代次数大 于 100 次,且连续 10 次运算 的最高分类正确率无增长 图 3 分类算法流程 Fig. 3 Flow of this algorithm 2.1.1 计算最优模糊相似度阈值 λ 由定义 6 可知,每一个训练样本集都有且只 有一个最优模糊相似度阈值 λ,所以本文在执行 分类算法前需要通过循环迭代的方法计算出最 优 λ,具体流程如图 4 所示。初始设置模糊相似 度阈值 λ0 为 0,然后通过叠加步长来改变 λ0 的取 值,在不同的 λ0 值下,采用模糊超网络分类方法 对训练集进行十折交叉验证[15]得到相应的分类正 确率。将正确率最高的 λ0 值作为最优模糊相似 度阈值 λ 执行后续的分类算法。值得注意之处在 于,从理论上说,对于同一个训练集,λ 是唯一的, 本方法计算出的结果仅是一个接近的阈值,一般 步长设置越短越接近最优模糊相似度阈值。本文 所设置的步长 s=0.01,足以满足实验需求。 开始 采用模糊超网络分类算法对 训练集进行十折交叉验证 输出分类正确率 P(λ0 ),保存结果 λ0=1 比较P(0), P(s), P(2s),... ,P(1)大小 若P(n)=max{P(0), P(s), P(2s),... , P(1)},则训练集的最优 λ=n 结束 设置初始 λ0=0 设置步长s Y 若 λ0≥1,则 λ0=1 N λ0=λ0+s 图 4 计算最优 λ 流程图 Fig. 4 Flow chart for calculating optimal λ 2.1.2 超边初始化 根据训练集中的样本生成模糊超网络中的超 边。本文设置每个样本直接生成 5 条超边,超边 的属性数目与样本一致。每条超边的初始化主要 由条件属性初始化和决策属性初始化两部分组成。 1) 条件属性初始化 条件属性初始化主要有两种方式:一种是随 机属性继承,超边从条件属性集中随机选择十分 之七的属性继承样本的属性值,即超边在这些属 性上的取值与生成该超边的样本相同。剩余属性 则根据训练集在该属性上的取值范围随机生成属 性值。如图 5 所示,x 为样本,e 为 x 按照随机属 性继承方式生成的超边。 1 2 3 4 5 6 7 8 9 10 1 2 10 66 5 6 7 8 9 12 x e 图 5 随机属性继承示例图 Fig. 5 Example of random attribute inheritance 另一种是择优属性继承,超边从所有属性中 选择重要度较高的前十分之七的属性继承样本的 属性值,剩余属性上的取值则根据训练集中同类 样本在该属性上的取值范围随机生成。如图 6 所 示,样本 x 拥有 10 个属性,首先利用样本 x 的 λ- 等价类样本集合按照定义 4 所示的方法计算出各 个属性的重要度 k,然后重新生成重要度较低的 属性 1、2、9 对应的属性值。 1 2 3 4 3 4 5 6 7 8 9 10 33 55 5 6 7 8 12 10 x k 0.35 0.23 0.55 1.00 0.54 0.44 0.78 0.40 0.28 0.66 e 图 6 择优属性继承示例图 Fig. 6 Example of preferred attribute inheritance 第 3 期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·483·
·484· 智能系统学报 第14卷 2)决策属性初始化 时,需要查看超边参与分类的样本集合P(e,P(e)= 正域样本生成的超边,条件属性初始化采取 {x[xl=OAe∈En(x),x∈X),若lP(e=0说明超边 随机属性继承方式,决策属性直接继承生成该超 e在超网络对训练集的分类过程中没有起太大的 边的样本。边界域样本生成的超边,条件属性初 作用,一般选择将其替换;若P(e≠0,则按式 始化采取择优属性继承方式,决策属性直接继承 (18)计算置信度: 生成该超边的样本。负域样本生成的超边,同样 {xD(e)=D(x),xeP(e)月 Conf= (18) 采取随机属性继承的方式确定条件属性,因为其 P(e) 决策属性与原始样本相同的概率较低,所以该类 2.2算法描述 超边的决策属性是根据整个数据集确定的,与关 算法1初始化超边库算法 联该超边的样本集中的大类样本类别一致。 输入训练样本集X,最优阈值: 输出超边集E。 2.1.3训练样本分类 1)E=o 给定模糊超网络G=,决策属性的取 2)计算每个样本的-等价类样本集合,根据 值范围Vo=1,2,…,m样本x在1下的模糊等价 定义11判断样本所属区域 类超边集合为x,其中决策属性为j的超边集 3)for each x in X do 合为 4)=0 [xl=lele E[x]inD(e)=j) (16) 5)while(本文取=0.5),保留超边e,反之,则替换 4)end if 掉超边e。其中存在一种特殊情况:当关联超边 S)ife∈BND(E)then e的样本数为0时,无法计算置信度Confg。此 6)计算e的置信度Confs
2) 决策属性初始化 正域样本生成的超边,条件属性初始化采取 随机属性继承方式,决策属性直接继承生成该超 边的样本。边界域样本生成的超边,条件属性初 始化采取择优属性继承方式,决策属性直接继承 生成该超边的样本。负域样本生成的超边,同样 采取随机属性继承的方式确定条件属性,因为其 决策属性与原始样本相同的概率较低,所以该类 超边的决策属性是根据整个数据集确定的,与关 联该超边的样本集中的大类样本类别一致。 2.1.3 训练样本分类 VD = {1,2,··· ,m} [x]λ 给定模糊超网络 G=,决策属性的取 值范围 样本 x 在 λ 下的模糊等价 类超边集合为 ,其中决策属性为 j 的超边集 合为 [x]λ j = {e|e ∈ [x]λ ∩ D(e) = j} (16) 对于每一个样本 x 的分类过程如下: 1) 计算出样本 x 在 λ 下的模糊等价类超边 [x]λ; [x]λ [x]λ j 2) 将 中的超边进行分类,将决策属性为 j 的超边归类到 中, |[x]λ | = ∑ j∈VD [x]λ j (17) 3) 计算 x 的类别 D(x): D(x) = argmax( [x]λ j ) , j ∈ VD [x]λ = ∅ e1, e2,··· , en En(x) D(x) = argmax( En(x) j ) , j ∈ VD 4) 若 ,则选取与样本 x 模糊相似度最 高的 n 条超边 加入到集合 中,类 别 ,本文实验取 n=3。 采用上述分类规则对训练集的每个样本进行 分类,计算模糊超网络模型对训练集的分类正 确率。 2.1.4 超边替代 首先判断超边所在区域,然后不同的区域采 取不同的措施: 若超边 e 是正域超边,则超边 e 与训练集中 所有异类样本相似度较低,与同类样本相似度较 高,该超边的存在有助于提高分类效果,故选择 保留超边 e; 若超边 e 是负域超边,则超边 e 与训练集中 某一异类样本相似度较高,在分类的过程中超边 e 会影响其他类别的分类效果,故需要替换; 若超边 e 是边界域超边,在衡量超边 e 的分 类效果时,需要通过置信度 ConfB 进行判断,若 ConfB>γ(本文取 γ=0.5),保留超边 e,反之,则替换 掉超边 e。其中存在一种特殊情况:当关联超边 e 的样本数为 0 时,无法计算置信度 ConfB。此 P(e) P(e) = {x|[x]λ = ∅∧e ∈ En(x), x ∈ X} |P(e)| = 0 |P(e)| , 0 时,需要查看超边参与分类的样本集合 , , 若 说明超 边 e 在超网络对训练集的分类过程中没有起太大的 作用,一般选择将其替换;若 ,则按式 (18) 计算置信度: ConfB = {x|D(e) = D(x), x ∈ P(e)} |P(e)| (18) 2.2 算法描述 算法 1 初始化超边库算法 输入 训练样本集 X,最优阈值 λ; 输出 超边集 E。 1) E = ∅ 2) 计算每个样本的 λ-等价类样本集合,根据 定义 11 判断样本所属区域 3) for each x in X do 4) j=0 5) while(j<5) /*设置每个样本生成的超边数*/ 6) if x ∈ POS(X) then 7) 根据样本 x 生成超边 e,e 直接继承 x 的决 策属性,条件属性初始化采取随机属性继承方式 8) end if 9) if x ∈ NEG(X) then 10) 根据样本 x 生成超边 e,条件属性初始化 采取随机属性继承方式,决策属性根据整个数据 集确定 11) end if 12) if x ∈ BND(X) then 13) 根据 x 生成超边 e,超边直接继承 x 的决 策属性,计算在 x 的 λ-等价类样本集合中各条件 属性的依赖度,将条件属性按依赖度大小从大到 小排序,超边 e 择优选择排在前 7/10 的属性继承 样本 x 的属性值 14) end if 15) E = E ∪ {e} ;j++ 16) end while 17) end for 18) return E; /*输出初始超边库*/ 算法 2 超边替代算法 输入 训练样本集 X,最优阈值 λ,超边集 E; 输出 超边集 E。 1) for each e in E do 2) 根据定义 12 判断超边 e 所属区域 3) if e ∈ POS(E) then 4) end if 5) if e ∈ BND(E) then 6) 计算 e 的置信度 ConfB ·484· 智 能 系 统 学 报 第 14 卷
第3期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·485· 7)if Confg≤0.5then 26)return G=;/*输出模糊超网络*/ 8)参照算法1中的生成超边方法,该超边对 令训练集样本数目为n,样本的属性数目为 应的原始样本重新生成一条新超边eew,E=E-{e: m。算法1的平均时间复杂度为O(m×n2),算法 E=EUlenew) 2的时间复杂度为O(m×n),算法3的时间复杂度 9)end if 为O(m×n),所以建模的时间复杂度为O(m×n)。 10)end if 计算最优模糊相似度阈值时循环迭代所用的 ll)ife∈NEG(E)then 时间约为建模时间的10×5倍,迭代步长s在(0, 12)参照算法1,原始样本重新生成一条新超 1)范围内取值。s值越小,计算所用的时间越长, ienew,E=E-{e);E=EU(enew) 得到的结果越接近理论上的最优阈值。最优模糊 13)end if 相似度阈值是一个非常重要的参数,在部分数据 14)end for 集上,略微改变阈值,分类结果就会有较大的改 l5)return E,/体输出更新后的超边库*/ 变。对于这类数据集而言,计算最优模糊相似度 算法3生成模糊超网络算法 阈值是非常重要的环节。但也有一些数据集,例 输入训练样本集X,最优阈值: 如大部分的离散型数据集,在一定范围内改变阈 输出超网络G。 值,生成的超网络的分类效果不变,处理这些数据 1)执行算法1生成初始超边集E 集时,可以通过设置合理的步长和初始阈值,达 2)k=0,Ebes=O,Pma=0/体用于保存最高分类正 到既不影响分类效果又能减少迭代时间的目的。 确率*/ 3)while (kPmax then 序号 数据集 属性 类别数样本数 9)Pmax=P,Ebe=E;/体保存当前最优超边集*/ 1 BLOGGER 5N 2 100 10)end if 3 lymph 3C15N 148 11)执行算法2更新超边集 tae 1C4N 3 151 12)end while y flags 2C26N 194 13)m=0 5 Glass 9℃ 7 214 14)while(mPma then 12 balance-scale 4N 3 625 20)Pmax =P,Ebes=E,m-0 13 Pima diabetes 8C 2 768 21)else m++ 14 tic-tac-toe 9N 2 958 22)end if 15 car 6N 4 1728 23)执行算法2更新超边集 24)end while 注:C为continuous,N为nominal
7) if ConfB ⩽ 0.5 then E ∪ {enew} 8) 参照算法 1 中的生成超边方法,该超边对 应的原始样本重新生成一条新超边 enew,E=E−{e}; E = 9) end if 10) end if 11) if e ∈ NEG(E) then E = E ∪ {enew} 12) 参照算法 1,原始样本重新生成一条新超 边 enew,E=E−{e}; 13) end if 14) end for 15) return E; /*输出更新后的超边库*/ 算法 3 生成模糊超网络算法 输入 训练样本集 X,最优阈值 λ; 输出 超网络 G。 1) 执行算法 1 生成初始超边集 E 2) k=0,Ebest=∅,Pmax=0 /*用于保存最高分类正 确率*/ 3) while (kPmax then 9) Pmax = P,Ebest=E;/*保存当前最优超边集*/ 10) end if 11) 执行算法 2 更新超边集 12) end while 13) m=0 14) while (m Pmax then 20) Pmax = P,Ebest=E,m=0 21) else m++ 22) end if 23) 执行算法 2 更新超边集 24) end while 26) return G=;/*输出模糊超网络*/ 令训练集样本数目为 n,样本的属性数目为 m。算法 1 的平均时间复杂度为 O(m×n 2 ),算法 2 的时间复杂度为 O(m×n),算法 3 的时间复杂度 为 O(m×n 2 ),所以建模的时间复杂度为 O(m×n 2 )。 计算最优模糊相似度阈值时循环迭代所用的 时间约为建模时间的 10×s -1 倍,迭代步长 s 在 (0, 1) 范围内取值。s 值越小,计算所用的时间越长, 得到的结果越接近理论上的最优阈值。最优模糊 相似度阈值是一个非常重要的参数,在部分数据 集上,略微改变阈值,分类结果就会有较大的改 变。对于这类数据集而言,计算最优模糊相似度 阈值是非常重要的环节。但也有一些数据集,例 如大部分的离散型数据集,在一定范围内改变阈 值,生成的超网络的分类效果不变,处理这些数据 集时,可以通过设置合理的步长和初始阈值,达 到既不影响分类效果又能减少迭代时间的目的。 3 实验评价 3.1 数据集及评价指标 为验证算法的有效性,本文选取机器学习数 据库 UCI 中的 15 个数据集进行实验,每个数据集 的详细信息如表 3 所示,按数据集大小从小到大 排序。 表 3 实验数据集 Table 3 Experimental data sets 序号 数据集 属性 类别数 样本数 1 BLOGGER 5N 2 100 2 lymph 3C 15N 4 148 3 tae 1C 4N 3 151 4 flags 2C 26N 8 194 5 Glass 9C 7 214 6 breast-cancer 9N 2 286 7 Haberman 3C 2 306 8 column_2C_weka 6C 2 310 9 column_3C_weka 6C 3 310 10 ecoli 7C 8 336 11 Ionosphere 34C 2 351 12 balance-scale 4N 3 625 13 Pima_diabetes 8C 2 768 14 tic-tac-toe 9N 2 958 15 car 6N 4 1 728 注:C 为 continuous, N 为 nominal 第 3 期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·485·
·486· 智能系统学报 第14卷 混合矩阵(confusion matrix)o是一个常用的 2x Precision x Recall F-Measure 评价指标,如表4所示。TP表示正类样本被正确 Precision+Recall 预测为正类的样本数:FN、FP分别表示预测错误 正确率即分类正确样本数与分类总数之比。 本文采用正确率、查准率(Precision)、查全率 的实际正类和负类样本数目;TN表示负类样本 (Recall)、和F-Measure作为评价指标。 被正确预测为负类的样本数。 3.2实验方法 表4混合矩阵 为了考察模糊超网络分类算法的性能,本文 Table 4 Confusion matrix 采用Java语言实现算法并将其与NaiveBayes、 类别 预测为正类 预测为负类 KNN、J48(C4.5)、SMO和BP-KNN5种算法 正类 TP FN 进行对比。利用Weka2o平台,在15个数据集上 负类 FP TN 对以上算法进行对比实验,BP-KNN根据文献[I9] 设置参数,其余分类器的参数均为Weka平台下 查准率:表示被分类器预测为正类的样本中 算法的默认值。实验中模糊超网络模型所涉及的 正类样本所占的比例。计算公式为 随机种子均设为seed=1234。所有实验结果均为 TP Precision= TP+EP 采用5折交叉验证后的结果。 查全率:又称召回率,表示正类样本被分类器 3.3实验结果 正确预测为正类的比例。计算公式为 本次实验将模糊超网分类算法封装成 TP Weka平台可识别的分类器,所有的评价指标均 Recall TP+FN 由Weka平台的评估器计算并输出。表5~8分别 F-Measure指标是一种综合查全率和查准 给出了本算法与其他算法的正确率、查准率、查 率的分类评价指标: 全率和F-Measure的结果。 表5正确率值 Table 5 Accuracy % 序号 数据集 NaiveBayes KNN J48 SMO BP-KNN F-hypernetworks BLOGGER 72.0000 82.0000 73.0000 73.0000 73.0000 85.0000 2 lymph 81.7568 83.1081 73.6486 85.8108 83.7838 82.4324 3 tae 52.3179 65.5629 51.6556 56.9536 48.3444 56.2914 4 flags 56.1856 56.7010 57.2165 55.6701 58.7629 59.2784 5 Glass 47.1963 68.2243 66.8224 56.0748 63.5514 67.2897 6 breast-cancer 73.0769 70.6294 69.2308 70.2797 73.4266 73.4266 7 Haberman 74.8366 67.9739 73.5294 73.5294 70.5882 72.8758 8 column 2C weka 78.0645 78.7097 80.3226 80.0000 80.3226 80.9677 9 column 3C_weka 82.9032 78.3871 83.2258 75.4839 75.8065 81.9355 10 ecoli 85.1190 80.6548 81.2500 82.4405 85.7143 86.0119 11 lonosphere 82.3362 87.1795 90.5983 88.0342 86.6097 88.3191 12 balance-scale 91.6800 82.7200 66.7200 91.2000 82.8800 91.0400 13 Pima diabetes 75.3906 71.4844 73.0469 76.5625 73.0469 74.8698 14 tic-tac-toe 70.1461 98.4342 84.3424 98.3299 98.4342 84.6555 15 car 85.3009 92.2454 90.7407 93.3449 92.2454 90.5093 16 平均值 73.8874 77.6010 74.3567 77.1143 76.4345 78.3269
混合矩阵 (confusion matrix) [16]是一个常用的 评价指标,如表 4 所示。TP 表示正类样本被正确 预测为正类的样本数;FN、FP 分别表示预测错误 的实际正类和负类样本数目;TN 表示负类样本 被正确预测为负类的样本数。 表 4 混合矩阵 Table 4 Confusion matrix 类别 预测为正类 预测为负类 正类 TP FN 负类 FP TN 查准率:表示被分类器预测为正类的样本中 正类样本所占的比例。计算公式为 Precision = TP TP+FP 查全率:又称召回率,表示正类样本被分类器 正确预测为正类的比例。计算公式为 Recall = TP TP+FN F-Measure 指标[17]是一种综合查全率和查准 率的分类评价指标: F−Measure = 2×Precision×Recall Precision+Recall 正确率即分类正确样本数与分类总数之比。 本文采用正确率、查准率 (Precision)、查全率 (Recall)、和 F-Measure 作为评价指标。 3.2 实验方法 为了考察模糊超网络分类算法的性能,本文 采用 Java 语言实现算法并将其与 NaiveBayes、 KNN、J48(C4.5) 、SMO[18] 和 BP-KNN[19] 5 种算法 进行对比。利用 Weka[20]平台,在 15 个数据集上 对以上算法进行对比实验,BP-KNN 根据文献[19] 设置参数,其余分类器的参数均为 Weka 平台下 算法的默认值。实验中模糊超网络模型所涉及的 随机种子均设为 seed=1 234。所有实验结果均为 采用 5-折交叉验证后的结果。 3.3 实验结果 本次实验将模糊超网络分类算法封装 成 Weka 平台可识别的分类器,所有的评价指标均 由 Weka 平台的评估器计算并输出。表 5~8 分别 给出了本算法与其他算法的正确率、查准率、查 全率和 F-Measure 的结果。 表 5 正确率值 Table 5 Accuracy % 序号 数据集 NaiveBayes KNN J48 SMO BP-KNN F-hypernetworks 1 BLOGGER 72.000 0 82.000 0 73.000 0 73.000 0 73.000 0 85.000 0 2 lymph 81.756 8 83.108 1 73.648 6 85.810 8 83.783 8 82.432 4 3 tae 52.317 9 65.562 9 51.655 6 56.953 6 48.344 4 56.291 4 4 flags 56.185 6 56.701 0 57.216 5 55.670 1 58.762 9 59.278 4 5 Glass 47.196 3 68.224 3 66.822 4 56.074 8 63.551 4 67.289 7 6 breast-cancer 73.076 9 70.629 4 69.230 8 70.279 7 73.426 6 73.426 6 7 Haberman 74.836 6 67.973 9 73.529 4 73.529 4 70.588 2 72.875 8 8 column_2C_weka 78.064 5 78.709 7 80.322 6 80.000 0 80.322 6 80.967 7 9 column_3C_weka 82.903 2 78.387 1 83.225 8 75.483 9 75.806 5 81.935 5 10 ecoli 85.119 0 80.654 8 81.250 0 82.440 5 85.714 3 86.011 9 11 Ionosphere 82.336 2 87.179 5 90.598 3 88.034 2 86.609 7 88.319 1 12 balance-scale 91.680 0 82.720 0 66.720 0 91.200 0 82.880 0 91.040 0 13 Pima_diabetes 75.390 6 71.484 4 73.046 9 76.562 5 73.046 9 74.869 8 14 tic-tac-toe 70.146 1 98.434 2 84.342 4 98.329 9 98.434 2 84.655 5 15 car 85.300 9 92.245 4 90.740 7 93.344 9 92.245 4 90.509 3 16 平均值 73.887 4 77.601 0 74.356 7 77.114 3 76.434 5 78.326 9 ·486· 智 能 系 统 学 报 第 14 卷
第3期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·487· 表6查准率 Table 6 Precision 序号 数据集 NaiveBayes KNN J48 SMO BP-KNN F-hypernetworks 1 BLOGGER 0.702 0.817 0.716 0.715 0.717 0.848 2 lymph 0.816 0.833 0.735 0.860 0.830 0.826 3 tae 0.518 0.657 0.518 0.580 0.487 0.568 4 flags 0.582 0.564 0.562 0.546 0.539 0.557 5 Glass 0.482 0.680 0.661 0.510 0.613 0.661 6 breast-cancer 0.716 0.681 0.662 0.677 0.714 0.712 7 Haberman 0.715 0.664 0.688 0.541 0.624 0.656 8 column_2C_weka 0.826 0.801 0.804 0.797 0.804 0.818 9 column 3C weka 0.826 0.789 0.831 0.772 0.759 0.822 10 ecoli 0.850 0.802 0.801 0.806 0.848 0.850 11 lonosphere 0.840 0.882 0.907 0.886 0.877 0.893 12 balance-scale 0.845 0.765 0.616 0.919 0.766 0.839 13 Pima diabetes 0.749 0.711 0.727 0.760 0.722 0.747 14 tic-tac-toe 0.687 0.985 0.842 0.984 0.985 0.845 15 car 0.846 0.921 0.907 0.935 0.921 0.904 16 平均值 0.733 0.770 0.732 0.753 0.747 0.770 表7查全率 Table 7 Recall 序号 数据集 NaiveBayes KNN J48 SMO BP-KNN F-hypernetworks 1 BLOGGER 0.720 0.820 0.730 0.730 0.730 0.850 2 lymph 0.818 0.831 0.736 0.858 0.838 0.824 3 tae 0.523 0.656 0.517 0.570 0.483 0.563 4 flags 0.562 0.567 0.572 0.557 0.588 0.593 5 Glass 0.472 0.682 0.668 0.561 0.636 0.673 6 breast-cancer 0.731 0.706 0.692 0.703 0.734 0.734 7 Haberman 0.748 0.680 0.735 0.735 0.706 0.729 8 column_2C_weka 0.781 0.787 0.803 0.800 0.803 0.810 9 column 3C_weka 0.829 0.784 0.832 0.755 0.758 0.819 10 ecoli 0.851 0.807 0.813 0.824 0.857 0.860 11 lonosphere 0.823 0.872 0.906 0.880 0.866 0.883 12 balance-scale 0.917 0.827 0.667 0.912 0.829 0.910 Pima diabetes 0.754 0.715 0.730 0.766 0.730 0.749 14 tic-tac-toe 0.701 0.984 0.843 0.983 0.984 0.847 15 car 0.853 0.922 0.907 0.933 0.922 0.905 16 平均值 0.739 0.776 0.743 0.771 0.764 0.783
表 6 查准率 Table 6 Precision 序号 数据集 NaiveBayes KNN J48 SMO BP-KNN F-hypernetworks 1 BLOGGER 0.702 0.817 0.716 0.715 0.717 0.848 2 lymph 0.816 0.833 0.735 0.860 0.830 0.826 3 tae 0.518 0.657 0.518 0.580 0.487 0.568 4 flags 0.582 0.564 0.562 0.546 0.539 0.557 5 Glass 0.482 0.680 0.661 0.510 0.613 0.661 6 breast-cancer 0.716 0.681 0.662 0.677 0.714 0.712 7 Haberman 0.715 0.664 0.688 0.541 0.624 0.656 8 column_2C_weka 0.826 0.801 0.804 0.797 0.804 0.818 9 column_3C_weka 0.826 0.789 0.831 0.772 0.759 0.822 10 ecoli 0.850 0.802 0.801 0.806 0.848 0.850 11 Ionosphere 0.840 0.882 0.907 0.886 0.877 0.893 12 balance-scale 0.845 0.765 0.616 0.919 0.766 0.839 13 Pima_diabetes 0.749 0.711 0.727 0.760 0.722 0.747 14 tic-tac-toe 0.687 0.985 0.842 0.984 0.985 0.845 15 car 0.846 0.921 0.907 0.935 0.921 0.904 16 平均值 0.733 0.770 0.732 0.753 0.747 0.770 表 7 查全率 Table 7 Recall 序号 数据集 NaiveBayes KNN J48 SMO BP-KNN F-hypernetworks 1 BLOGGER 0.720 0.820 0.730 0.730 0.730 0.850 2 lymph 0.818 0.831 0.736 0.858 0.838 0.824 3 tae 0.523 0.656 0.517 0.570 0.483 0.563 4 flags 0.562 0.567 0.572 0.557 0.588 0.593 5 Glass 0.472 0.682 0.668 0.561 0.636 0.673 6 breast-cancer 0.731 0.706 0.692 0.703 0.734 0.734 7 Haberman 0.748 0.680 0.735 0.735 0.706 0.729 8 column_2C_weka 0.781 0.787 0.803 0.800 0.803 0.810 9 column_3C_weka 0.829 0.784 0.832 0.755 0.758 0.819 10 ecoli 0.851 0.807 0.813 0.824 0.857 0.860 11 Ionosphere 0.823 0.872 0.906 0.880 0.866 0.883 12 balance-scale 0.917 0.827 0.667 0.912 0.829 0.910 13 Pima_diabetes 0.754 0.715 0.730 0.766 0.730 0.749 14 tic-tac-toe 0.701 0.984 0.843 0.983 0.984 0.847 15 car 0.853 0.922 0.907 0.933 0.922 0.905 16 平均值 0.739 0.776 0.743 0.771 0.764 0.783 第 3 期 程麟焰,等:基于模糊超网络的知识获取方法研究 ·487·
·488· 智 能系统学报 第14卷 表8F-Measure值 Table 8 F-Measure 序号 数据集 NaiveBayes KNN J48 SMO BP-KNN F-hypernetworks 1 BLOGGER 0.699 0.812 0.716 0.702 0.696 0.848 2 lymph 0.812 0.830 0.733 0.857 0.827 0.823 3 tae 0.519 0.656 0.510 0.572 0.481 0.564 4 flags 0.558 0.564 0.560 0.550 0.551 0.561 5 Glass 0.440 0.680 0.663 0.513 0.616 0.665 6 breast-cancer 0.720 0.685 0.668 0.682 0.691 0.701 7 Haberman 0.703 0.671 0.678 0.623 0.641 0.646 8 column_2C_weka 0.788 0.791 0.803 0.788 0.803 0.812 9 column_3C_weka 0.826 0.786 0.832 0.727 0.758 0.820 10 ecoli 0.849 0.803 0.806 0.798 0.851 0.853 11 lonosphere 0.826 0.866 0.905 0.876 0.860 0.878 12 balance-scale 0.879 0.794 0.640 0.881 0.795 0.873 13 Pima_diabetes 0.751 0.713 0.729 0.756 0.723 0.728 14 tic-tac-toe 0.684 0.984 0.841 0.983 0.984 0.843 15 car 0.843 0.916 0.907 0.934 0.916 0.899 16 平均值 0.726 0.770 0.733 0.749 0.746 0.768 由图7可知,相较于其他5种分类算法,本文 据集上,与分类效果较好的3个算法相比,F-y- 提出的模糊超网络算法在正确率、查准率、查全 pernetworks的正确率下降了近l3%,查准率、查 率上都具有一定的优势。为了进一步考查模糊超 全率和F-Measure上的结果也相差较大。通过分 网络分类算法与对比算法之间的比较效果,本文 析可知,在tic-tac-toe数据集中,不同类别的样本 根据这6种算法在各个评价指标上的实验结果, 之间的相似度较高,约83%的样本与异类样本的 按照1、2、3、4、5、6的次序进行Rank排序评分, 最大模糊相似度不低于其与同类样本的最大模糊 得到了如表9所示的6种算法在15个实验数据 相似度。而在分类效果较好的BLOGGER数据集 集上的各项Rank平均值。 上,这种样本的数目只占总数的22%,在breast- 0.79 cancer数据集上仅有2%。由于超边对这些样本 的识别率不高,模糊超网络对其做出误判的概率 J48 SMO BP.KNN 较大,如果数据集中存在大量的这种样本,会导 -hypmetworks 致最终的分类结果不理想。 0.71 0.70 结合图7与表9可知,模糊超网络在正确率、 正确率 查准率 查全率F-Measure 评价指标 查准率、查全率、F-Measure的Rank平均值上均 为最优。本文选取的对比算法都是应用较为广泛 图7各项指标平均值柱状图 Fig.7 Average value of each indicator 的分类算法,对实际生活中的大部分数据集具有 表9不同算法在评价指标上的Rank平均值 较好分类效果。同这些优秀的算法相比,模糊超 Table 9 Rank mean of different algorithms in evalua- 网络分类算法仍具有一定的优势,在Recall、Pre- tion index cision等指标上表现出了比较好的结果。 算法 正确率 查准率 查全率 F-Measure NaiveBayes 4.133 3 3.33334.1333 3.8667 4结束语 KNN 3.60003.1333 3.6000 3.0000 J48 3.73333.8000 3.7333 3.6000 本文结合模糊粗糙集和超网络的相关知识提 SMO 3.20003.53333.2000 3.6667 出了一种模糊超网络模型,用于处理分类问题。 BP-KNN3.20003.86673.2000 3.8667 首先,根据模型的最优模糊相似度阈值λ计算样 F-hypergraph 2.533 3 2.93332.5333 2.7333 本的-等价类样本集合;其次,根据该集合的分布 从表5~8可以看出,本算法在一些数据集上 情况来定义边界域样本、正域样本和负域样本, 的分类效果并不是最好的。例如,在tic-tac-toe数 对于不同区域的样本采取不同的处理方法生成超
表 8 F-Measure 值 Table 8 F-Measure 序号 数据集 NaiveBayes KNN J48 SMO BP-KNN F-hypernetworks 1 BLOGGER 0.699 0.812 0.716 0.702 0.696 0.848 2 lymph 0.812 0.830 0.733 0.857 0.827 0.823 3 tae 0.519 0.656 0.510 0.572 0.481 0.564 4 flags 0.558 0.564 0.560 0.550 0.551 0.561 5 Glass 0.440 0.680 0.663 0.513 0.616 0.665 6 breast-cancer 0.720 0.685 0.668 0.682 0.691 0.701 7 Haberman 0.703 0.671 0.678 0.623 0.641 0.646 8 column_2C_weka 0.788 0.791 0.803 0.788 0.803 0.812 9 column_3C_weka 0.826 0.786 0.832 0.727 0.758 0.820 10 ecoli 0.849 0.803 0.806 0.798 0.851 0.853 11 Ionosphere 0.826 0.866 0.905 0.876 0.860 0.878 12 balance-scale 0.879 0.794 0.640 0.881 0.795 0.873 13 Pima_diabetes 0.751 0.713 0.729 0.756 0.723 0.728 14 tic-tac-toe 0.684 0.984 0.841 0.983 0.984 0.843 15 car 0.843 0.916 0.907 0.934 0.916 0.899 16 平均值 0.726 0.770 0.733 0.749 0.746 0.768 由图 7 可知,相较于其他 5 种分类算法,本文 提出的模糊超网络算法在正确率、查准率、查全 率上都具有一定的优势。为了进一步考查模糊超 网络分类算法与对比算法之间的比较效果,本文 根据这 6 种算法在各个评价指标上的实验结果, 按照 1、2、3、4、5、6 的次序进行 Rank 排序评分, 得到了如表 9 所示的 6 种算法在 15 个实验数据 集上的各项 Rank 平均值。 0.79 0.78 0.77 0.76 0.75 0.74 0.73 0.72 0.71 0.70 正确率 查准率 评价指标 查全率 F-Measure Naivebayes KNN J48 SMO BP-KNN 平均值 F-hypmetworks 图 7 各项指标平均值柱状图 Fig. 7 Average value of each indicator 表 9 不同算法在评价指标上的 Rank 平均值 Table 9 Rank mean of different algorithms in evaluation index 算法 正确率 查准率 查全率 F-Measure NaiveBayes 4.133 3 3.333 3 4.133 3 3.866 7 KNN 3.600 0 3.133 3 3.600 0 3.000 0 J48 3.733 3 3.800 0 3.733 3 3.600 0 SMO 3.200 0 3.533 3 3.200 0 3.666 7 BP-KNN 3.200 0 3.866 7 3.200 0 3.866 7 F-hypergraph 2.533 3 2.933 3 2.533 3 2.733 3 从表 5~8 可以看出,本算法在一些数据集上 的分类效果并不是最好的。例如,在 tic-tac-toe 数 据集上,与分类效果较好的 3 个算法相比,F-hypernetworks 的正确率下降了近 13%,查准率、查 全率和 F-Measure 上的结果也相差较大。通过分 析可知,在 tic-tac-toe 数据集中,不同类别的样本 之间的相似度较高,约 83% 的样本与异类样本的 最大模糊相似度不低于其与同类样本的最大模糊 相似度。而在分类效果较好的 BLOGGER 数据集 上,这种样本的数目只占总数的 22%,在 breastcancer 数据集上仅有 2%。由于超边对这些样本 的识别率不高,模糊超网络对其做出误判的概率 较大,如果数据集中存在大量的这种样本,会导 致最终的分类结果不理想。 结合图 7 与表 9 可知,模糊超网络在正确率、 查准率、查全率、F-Measure 的 Rank 平均值上均 为最优。本文选取的对比算法都是应用较为广泛 的分类算法,对实际生活中的大部分数据集具有 较好分类效果。同这些优秀的算法相比,模糊超 网络分类算法仍具有一定的优势,在 Recall、Precision 等指标上表现出了比较好的结果。 4 结束语 本文结合模糊粗糙集和超网络的相关知识提 出了一种模糊超网络模型,用于处理分类问题。 首先,根据模型的最优模糊相似度阈值 λ 计算样 本的 λ-等价类样本集合;其次,根据该集合的分布 情况来定义边界域样本、正域样本和负域样本, 对于不同区域的样本采取不同的处理方法生成超 ·488· 智 能 系 统 学 报 第 14 卷