第11卷第4期 智能系统学报 Vol.11 No.4 2016年8月 CAAI Transactions on Intelligent Systems Aug.2016 D0I:10.11992/6is.201606019 网络出版地址:http:/www.cnki.net/kcms/detail/23.1538.TP.20160808.0831.032.html 数据偏序结构关系中的知识发现可视化方法 郑存芳12,洪文学1,李少雄,任蕴丽3 (1.燕山大学电气工程学院,河北秦皇岛066004:2.燕山大学里仁学院,河北秦皇岛066004:3.河北科技师范学 院数学与信息科技学院,河北秦皇岛066004) 摘要:在形式概念分析与偏序结构理论基础上,针对决策模式信息表,提出一种基于认知原理的规则提取与知识 发现的可视化新方法一属性偏序决策图。该方法在将决策问题转化为决策模式信息表的基础上,通过研究对象 的属性特征,将其表现在可视化图形上,介绍了属性偏序结构图的原理、生成算法及应用实例。实验表明,属性偏序 结构图可以将数据中蕴含的知识和规则得以形象地表示,通过对属性偏序决策图支路、节点、簇集的分析可以有效 地发现数据中蕴含的决策规则。 关键词:属性偏序决策图:偏序结构:形式概念分析:可视化:知识发现 中图分类号:TP182文献标志码:A文章编号:1673-4785(2016)04-0475-06 中文引用格式:郑存芳,洪文学,李少雄,等.数据偏序结构关系中的知识发现可视化方法[J].智能系统学报,2016,11(4):475- 480. 英文引用格式:ZHENG Cunfang,HONG Wenxue,LI Shaoxiong,etal.A novel knowledge discovery visualization method based on data partial ordered structure[J].CAAI Transactions on Intelligent Systems,2016,11(4):475-480. A novel knowledge discovery visualization method based on data partial ordered structure ZHENG Cunfang'2,HONG Wenxue',LI Shaoxiong',REN Yunli'.3 (1.School of Electrical Engineering,Yanshan University,Qinhuangdao 066004,China:2.Liren College,Yanshan University,Qin- huangdao 066004,China;3.College of Mathematics and Information Technology,Hebei Normal University of Science and Technology, Qinhuangdao 066004,China) Abstract:In this paper,the formal concept is first analyzed and partial order structure theory introduced.The deci- sion diagram of attribute partial ordered structure(DDAPOS),a visualization method of rule extraction and knowl- edge discovery based on cognitive principles,is then proposed.After the decision problem is transformed into a de- cision pattern information table,the attributes of a research object can be presented in the visualized diagram.This paper introduces the principles,generation algorithm,and application examples of DDAPOS.Experimental results show that the knowledge and rules contained in the data can be represented graphically,and the decision-making rules in the data can be found effectively through analysis of the graph branches,nodes and clusters. Keywords:decision diagram of attribute partial ordered structure;partial ordered structure;formal concept analy- sis;visualization;knowledge discovery 随着信息技术的发展,数据的获取变得越来越简单,如何有效地利用数据,从数据海洋中获 取有价值的规律、知识、信息成为摆在人们面前 收稿日期:.2016-06-06.网络出版日期:2016-08-08. 的突出问题。一些不依赖于先验知识,单纯以数 基金项目:国家自然科学基金项日(61273019,61473339.61501397):河 北省自然科学基金重点项目(2016203443):燕山大学青年据驱动的理论和方法在这一背景下产生和发展, 教师自主研究计划课题(13LGB033). 通信作者:洪文学.E-mail:hongwx@ysu.cdu.cm 如形式概念分析)、粗糙集[2】、模糊集)]、商空
第 11 卷第 4 期 智 能 系 统 学 报 Vol.11 №.4 2016 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2016 DOI:10.11992 / tis.201606019 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160808.0831.032.html 数据偏序结构关系中的知识发现可视化方法 郑存芳1,2 ,洪文学1 ,李少雄1 ,任蕴丽1,3 (1. 燕山大学 电气工程学院,河北 秦皇岛 066004; 2. 燕山大学 里仁学院,河北 秦皇岛 066004; 3. 河北科技师范学 院 数学与信息科技学院,河北 秦皇岛 066004) 摘 要:在形式概念分析与偏序结构理论基础上,针对决策模式信息表,提出一种基于认知原理的规则提取与知识 发现的可视化新方法———属性偏序决策图。 该方法在将决策问题转化为决策模式信息表的基础上,通过研究对象 的属性特征,将其表现在可视化图形上,介绍了属性偏序结构图的原理、生成算法及应用实例。 实验表明,属性偏序 结构图可以将数据中蕴含的知识和规则得以形象地表示,通过对属性偏序决策图支路、节点、簇集的分析可以有效 地发现数据中蕴含的决策规则。 关键词:属性偏序决策图;偏序结构;形式概念分析;可视化;知识发现 中图分类号: TP182 文献标志码:A 文章编号:1673-4785(2016)04-0475-06 中文引用格式:郑存芳,洪文学,李少雄,等. 数据偏序结构关系中的知识发现可视化方法[ J]. 智能系统学报, 2016, 11(4): 475- 480. 英文引用格式:ZHENG Cunfang, HONG Wenxue, LI Shaoxiong, et al. A novel knowledge discovery visualization method based on data partial ordered structure[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 475-480. A novel knowledge discovery visualization method based on data partial ordered structure ZHENG Cunfang 1,2 , HONG Wenxue 1 , LI Shaoxiong 1 , REN Yunli 1,3 (1. School of Electrical Engineering, Yanshan University, Qinhuangdao 066004, China; 2. Liren College, Yanshan University, Qin⁃ huangdao 066004, China; 3. College of Mathematics and Information Technology, Hebei Normal University of Science and Technology, Qinhuangdao 066004, China) Abstract:In this paper, the formal concept is first analyzed and partial order structure theory introduced. The deci⁃ sion diagram of attribute partial ordered structure (DDAPOS), a visualization method of rule extraction and knowl⁃ edge discovery based on cognitive principles, is then proposed. After the decision problem is transformed into a de⁃ cision pattern information table, the attributes of a research object can be presented in the visualized diagram. This paper introduces the principles, generation algorithm, and application examples of DDAPOS. Experimental results show that the knowledge and rules contained in the data can be represented graphically, and the decision-making rules in the data can be found effectively through analysis of the graph branches, nodes and clusters. Keywords: decision diagram of attribute partial ordered structure; partial ordered structure; formal concept analy⁃ sis; visualization; knowledge discovery 收稿日期:2016-06-06. 网络出版日期:2016-08-08. 基金项目:国家自然科学基金项目(61273019,61473339,61501397);河 北省自然科学基金重点项目( F2016203443);燕山大学青年 教师自主研究计划课题(13LGB033). 通信作者:洪文学. E⁃mail:hongwx@ ysu.edu.cn. 随着信息技术的发展,数据的获取变得越来 越简单,如何有效地利用数据,从数据海洋中获 取有价值的规律、知识、信息成为摆在人们面前 的突出问题。 一些不依赖于先验知识,单纯以数 据驱动的理论和方法在这一背景下产生和发展, 如形式概念分析[ 1] 、粗糙集[ 2] 、模糊集[ 3] 、商 空
·476 智能系统学报 第11卷 间[]等理论,这些理论虽然只有30多年甚至更 表1决策信息表 短的时间,但是显示出其强大的生命力,并有相 Table 1 An example of decision information table 互融合,共同快速发展的趋势[)。 U -D 形式概念分析(formal concept analysis,FCA) 0 理论由德国数学家Wil.R教授于1982年提出。 1 1010 1 d X2 101 01 0 d FCA以形式背景为研究对象,通过研究对象和属 X3 01 1 0 0 1 d 性之间的二元关系,发现形式背景中蕴含的知识 100 1 0 0 d 和规则,并通过Hasse图的形式形象地表示出来。 X5 01101 0 d 因在知识发现、规则提取等领域的优势,使得 6 010110 n FCA理论在知识工程、信息检索等领域有效地被 00101d2 1 0.0 101 利用6。 d 洪文学等[-8]在形式概念分析的基础上,以 在决策信息表中,如存在若干个对象其对应条 件属性与决策属性完全相同,称其为同模式对象,同 人类认知机理为出发点,通过对形式背景中属性 模式对象的个数,称为该模式的度。如表1中,x,与 的属性、对象的对象的研究,提出了偏序结构理 x即为一组同模式对象,决策信息表中的一个模式 论,创新性地提出异于Hasse图的形式背景知识 记为m,所有的模式构成模式集M。 可视化表示方法—偏序结构图。偏序结构图 定义3决策模式信息表。决策信息表(U,C, 与Hasse图相比,其突出优势表现在支路之间相 I,D,J)对应的六元组(M,C,I',D,J',De)称为 互无交叉,可以有效解决Hasse图在对象和属性 决策模式信息表。其中M是模式集合,C为条件属 关系复杂时可视化效果变差,失去可视化知识发 性集合,D为决策属性,De为模式的度。I'表示模式 现利用价值的问题。偏序结构理论已在中医诊 集合M与条件属性C之间的映射关系,'表示模式 疗知识发现[]、英语语言学[0]等领域得以应用。 集合M与决策属性D之间的映射关系。表1所对 本文在将决策数据转化为决策模式的基础 应的决策模式信息表如表2所示。 上,将偏序结构理论的思想应用于决策模式信息 表2表1对应的决策模式信息表 Table 2 Decision pattern information table of table 1 表,提出一种完全不依赖先验知识、以数据(决策 模式信息表)为驱动的决策知识发现和规则提取 De 可视化新方法一属性偏序决策图(decision dia- 1 0 1 0 0 I d 1 gram of attribute partial ordered structure,DDA- 1010 1 0 d 1 P0S),介绍其生成原理和算法,通过实例分析其 01 1 0 1 d 1 使用方法、特点及有效性。 1 00100 d 1 1基础定义 ms 0 d 1 0 0 0 d 1 定义1形式背景。称三元组(U,A,)为一 m 1001 0 1 个形式背景。其中U是有限非空对象集合,每个 d x:∈U为形式背景的一个对象;A为有限非空属性集 在决策模式信息表中,若任意两个模式条件属 合,每个a:∈A为形式背景的一个属性:I表示U与 性完全相同时,决策属性亦相同,则此决策模式信息 表称决策模式一致信息表。反之,此决策信息表称 A之间的二元关系,I二U×A。 为决策模式不一致信息表。在决策模式不一致信息 定义2决策信息表。称五元组(U,C,I,D, 表中,条件属性相同的模式是无法区分的,因此需要 J)为一个决策信息表。其中U是有限非空对象集 对决策不一致模式的结果按某种规则进行判别而转 合,即论域,C为有限非空条件属性集合,D为决策 化为决策模式一致信息表。 属性,I表示论域U与条件属性C之间的映射关系, 定义4最大共有条件属性。在决策模式信息表 J表示论域U与决策属性D之间的映射关系。其中 (M,C,',D,',De)所对应的形式背景(M,C,) 三元组(U,C,I)为一形式背景。表1所示为决策 中,如果条件属性c∈C满足g(c)=U,则称属性c是 信息表的例子。 形式背景(M,C,')的最大共有条件属性
间[ 4] 等理论,这些理论虽然只有 30 多年甚至更 短的时间,但是显示出其强大的生命力,并有相 互融合,共同快速发展的趋势[ 5] 。 形式概念分析( formal concept analysis,FCA) 理论由德国数学家 Will.R 教授于 1982 年提出。 FCA 以形式背景为研究对象,通过研究对象和属 性之间的二元关系,发现形式背景中蕴含的知识 和规则,并通过 Hasse 图的形式形象地表示出来。 因在知 识 发 现、 规 则 提 取 等 领 域 的 优 势, 使 得 FCA 理论在知识工程、信息检索等领域有效地被 利用[ 6] 。 洪文学等[ 7-8] 在形式概念分析的基础上,以 人类认知机理为出发点,通过对形式背景中属性 的属性、对象的对象的研究,提出了偏序结构理 论,创新性地提出异于 Hasse 图的形式背景知识 可视化表示方法———偏序结构图。 偏序结构图 与 Hasse 图相比,其突出优势表现在支路之间相 互无交叉,可以有效解决 Hasse 图在对象和属性 关系复杂时可视化效果变差,失去可视化知识发 现利用价值的问题。 偏序结构理论已在中医诊 疗知识发现[ 9] 、英语语言学[ 10] 等领域得以应用。 本文在将决策数据转化为决策模式的基础 上,将偏序结构理论的思想应用于决策模式信息 表,提出一种完全不依赖先验知识、以数据( 决策 模式信息表)为驱动的决策知识发现和规则提取 可视化新方法———属性偏序决策图( decision dia⁃ gram of attribute partial ordered structure, DDA⁃ POS) ,介绍其生成原理和算法,通过实例分析其 使用方法、特点及有效性。 1 基础定义 定义 1 形式背景。 称三元组(U, A, I) 为一 个形式背景。 其中 U 是有限非空对象集合,每个 xi∈U 为形式背景的一个对象;A 为有限非空属性集 合,每个 ai∈A 为形式背景的一个属性;I 表示 U 与 A 之间的二元关系,I ⊆ U × A。 定义 2 决策信息表。 称五元组(U, C, I, D, J)为一个决策信息表。 其中 U 是有限非空对象集 合,即论域,C 为有限非空条件属性集合,D 为决策 属性,I 表示论域 U 与条件属性 C 之间的映射关系, J 表示论域 U 与决策属性 D 之间的映射关系。 其中 三元组(U, C, I)为一形式背景。 表 1 所示为决策 信息表的例子。 表 1 决策信息表 Table 1 An example of decision information table U C c1 c2 c3 c4 c5 c6 D x1 1 0 1 0 0 1 d1 x2 1 0 1 0 1 0 d1 x3 0 1 1 0 0 1 d2 x4 1 0 0 1 0 0 d2 x5 0 1 1 0 1 0 d3 x6 0 1 0 1 1 0 d2 x7 1 0 0 1 0 1 d2 x8 1 0 0 1 0 1 d2 在决策信息表中,如存在若干个对象其对应条 件属性与决策属性完全相同,称其为同模式对象,同 模式对象的个数,称为该模式的度。 如表 1 中,x7与 x8即为一组同模式对象,决策信息表中的一个模式 记为 m,所有的模式构成模式集 M。 定义 3 决策模式信息表。 决策信息表(U, C, I, D, J)对应的六元组(M, C, I′, D, J′, De)称为 决策模式信息表。 其中 M 是模式集合,C 为条件属 性集合,D 为决策属性,De 为模式的度。 I′表示模式 集合 M 与条件属性 C 之间的映射关系,J′表示模式 集合 M 与决策属性 D 之间的映射关系。 表 1 所对 应的决策模式信息表如表 2 所示。 表 2 表 1 对应的决策模式信息表 Table 2 Decision pattern information table of table 1 U C c1 c2 c3 c4 c5 c6 D De m1 1 0 1 0 0 1 d1 1 m2 1 0 1 0 1 0 d1 1 m3 0 1 1 0 0 1 d2 1 m4 1 0 0 1 0 0 d2 1 m5 0 1 1 0 1 0 d3 1 m6 0 1 0 1 1 0 d2 1 m7 1 0 0 1 0 1 d2 2 在决策模式信息表中,若任意两个模式条件属 性完全相同时,决策属性亦相同,则此决策模式信息 表称决策模式一致信息表。 反之,此决策信息表称 为决策模式不一致信息表。 在决策模式不一致信息 表中,条件属性相同的模式是无法区分的,因此需要 对决策不一致模式的结果按某种规则进行判别而转 化为决策模式一致信息表。 定义 4 最大共有条件属性。 在决策模式信息表 (M, C, I′, D, J′, De)所对应的形式背景(M, C, I′) 中,如果条件属性 c ∈C 满足 g(c) = U ,则称属性 c 是 形式背景(M, C, I′)的最大共有条件属性。 ·476· 智 能 系 统 学 报 第 11 卷
第4期 郑存芳,等:数据偏序结构关系中的知识发现可视化方法 477. 定义5共有条件属性。在决策模式信息表 输入决策一致模式信息表(M,C,',D,J', (M,C,',D,J',De)所对应的形式背景(M,C,I De); 中,如果属性co,c1,…,c4∈C满足g(c:)二g(co), 输出属性偏序决策图(N,E,R); 其中i=1,2,…,k,k≥2,则称在形式背景(M,C, 1)提取决策模式一致信息表(M,C,',D, ')中,条件属性co是条件属性集合{c1,c2,…,c} J',De)中的(M,C,)构成形式背景: 的共有条件属性。 2)生成属性偏序结构图2☒): 3)根据属性偏序结构图每一分支对应的模式 2属性偏序决策图 标注其决策属性,形成决策层: 2.1属性偏序决策图生成原理 4)从根节点由上至下检索各支路,当检索至某 由认知心理学可知:在一定情景和经验的背景 节点覆盖之下各支路模式完全一致时,停止检索此 下,人类是通过客观事物具有的属性特征来认知事 节点之下的支路和节点,并将此节点下各支路上的 物的。基本的认知原理可以描述为:特征相同靠近 节点标记为隐藏节点: 相同,特征不同远离相同,在相同特征中找出不同, 5)直至检索完所有支路,得结果即为属性偏 在不同特征中找出相同。这样的描述蕴含着:相似 序决策图。 性原理(相同靠近相同),相异性原理(不同远离相 表2所示决策模式信息表对应的属性偏序决策 同),自上而下感知原理(相同之中找不同),自下而 图如图2所示。由图可见,属性偏序决策图在结构 上感知原理(不同之处找相同)。图1给出了一般 上分为决策规则表示层和决策规则输出层两个层 化认知机理模型示意图山。 次。图中虚线表示的节点为隐藏节点,不参与知识 发现和规则提取过程。决策表示层是一个典型的树 结构,其中每一个节点表示一个条件属性,图中最顶 情景 人类事物认识机理模型 经验 层为最大共有条件属性。树中根据条件属性的偏序 事物属性(特征) 关系由上而下形成若干个节点和边构成的支路,其 中每一条支路即为一种决策模式。根据属性偏序决 特征相同 特征不同 特征相同 策图中支路聚类形成的群结构、子群结构及每条支 靠近相同 远离相同 靠近相同 路对应的决策属性即可完成决策规则的输出。 相同中找不同 不同中找相同 A 1 表 A- 层 © © A C-- 输 图1一般化认知机理模型示意图 d d d ④ 层 R, R R R Fig.1 Schematic diagram of general cognitive mecha- nism model 图2表2所示决策模式信息表对应属性偏序决策图 属性是各类事物特征的表达,属性间的关系表 Fig.2 DDAPOS of table2 达了研究问题的概念之间的关系。共有属性表达的 一定是事物普遍存在的现象,是共性的表达,具有较 2.3基于属性偏序决策图的规则提取方法 大的外延和较浅的内涵。从人类认识模式知识的角 基于属性偏序决策图自顶向下的构图原则,条件 度来看,可以构造出以属性特征和对象相似性为指 属性中普遍性强在上层,可以从集群结构、集子群结 标的层次结构图。 构、支路和节点等不同角度对原始数据进行知识发 2.2属性偏序决策图生成算法 现。支路条件属性集合表达的一条决策模式,即一个 根据属性偏序决策图的生成原理,构建属性偏 决策模式具有什么属性。图中同一子群结构表达的 序决策图的算法描述如下所示。 为模式间相似性;不同子群结构表达决策模式之间的 构建属性偏序决策图 差异性。综合属性偏序决策图条件属性偏序关系及 决策属性,即可得出最终的规则提取。图2所示的属
定义 5 共有条件属性。 在决策模式信息表 (M, C, I′, D, J′, De)所对应的形式背景(M, C, I 中,如果属性 c0 ,c1 ,…,ck ∈ C 满足 g(ci) ⊆g(c0 ) , 其中 i = 1,2,…,k, k ≥ 2,则称在形式背景(M, C, I′)中,条件属性 c0 是条件属性集合 {c1 ,c2 ,…,ck} 的共有条件属性。 2 属性偏序决策图 2.1 属性偏序决策图生成原理 由认知心理学可知:在一定情景和经验的背景 下,人类是通过客观事物具有的属性特征来认知事 物的。 基本的认知原理可以描述为:特征相同靠近 相同,特征不同远离相同,在相同特征中找出不同, 在不同特征中找出相同。 这样的描述蕴含着:相似 性原理(相同靠近相同),相异性原理(不同远离相 同),自上而下感知原理(相同之中找不同),自下而 上感知原理(不同之处找相同)。 图 1 给出了一般 化认知机理模型示意图[11] 。 图 1 一般化认知机理模型示意图 Fig.1 Schematic diagram of general cognitive mecha⁃ nism model 属性是各类事物特征的表达,属性间的关系表 达了研究问题的概念之间的关系。 共有属性表达的 一定是事物普遍存在的现象,是共性的表达,具有较 大的外延和较浅的内涵。 从人类认识模式知识的角 度来看,可以构造出以属性特征和对象相似性为指 标的层次结构图。 2.2 属性偏序决策图生成算法 根据属性偏序决策图的生成原理,构建属性偏 序决策图的算法描述如下所示。 构建属性偏序决策图 输入 决策一致模式信息表(M, C, I′, D, J′, De); 输出 属性偏序决策图(N, E, R); 1) 提取决策模式一致信息表( M, C, I′, D, J′, De)中的(M, C, I′)构成形式背景; 2) 生成属性偏序结构图[12] ; 3) 根据属性偏序结构图每一分支对应的模式 标注其决策属性,形成决策层; 4)从根节点由上至下检索各支路,当检索至某 节点覆盖之下各支路模式完全一致时,停止检索此 节点之下的支路和节点,并将此节点下各支路上的 节点标记为隐藏节点; 5) 直至检索完所有支路,所得结果即为属性偏 序决策图。 表 2 所示决策模式信息表对应的属性偏序决策 图如图 2 所示。 由图可见,属性偏序决策图在结构 上分为决策规则表示层和决策规则输出层两个层 次。 图中虚线表示的节点为隐藏节点,不参与知识 发现和规则提取过程。 决策表示层是一个典型的树 结构,其中每一个节点表示一个条件属性,图中最顶 层为最大共有条件属性。 树中根据条件属性的偏序 关系由上而下形成若干个节点和边构成的支路,其 中每一条支路即为一种决策模式。 根据属性偏序决 策图中支路聚类形成的群结构、子群结构及每条支 路对应的决策属性即可完成决策规则的输出。 图 2 表 2 所示决策模式信息表对应属性偏序决策图 Fig.2 DDAPOS of table2 2.3 基于属性偏序决策图的规则提取方法 基于属性偏序决策图自顶向下的构图原则,条件 属性中普遍性强在上层,可以从集群结构、集子群结 构、支路和节点等不同角度对原始数据进行知识发 现。 支路条件属性集合表达的一条决策模式,即一个 决策模式具有什么属性。 图中同一子群结构表达的 为模式间相似性;不同子群结构表达决策模式之间的 差异性。 综合属性偏序决策图条件属性偏序关系及 决策属性,即可得出最终的规则提取。 图 2 所示的属 第 4 期 郑存芳,等:数据偏序结构关系中的知识发现可视化方法 ·477·
·478 智能系统学报 第11卷 性偏序决策图决策结果输出可表示为表3。 表5乳腺癌数据集粒化规则 表3图2所示属性偏序决策图决策结果输出 Table 5 Graining rules of BCWD Table 3 Decision output of DDAPOS of Fig.2 序号 粒化规则 序号 决策输出结果 1 F(U2)THEN(c1=0,c2=1) R2 IF (c AND c )THEN (D=d2 3 IF(U3)THEN c3 =0,ca 1) Ra IF c2)AND c3)AND (c))THEN (D.=d2 5 IF (BN 2)THEN cs =0,c 1) 3实例实验结果与分析 表6乳腺癌数据决策信息表 Table 6 Decision information table of BCWD 下面通过一个医学诊断的实例介绍属性偏序决 策图的具体使用方法,并验证其规则提取的有效性。 原始数据 条件属性C 编号 D 3.1实验数据 UU BN C C2 eseses Co 选用UCI数据库的Breast Cancer Wisconsin Da- 1190394113101001N ta Set(BCWD)数据集验证属性偏序决策图的有效 1272039111 1 0 1 0 0 N 性,数据集属性组成如表4所示。该数据集共有 11732353 2 3 0 1 0 N 699个样本(其中有16个样本存在属性缺失),9个 11331361 1 3 1 010 0 1 N 属性,2个类(良性、恶性)。本实验别除了这些有属 12079868 4 8 010 1 0 1 性缺失的样本,因此实际使用了数据集中样本683 837480 4 4 100 10 1 0 1 P 个。实验采用10折交叉验证的方式对所述方法的 可行性进行验证,并与主流的模式分类算法进行了 10498371 1 11 0 对比分析。 …… 表4:乳腺癌数据集属性构成 3)根据决策形式信息表生成决策模式信息表。 Table 4 Attributes of BCWD 检索决策信息表中的模式,得到乳腺癌数据决策模 代码 属性 取值范围 式信息表如表7所示。 CT Clump Thickness 1-10 表7乳腺癌数据决策模式信息表 Uo Uniformity of Cell Size 1-10 Table 7 Decision pattern information table of BCWD Uok Uniformity of Cell Shape 1-10 C MA Marginal Adhesion 1~10 De SECS CI C2 C3 C6 Single Epithelial Cell Size 1~10 m 1 0 1 0 0 N 20 BN 1 Bare Nuclei 1-10 m 1 0 1 0 0 1 P > BC Bland Chromatin 1-10 m3 1 0 0 0 N 305 NN Normal Nucleoli 1-10 ma 0 0 0 1 P 17 Mitoses 1-10 ms 0 0 0 1 玉 3.2实验过程 0 少 5 1)原始数据特征(属性)选择。根据原始数 m 0 0 据分布,利用lasso算法完成特征子集选择,特征 ms 0 0 19 相关序列为:BN、U.、Um、CT、BC、NN、MA、 0 0 P SECS、M1)。本例选取其中3个属性:BV、U 0 1 0 1 0 1> U参与决策生成。 mu 0 1 0 1 0 N 2)原始数据粒化,生成决策形式信息表。以数 m12 0 1 0 0 1 140 据驱动的决策规则生成中,数据的形式可能是数值 m13 0 1 0 0 1 N 5 型、名义型、布尔型、区间型等。所有的原始数据需 1 0 0 0 1 P 根据不同粒化规则,转换为布尔型规则。根据原始 表8为决策模式不一致信息表,对条件属性相 数据分布,按表5规则完成数据粒化生成决策信息 同但决策属性不同的模式中,按照模式度较小的模 表如表6所示。 式的决策属性服从模式度较大模式的原则进行修
性偏序决策图决策结果输出可表示为表 3。 表 3 图 2 所示属性偏序决策图决策结果输出 Table 3 Decision output of DDAPOS of Fig.2 序号 决策输出结果 R1 IF (( c1 ) AND ( c3 )) THEN ( Dresult = d1 ); R2 IF (( c1 ) AND ( c4 )) THEN (Dresult = d2 ); R3 IF (( c2 ) AND ( c3 ) AND (c5 )) THEN (Dresult = d3 ); R4 IF (( c2 ) AND ( c3 ) AND (c6 )) THEN (Dresult = d2 ); R5 IF (( c2 ) AND ( c4 ) AND (c5 )) THEN (Dresult = d2 ); 3 实例实验结果与分析 下面通过一个医学诊断的实例介绍属性偏序决 策图的具体使用方法,并验证其规则提取的有效性。 3.1 实验数据 选用 UCI 数据库的 Breast Cancer Wisconsin Da⁃ ta Set(BCWD)数据集验证属性偏序决策图的有效 性,数据集属性组成如表 4 所示。 该数据集共有 699 个样本(其中有 16 个样本存在属性缺失),9 个 属性,2 个类(良性、恶性)。 本实验剔除了这些有属 性缺失的样本,因此实际使用了数据集中样本 683 个。 实验采用 10 折交叉验证的方式对所述方法的 可行性进行验证,并与主流的模式分类算法进行了 对比分析。 表 4 乳腺癌数据集属性构成 Table 4 Attributes of BCWD 代码 属性 取值范围 CT Clump Thickness 1~ 10 Ucsi Uniformity of Cell Size 1~ 10 Ucsh Uniformity of Cell Shape 1~ 10 MA Marginal Adhesion 1~ 10 SECS Single Epithelial Cell Size 1~ 10 BN Bare Nuclei 1~ 10 BC Bland Chromatin 1~ 10 NN Normal Nucleoli 1~ 10 M Mitoses 1~ 10 3.2 实验过程 1)原始数据特征( 属性) 选择。 根据原始数 据分布,利用 lasso 算法完成特征子集选择,特征 相 关 序 列 为: BN、 Ucsh 、 Ucsi、 CT、 BC、 NN、 MA、 SECS、M [ 13] 。 本例选取其中 3 个属性:BN、Ucsh 、 Ucsi参与决策生成。 2)原始数据粒化,生成决策形式信息表。 以数 据驱动的决策规则生成中,数据的形式可能是数值 型、名义型、布尔型、区间型等。 所有的原始数据需 根据不同粒化规则,转换为布尔型规则。 根据原始 数据分布,按表 5 规则完成数据粒化生成决策信息 表如表 6 所示。 表 5 乳腺癌数据集粒化规则 Table 5 Graining rules of BCWD 序号 粒化规则 1 IF (Ucsi< = 2) THEN ( c1 = 1, c2 = 0 ) 2 IF (Ucsi>2) THEN ( c1 = 0, c2 = 1 ) 3 IF (Ucsh< = 3) THEN ( c3 = 1, c4 = 0 ) 4 IF (Ucsh>3) THEN ( c3 = 0 , c4 = 1 ) 5 IF (BN < = 2) THEN ( c5 = 1 , c6 = 0 ) 6 IF (BN >2) THEN ( c5 = 0, c6 = 1 ) 表 6 乳腺癌数据决策信息表 Table 6 Decision information table of BCWD 编号 原始数据 Ucsi Ucsh BN 条件属性 C c1 c2 c3 c4 c5 c6 D 1190394 1 1 3 1 0 1 0 0 1 N 1272039 1 1 1 1 0 1 0 1 0 N 1173235 3 2 3 0 1 1 0 0 1 N 1133136 1 1 3 1 0 1 0 0 1 N 1207986 8 4 8 0 1 0 1 0 1 P 837480 4 4 10 0 1 0 1 0 1 P 1049837 1 1 1 1 0 1 0 1 0 N … … … … … … … … … … … 3)根据决策形式信息表生成决策模式信息表。 检索决策信息表中的模式,得到乳腺癌数据决策模 式信息表如表 7 所示。 表 7 乳腺癌数据决策模式信息表 Table 7 Decision pattern information table of BCWD U C c1 c2 c3 c4 c5 c6 D De m1 1 0 1 0 0 1 N 20 m2 1 0 1 0 0 1 P 7 m3 1 0 1 0 1 0 N 305 m4 0 1 1 0 0 1 P 17 m5 0 1 1 0 0 1 N 3 m6 1 0 0 1 1 0 N 5 m7 1 0 0 1 1 0 P 1 m8 0 1 1 0 1 0 N 19 m9 0 1 1 0 1 0 P 2 m10 0 1 0 1 1 0 P 17 m11 0 1 0 1 1 0 N 3 m12 0 1 0 1 0 1 P 140 m13 0 1 0 1 0 1 N 5 m14 1 0 0 1 0 1 P 2 表 8 为决策模式不一致信息表,对条件属性相 同但决策属性不同的模式中,按照模式度较小的模 式的决策属性服从模式度较大模式的原则进行修 ·478· 智 能 系 统 学 报 第 11 卷
第4期 郑存芳,等:数据偏序结构关系中的知识发现可视化方法 .479. 正,得到表8所对应的决策模式一致信息表如表8。 表9乳腺癌诊断规则 表8乳腺癌数据决策模式一致信息表 Table 9 Decision output of DDAPOS Table 8 Consistent decision information table of BCWD 序号 决策输出结果 IF((U≤2)AND(U≤3)) U D De R C2 THEN D.=N) m 0 0 0 1 27 F(0≤2)AND(U>3)AND(BN≤2) R2 m2 1 0 1 0 1 0 N 305 THEN (D=N); 1 0 0 1 P 0 IF ((U2)AND (U>3)AND (BN >2)) ma 1 0 01 1 0 N 6 THEN (D=P); ms 0 110 1 0 N 21 F((U>2)AND(U≤3)AND(BN≤2) 1 0 Ra 0 20 THEN (D.=N) m 0 0 125 IF ((U>2)AND (U3)AND (BN >2)) Rs ms 1 0 0 0 2 THEN (D.=P) 4)生成属性偏序决策图。根据表8决策一致模 IF ((U>2)AND (U>3)) 式信息表生成属性偏序决策图如图3所示。 THEN(DeM=P)。 表10乳腺癌诊断灵敏度、特异度和准确率 Table 10 Sensitivity,specificity and accuracy of BCWD 方法 准确率 灵敏度 特异度 kNN 0.9648 0.9417 0.9775 Naive Bayes 0.9619 0.9792 0.9527 C ⊙©a SVM 0.9707 0.9750 0.9685 C5.0 0.9487 0.9288 0.9595 N Random Forests 0.9721 0.9708 0.9729 R, R R 本文方法 0.9623 0.9286 0.9416 R 4 结束语 图3乳腺癌诊断属性偏序决策图 本文以决策模式信息表为研究对象,提出一种 Fig.3 DDAPOS of BCWD 基于属性偏序关系的、不依赖于先验知识完全以数 5)根据属性偏序决策图,完成决策规则提取 据驱动的规则提取可视化方法一属性偏序决策 任务。由图3所示属性偏序决策图提取的规则 图。属性偏序决策图通过属性的聚类完成事物“类 如表9所示。 内紧,类间松”的聚类,并以直观图形的形式进行表 3.3结果分析 示,从中发现事物之间相区别的属性,从而达到提取 应用上述诊断规则对数据集进行诊断,同时与 事物共同特征的目的。属性偏序决策图因不需要进 主流模式分类算法(kNN、Naive Bayes、SVM、C5.0、 行复杂的浮点运算,其算法运算速度快。另外,该方 Random Forests)对比结果见表I0。通过对比可以 法在实际应用中还有若干问题有待解决,如如何根 发现,本文所述属性偏序决策图在只有3个属性参 据原始属性生成决策模式信息表、如何处理决策过 与规则提取的条件下,提取的诊断规则在各项指标 程中的不确定性问题、如何提供人机交互方式完成 上均较理想,达到了主流模式分类和知识发现方法 专家知识与机器学习的融合等,都有待进一步研究。 的水平。通过增加参与规则提取的属性,改善粒化 规则等措施,各项指标仍有提高的空间。与常规模 参考文献: 式识别方法(如kNN、SVM等)相比,属性偏序决策 [1]POELMANS J,KUZNETSOV S O,IGNATOV D I,et al. 图可以将决策规则以图形的方式进行明确地表示, Formal concept Analysis in knowledge processing:a survey 这一特性可以有效地沟通领域专家与数据分析专 on models and techniques[J].Expert systems with applica- 家,降低其在具体领域的应用门槛。 ions,2013,40(16):6601-6623
正,得到表 8 所对应的决策模式一致信息表如表 8。 表 8 乳腺癌数据决策模式一致信息表 Table 8 Consistent decision information table of BCWD U C c1 c2 c3 c4 c5 c6 D De m1 1 0 1 0 0 1 N 27 m2 1 0 1 0 1 0 N 305 m3 0 1 1 0 0 1 P 20 m4 1 0 0 1 1 0 N 6 m5 0 1 1 0 1 0 N 21 m6 0 1 0 1 1 0 P 20 m7 0 1 0 1 0 1 P 125 m8 1 0 0 1 0 1 P 2 4)生成属性偏序决策图。 根据表 8 决策一致模 式信息表生成属性偏序决策图如图 3 所示。 图 3 乳腺癌诊断属性偏序决策图 Fig.3 DDAPOS of BCWD 5)根据属性偏序决策图,完成决策规则提取 任务。 由图 3 所示属性偏序决策图提取的规则 如表 9 所示。 3.3 结果分析 应用上述诊断规则对数据集进行诊断,同时与 主流模式分类算法( kNN、Naive Bayes、SVM、C5.0、 Random Forests) 对比结果见表 10。 通过对比可以 发现,本文所述属性偏序决策图在只有 3 个属性参 与规则提取的条件下,提取的诊断规则在各项指标 上均较理想,达到了主流模式分类和知识发现方法 的水平。 通过增加参与规则提取的属性,改善粒化 规则等措施,各项指标仍有提高的空间。 与常规模 式识别方法(如 kNN、SVM 等)相比,属性偏序决策 图可以将决策规则以图形的方式进行明确地表示, 这一特性可以有效地沟通领域专家与数据分析专 家,降低其在具体领域的应用门槛。 表 9 乳腺癌诊断规则 Table 9 Decision output of DDAPOS 序号 决策输出结果 R1 IF ((Ucsi≤2 ) AND (Ucsh≤3 )) THEN ( Dresult = N ); R2 IF ((Ucsi≤2) AND (Ucsh>3) AND (BN≤2)) THEN (Dresult = N); R3 IF ((Ucsi≤2) AND (Ucsh>3) AND (BN >2)) THEN (Dresult = P); R4 IF ((Ucsi>2) AND (Ucsh≤3) AND (BN≤2)) THEN (Dresult = N); R5 IF ((Ucsi>2) AND (Ucsh≤3)AND (BN >2)) THEN (Dresult = P); R6 IF ((Ucsi>2) AND (Ucsh> 3)) THEN (Dresult = P)。 表 10 乳腺癌诊断灵敏度、特异度和准确率 Table 10 Sensitivity, specificity and accuracy of BCWD 方法 准确率 灵敏度 特异度 kNN 0.964 8 0.941 7 0.977 5 Naive Bayes 0.961 9 0.979 2 0.952 7 SVM 0.970 7 0.975 0 0.968 5 C5.0 0.948 7 0.928 8 0.959 5 Random Forests 0.972 1 0.970 8 0.972 9 本文方法 0.962 3 0.928 6 0.941 6 4 结束语 本文以决策模式信息表为研究对象,提出一种 基于属性偏序关系的、不依赖于先验知识完全以数 据驱动的规则提取可视化方法———属性偏序决策 图。 属性偏序决策图通过属性的聚类完成事物“类 内紧,类间松”的聚类,并以直观图形的形式进行表 示,从中发现事物之间相区别的属性,从而达到提取 事物共同特征的目的。 属性偏序决策图因不需要进 行复杂的浮点运算,其算法运算速度快。 另外,该方 法在实际应用中还有若干问题有待解决,如如何根 据原始属性生成决策模式信息表、如何处理决策过 程中的不确定性问题、如何提供人机交互方式完成 专家知识与机器学习的融合等,都有待进一步研究。 参考文献: [1] POELMANS J, KUZNETSOV S O, IGNATOV D I, et al. Formal concept Analysis in knowledge processing: a survey on models and techniques[J]. Expert systems with applica⁃ tions, 2013, 40(16): 6601-6623. 第 4 期 郑存芳,等:数据偏序结构关系中的知识发现可视化方法 ·479·
.480. 智能系统学报 第11卷 [2]王国胤,姚一豫,于洪.粗糙集理论与应用研究综述 [10]YU Jianping,LI Chen,HONG Wenxue,et al.A new ap- [J].计算机学报,2009,32(7):1229-1246. proach of rules extraction for word sense disambiguation by WANG Guoyin,YAO Yiyu,YU Hong.A survey on rough features of attributes[J].Applied soft computing,2015, set theory and applications[J].Chinese journal of comput- 27:411-419. es,2009,32(7):1229-1246. [11]GALOTTI K M.认知心理学[M].吴国宏,译.3版.西 [3]YAO Yiyu.A comparative study of fuzzy sets and rough sets 安:陕西师范大学出版社,2005 [J].Information sciences,1998,109(1/2/3/4):227- GALOTTI K M.Cognitive Psychology[M].WU Guohong, 242. Trans.3rd ed.Xi'an:Shaanxi Normal University Press, [4]ZHANG Ling,ZHANG Bo.The quotient space theory of 2005. problem solving[J].Fundamenta informaticae,2004,59 [12]李少雄,闫恩亮,宋佳霖,等.偏序结构图的一种计算 (2/3):287-298. 机生成算法[J].燕山大学学报,2014,38(5):403- [5]于洪,王国胤,姚一豫.决策粗糙集理论研究现状与展 408. 望[J].计算机学报,2015,38(8):1628-1639, LI Shaoxiong,YAN Enliang,SONG Jialin,et al.Compu- YU Hong,WANG Guoyin,YAO Yiyu.Current research tational generation algorithm of partial ordered structure di- and future perspectives on decision-theoretic rough sets[J]. agram[J].Journal of Yanshan university,2014,38(5): Chinese journal of computers,2015,38(8):1628-1639. 403-408. [6]POELMANS J,IGNATOV D I,KUZNETSOV S O,et al. [13]TIBSHIRANI R.Regression shrinkage and selection via the Formal concept analysis in knowledge processing:a survey lasso:a retrospective[J].Journal of the royal statistical on applications [J].Expert systems with applications, s0 ciety,2011,73(3):273-282. 2013,40(16):6538-6560. 作者简介: [7]HONG Wenxue,LI Shaoxiong,YU Jianping,et al.A new 郑存芳,男,1979年生,讲师,博士研 approach of generation of structural partial-ordered attribute 究生,CAAI粗糙集与软计算专委会会 diagram[J].ICIC express letters,part B:applications, 员,CCF会员,主要研究方向为可视化模 2012,3(4):823-830. 式识别、偏序结构理论、中医工程学等。 [8]洪文学,栾景民,张涛,等.基于偏序结构理论的知识 先后参与国家自然科学基金3项、河北 发现方法[J].燕山大学学报,2014,38(5):394-402. 省自然科学基金3项。 HONG Wenxue,LUAN Jingmin,ZHANG Tao,et al.A new method for knowledge discovery based on partial ordered 洪文学,男,1953年生,教授,博士 structure theory[J].Journal of Yanshan university,2014, 生导师,燕山大学生物医学工程研究所 38(5):394-402. 所长,CAAI粗糙集与软计算专委会委 [9]刘超男,徐笋晶,李赛美,等.基于多层次复杂概念网 员,主要研究方向为大数据偏序结构理 络表示方法的《伤寒论》方药按治法分类的知识发现 论、复杂概念网络、混合数据信息融合 [J].北京中医药大学学报,2014,37(7):452-457. 与模式识别和中医工程学。所带领的 LIU Chaonan,XU Sunjing,LI Saimei,et al.Knowledge 学术团队近年来主持省部级科研项目20余项。 discovery of formula classification according to therapies in Shanghanlun based on representation method of multi-layer 李少雄,男,1987年生,博士研究 complex concept network[].Journal of Beijing university of 生,主要研究方向为偏序结构理论、可 traditional Chinese medicine,2014,37(7):452-457. 视化模式识别、中医工程学等。参与国 家自然科学基金项目4项
[2]王国胤, 姚一豫, 于洪. 粗糙集理论与应用研究综述 [J]. 计算机学报, 2009, 32(7): 1229-1246. WANG Guoyin, YAO Yiyu, YU Hong. A survey on rough set theory and applications[ J]. Chinese journal of comput⁃ ers, 2009, 32(7): 1229-1246. [3]YAO Yiyu. A comparative study of fuzzy sets and rough sets [J]. Information sciences, 1998, 109 ( 1 / 2 / 3 / 4): 227 - 242. [4] ZHANG Ling, ZHANG Bo. The quotient space theory of problem solving [ J]. Fundamenta informaticae, 2004, 59 (2 / 3): 287-298. [5]于洪, 王国胤, 姚一豫. 决策粗糙集理论研究现状与展 望[J]. 计算机学报, 2015, 38(8): 1628-1639. YU Hong, WANG Guoyin, YAO Yiyu. Current research and future perspectives on decision⁃theoretic rough sets[ J]. Chinese journal of computers, 2015, 38(8): 1628-1639. [6] POELMANS J, IGNATOV D I, KUZNETSOV S O, et al. Formal concept analysis in knowledge processing: a survey on applications [ J ]. Expert systems with applications, 2013, 40(16): 6538-6560. [7]HONG Wenxue, LI Shaoxiong, YU Jianping, et al. A new approach of generation of structural partial⁃ordered attribute diagram[ J ]. ICIC express letters, part B: applications, 2012, 3(4): 823-830. [8]洪文学, 栾景民, 张涛, 等. 基于偏序结构理论的知识 发现方法[J]. 燕山大学学报, 2014, 38(5): 394-402. HONG Wenxue, LUAN Jingmin, ZHANG Tao, et al. A new method for knowledge discovery based on partial ordered structure theory[ J]. Journal of Yanshan university, 2014, 38(5): 394-402. [9]刘超男, 徐笋晶, 李赛美, 等. 基于多层次复杂概念网 络表示方法的《伤寒论》 方药按治法分类的知识发现 [J]. 北京中医药大学学报, 2014, 37(7): 452-457. LIU Chaonan, XU Sunjing, LI Saimei, et al. Knowledge discovery of formula classification according to therapies in Shanghanlun based on representation method of multi⁃layer complex concept network[J]. Journal of Beijing university of traditional Chinese medicine, 2014, 37(7): 452-457. [10]YU Jianping, LI Chen, HONG Wenxue, et al. A new ap⁃ proach of rules extraction for word sense disambiguation by features of attributes [ J]. Applied soft computing, 2015, 27: 411-419. [11]GALOTTI K M. 认知心理学[M]. 吴国宏, 译. 3 版. 西 安: 陕西师范大学出版社, 2005. GALOTTI K M. Cognitive Psychology[M]. WU Guohong, Trans. 3rd ed. Xi’ an: Shaanxi Normal University Press, 2005. [12]李少雄, 闫恩亮, 宋佳霖, 等. 偏序结构图的一种计算 机生成算法[ J]. 燕山大学学报, 2014, 38(5): 403- 408. LI Shaoxiong, YAN Enliang, SONG Jialin, et al. Compu⁃ tational generation algorithm of partial ordered structure di⁃ agram[J]. Journal of Yanshan university, 2014, 38(5): 403-408. [13]TIBSHIRANI R. Regression shrinkage and selection via the lasso: a retrospective [ J]. Journal of the royal statistical society, 2011, 73(3): 273-282. 作者简介: 郑存芳,男,1979 年生,讲师,博士研 究生,CAAI 粗糙集与软计算专委会会 员、CCF 会员,主要研究方向为可视化模 式识别、偏序结构理论、中医工程学等。 先后参与国家自然科学基金 3 项、河北 省自然科学基金 3 项。 洪文学,男,1953 年生,教授,博士 生导师,燕山大学生物医学工程研究所 所长,CAAI 粗糙集与软计算专委会委 员,主要研究方向为大数据偏序结构理 论、复杂概念网络、混合数据信息融合 与模式识别和中医工程学。 所带领的 学术团队近年来主持省部级科研项目 20 余项。 李少雄,男,1987 年生,博士研究 生,主要研究方向为偏序结构理论、可 视化模式识别、中医工程学等。 参与国 家自然科学基金项目 4 项。 ·480· 智 能 系 统 学 报 第 11 卷