第11卷第3期 智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603043 网s络出版地址:http:/www.cnki.net/kcms/detail/23.1538.TP.20160513.0925.026.html 基于相容模糊概念的规则提取方法 胡小康,王俊红 (山西大学计算机与信息技术学院,山西太原030006) 摘要:概念格是具有严格数学模型的数据分析与规则提取的一种有效工具,大部分情况下是在完备的精确形式背 景即二值背景下进行研究,然而在现实生活中遇到的大多数情况是不完备的模糊形式背景,不完备模糊形式背景中 包含许多不确定的信息,其上的知识表示与完备形式背景下的知识表示既有区别又有联系。为了研究两者的内在 联系,本文定义了相似模糊概念和相容模糊概念,构建了相似模糊概念格和建立了在不完备模糊形式背景下相容模 糊概念之间的偏序关系,进而设计出面向不完备模糊形式背景下的关联规则挖掘算法最后通过实验验证了该方法 的有效性和可行性。 关键词:形式背景:概念格:相似模糊概念;相容模糊概念;知识获取;关联规则;偏序关系;相容关系 中图分类号:TP18文献标志码:A文章编号:1673-4785(2016)03-0352-07 中文引用格式:胡小康,王俊红.基于相容模糊概念的规则提取方法[J].智能系统学报,2016,11(3):352-358. 英文引用格式:HU Xiaokang,WANG Junhong..Research on rule extraction method based on compatibility fuzzy concept[J]. CAAI transactions on intelligent systems,2016,11(3):352-358. Research on rule extraction method based on compatibility fuzzy concept HU Xiaokang,WANG Junhong (School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China) Abstract:The concept lattice is an effective data analysis and rule extraction tool with a strict mathematical model. In most instances,studies are carried out in a complete formal context,i.e.,a two-value context.However,in real life,an incomplete fuzzy formal context is frequently experienced.Incomplete fuzzy contexts contain a lot of uncer- tain information.There are both distinctions and relationships that can be identified between the forms of knowledge representation in the incomplete fuzzy formal and complete formal contexts.To study their internal relationship,in this paper,we define approximate fuzzy and compatible fuzzy concepts,establish an approximate fuzzy concept lat- tice,and identify a partial ordering relationship between compatible fuzzy concepts in an incomplete fuzzy formal context.We extend the design of an association rules mining algorithm to address the background of the incomplete fuzzy formal context,and conduct an experiment to demonstrate the feasibility and effectiveness of the proposed method. Keywords:formal context;concept lattice;approximate fuzzy concept;compatible fuzzy concept;knowledge repre- sentation;association rules;partial ordering relation;compatible relation 概念格也称为Glos格,又叫做形式概念分析,间的关系。概念格是研究知识表示和推理的理论, 由德国的Wile山在20世纪80年代提出。概念格 它具有严格的数学模型,已经在机器学习、数据挖 的每个节点是一个形式概念,概念格结构模型是形 掘、软件工程等领域[26)得到广泛的应用。 式概念分析中的核心结构,它描述了对象和属性之 通常我们研究的形式背景是完备的,也就是对 象和属性之间的关系是已知的,但是在实际应用中, 收稿日期:2016-03-19.网络出版日期:2016-05-13. 基金项目:国家自然科学基金项目(61202018,61303008,61305057) 大多数信息是模糊[)的、复杂的。更槽糕的是在现 通信作者:王俊红.E-mail:wjhwjhe@sxu.cdu.cm
第 11 卷第 3 期 智 能 系 统 学 报 Vol.11 №.3 2016 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2016 DOI:10.11992 / tis.201603043 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160513.0925.026.html 基于相容模糊概念的规则提取方法 胡小康,王俊红 (山西大学 计算机与信息技术学院,山西 太原 030006) 摘 要:概念格是具有严格数学模型的数据分析与规则提取的一种有效工具,大部分情况下是在完备的精确形式背 景即二值背景下进行研究,然而在现实生活中遇到的大多数情况是不完备的模糊形式背景,不完备模糊形式背景中 包含许多不确定的信息,其上的知识表示与完备形式背景下的知识表示既有区别又有联系。 为了研究两者的内在 联系,本文定义了相似模糊概念和相容模糊概念,构建了相似模糊概念格和建立了在不完备模糊形式背景下相容模 糊概念之间的偏序关系,进而设计出面向不完备模糊形式背景下的关联规则挖掘算法.最后通过实验验证了该方法 的有效性和可行性。 关键词:形式背景;概念格;相似模糊概念;相容模糊概念;知识获取;关联规则;偏序关系;相容关系 中图分类号:TP18 文献标志码:A 文章编号:1673⁃4785(2016)03⁃0352⁃07 中文引用格式:胡小康,王俊红.基于相容模糊概念的规则提取方法[J]. 智能系统学报, 2016, 11(3): 352⁃358. 英文引用格式:HU Xiaokang, WANG Junhong. Research on rule extraction method based on compatibility fuzzy concept [ J]. CAAI transactions on intelligent systems, 2016,11(3): 352⁃358. Research on rule extraction method based on compatibility fuzzy concept HU Xiaokang, WANG Junhong (School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China) Abstract:The concept lattice is an effective data analysis and rule extraction tool with a strict mathematical model. In most instances, studies are carried out in a complete formal context, i.e., a two-value context. However, in real life, an incomplete fuzzy formal context is frequently experienced. Incomplete fuzzy contexts contain a lot of uncer⁃ tain information. There are both distinctions and relationships that can be identified between the forms of knowledge representation in the incomplete fuzzy formal and complete formal contexts. To study their internal relationship, in this paper, we define approximate fuzzy and compatible fuzzy concepts, establish an approximate fuzzy concept lat⁃ tice, and identify a partial ordering relationship between compatible fuzzy concepts in an incomplete fuzzy formal context. We extend the design of an association rules mining algorithm to address the background of the incomplete fuzzy formal context, and conduct an experiment to demonstrate the feasibility and effectiveness of the proposed method. Keywords:formal context; concept lattice; approximate fuzzy concept; compatible fuzzy concept; knowledge repre⁃ sentation; association rules; partial ordering relation; compatible relation 收稿日期:2016⁃03⁃19. 网络出版日期:2016⁃05⁃13. 基金项目:国家自然科学基金项目(61202018,61303008,61305057). 通信作者:王俊红.E⁃mail:wjhwjh@ sxu.edu.cn. 概念格也称为 Galois 格,又叫做形式概念分析, 由德国的 Wille [1] 在 20 世纪 80 年代提出。 概念格 的每个节点是一个形式概念,概念格结构模型是形 式概念分析中的核心结构,它描述了对象和属性之 间的关系。 概念格是研究知识表示和推理的理论, 它具有严格的数学模型,已经在机器学习、数据挖 掘、软件工程等领域[2⁃6]得到广泛的应用。 通常我们研究的形式背景是完备的,也就是对 象和属性之间的关系是已知的,但是在实际应用中, 大多数信息是模糊[7] 的、复杂的。 更糟糕的是在现
第3期 胡小康,等:基于相容模糊概念的规则提取方法 ·353· 实生活中由于人的认知能力以及机器的局限性,人 G(B)={g∈GI glm,Hm∈B},BCM(2) 们经常不能准确地判断对象和属性之间的关系,使 形式背景能用一个二维表表示,如表1,其中对 得获取的形式背景经常存在数据缺失,从而得到形 象集G={x1,x2,x3,x4},属性集M={a,b,c,d。表 式背景是不完备的模糊形式背景,这对于知识获取 中1表示某对象拥有某属性,0表示某对象不拥有 产生了很大障碍。因此不完备模糊形式背景的研究 某属性,例如x,有a属性,没有b属性。 获得了广泛的关注。 表1形式背景 粗糙集理论中的信息系统就是形式概念分析中 Table 1 A formal context 的形式背景,对于不完备信息系统[】,粗糙集已通 G a b C 过相容关系、非对称相似关系等进行了一些研究。 X 1 0 在形式概念分析中LuJ等在文献[9]中将多值形 X2 0 式背景转变为单值形式背景后,通过把不完备属性 1 0 在不同对象上的不同取值进行扩展,从而得到了完 X3 1 0 0 备的形式背景来进行概念的提取。Dubois D等在文 Xa 0 0 1 0 献[10]提出了利用概率论来解决不完备形式背景 定义2山形式背景K=(G,M,)中一对二元 的方法。Krupka M等在文献[I1]中定义了不完备 组(A,B)称为形式概念,当且仅当F(A)=B与G 的模糊形式背景,然后提出了在不完备模糊形式背 (B)=A同时成立(ACG,BCM),其中A叫做形式 景下构建概念格的方法。Djouadi Y等在文献[12] 概念的外延,B叫做形式概念的内涵。 中将不完备模糊形式背景中的隶属度值均采用区间 假定(41,B)与(A2,B2)是形式背景(G,M,I) 值来表示,将不完备模糊形式背景转化为区间值模 下的两个概念,这两个概念间可以建立起偏序关系 糊形式背景(interval-valued fuzzy formal concept, (A1,B)≤(A2,B2)台A1CA2(曰B2CB1)。领先次 VFF),在此基础上提出了基于区间值形式背景的 概念格构建方法。iJH等在文献[13]中提出了在 序意味着(41,B,)是(42,B,)的子概念。根据概念 间的偏序关系生成格的Hasse图见图1。下面是在 不完备形式背景下构建相似概念格的方法,此外基 形式背景K下生成的概念: 于相似概念格还研究了在不完备的决策形式背景下 1){☑,(a,b,c,d)}; 获取规则的方法。上述研究中,无论是将不完备形 2){(x),(a,d)}: 式背景转化为区间值形式背景,还是对不完备属性 3){(x3),(a,c)}; 进行扩展来构造概念格的方法,仅仅适用于形式背 4){(x2),(b,c)}; 景中数据量缺失较少的情况。当形式背景中数据缺 失量较大时,所构造的概念格中包含有大量不确定 5){(x1,x3),(a)}: 6){(x2,x3,x4),(c)}: 的信息,这对知识获取造成了很大影响。 7)1(x1,x2,x3,x),☑1。 本文为了减少形式背景中数据缺失量对知识获 取的影响,提出并定义了相似模糊概念和相容模糊 7 概念并给出了相容模糊概念的构建方法,建立了相 容模糊概念之间的偏序关系,进而设计面向模糊不 完备信息的关联规则挖掘算法。 1基本概念 1.1形式概念分析 定义1山一个形式背景K=(G,M,I)是一个 三元组,其中G是对象集合,M是属性集合,I是G 与M之间的一个二元关系gm或(g,m)∈I,表示 图1表1对应概念格的Hasse图 对象g具有属性m。在形式背景中定义式(1)和式 Fig.1 Hasse diagram of table 1 (2): F(A)={m∈MI glm,Hg∈A},ACG(1)
实生活中由于人的认知能力以及机器的局限性,人 们经常不能准确地判断对象和属性之间的关系,使 得获取的形式背景经常存在数据缺失,从而得到形 式背景是不完备的模糊形式背景,这对于知识获取 产生了很大障碍。 因此不完备模糊形式背景的研究 获得了广泛的关注。 粗糙集理论中的信息系统就是形式概念分析中 的形式背景,对于不完备信息系统[8] ,粗糙集已通 过相容关系、非对称相似关系等进行了一些研究。 在形式概念分析中 Liu J 等在文献[9]中将多值形 式背景转变为单值形式背景后,通过把不完备属性 在不同对象上的不同取值进行扩展,从而得到了完 备的形式背景来进行概念的提取。 Dubois D 等在文 献[10]提出了利用概率论来解决不完备形式背景 的方法。 Krupka M 等在文献[11]中定义了不完备 的模糊形式背景,然后提出了在不完备模糊形式背 景下构建概念格的方法。 Djouadi Y 等在文献[12] 中将不完备模糊形式背景中的隶属度值均采用区间 值来表示,将不完备模糊形式背景转化为区间值模 糊形 式 背 景 ( interval⁃valued fuzzy formal concept, IVFF),在此基础上提出了基于区间值形式背景的 概念格构建方法。 Li J H 等在文献[13]中提出了在 不完备形式背景下构建相似概念格的方法,此外基 于相似概念格还研究了在不完备的决策形式背景下 获取规则的方法。 上述研究中,无论是将不完备形 式背景转化为区间值形式背景,还是对不完备属性 进行扩展来构造概念格的方法,仅仅适用于形式背 景中数据量缺失较少的情况。 当形式背景中数据缺 失量较大时,所构造的概念格中包含有大量不确定 的信息,这对知识获取造成了很大影响。 本文为了减少形式背景中数据缺失量对知识获 取的影响,提出并定义了相似模糊概念和相容模糊 概念并给出了相容模糊概念的构建方法,建立了相 容模糊概念之间的偏序关系,进而设计面向模糊不 完备信息的关联规则挖掘算法。 1 基本概念 1.1 形式概念分析 定义 1 [1] 一个形式背景 K = (G,M,I)是一个 三元组 ,其中 G 是对象集合,M 是属性集合, I 是 G 与 M 之间的一个二元关系 gIm 或( g,m) ∈I,表示 对象 g 具有属性 m。 在形式背景中定义式(1)和式 (2): F(A) = {m ∈ M | gIm,∀g ∈ A},A ⊆ G (1) G(B) = {g ∈ G | gIm,∀m ∈ B},B ⊆ M (2) 形式背景能用一个二维表表示,如表 1,其中对 象集 G = x1 ,x2 ,x3 ,x4 { } ,属性集 M = {a,b,c,d} 。 表 中 1 表示某对象拥有某属性,0 表示某对象不拥有 某属性,例如 x1 有 a 属性,没有 b 属性。 表 1 形式背景 Table 1 A formal context G a b c d X1 1 0 0 1 X2 0 1 1 0 X3 1 0 1 0 X4 0 0 1 0 定义 2 [1] 形式背景 K = (G,M,I) 中一对二元 组( A,B) 称为形式概念,当且仅当 F (A) = B 与 G (B) = A 同时成立(A⊆G,B⊆M),其中 A 叫做形式 概念的外延,B 叫做形式概念的内涵。 假定 A1 ,B1 ( ) 与 A2 ,B2 ( ) 是形式背景(G,M,I) 下的两个概念,这两个概念间可以建立起偏序关系 A1 ,B1 ( ) ≤ A2 ,B2 ( ) ⇔A1⊆A2(⇔B2⊆B1 ) 。 领先次 序意味着 A1 ,B1 ( ) 是 A2 ,B2 ( ) 的子概念。 根据概念 间的偏序关系生成格的 Hasse 图见图 1。 下面是在 形式背景 K 下生成的概念: 1){∅,(a,b,c,d)}; 2){(x1 ),(a,d)}; 3){(x3 ),(a,c)}; 4){(x2 ),(b,c)}; 5){(x1 ,x3 ),(a)}; 6){(x2 ,x3 ,x4 ),(c)}; 7){(x1 ,x2 ,x3 ,x4 ),∅}。 图 1 表 1 对应概念格的 Hasse 图 Fig.1 Hasse diagram of table 1 第 3 期 胡小康,等:基于相容模糊概念的规则提取方法 ·353·
·354 智能系统学报 第11卷 1.2模糊形式概念 过设置置信度阈值可以消除一些不在这个值之内的 定义34 一个模糊形式背景是一个三元组 关系,对于t与【2的值用户可以根据需要来设定。 (G,M,'),其中G是对象的有限集,M是属性有 例如在表2中设定模糊形式背景的置信度阈值为 限集,I'是G'×M'的模糊集合。(g,m)∈'有一个隶 T=[0.5,1],对于表中(o1,b)的隶属度值为0.1,认 属度值u(g,m)∈[0,1]。 为病人0,的血压没有问题,可以不考虑。 定义414)给定一个模糊形式背景K'={G, 表3置信度阔值为T的模糊形式背景 M,'=p(G'×M)}和一个置信度阈值T=[t1,t2], Table 3 Confidence thresholds for T fuzzy formal context 在形式背景中定义式(3)与式(4): d e FA(A)={m∈M'1Hg∈A:t1≤u(g,m)≤t2} 0 0.8 0 0.61 0.6 0.8 (3) 02 0.9 0.85 0 0.7 0.9 式中ACG。 03 0 0.87 0.6 0.6 FO(B)={g∈G'IVm∈B:41≤u(g,m)≤t2l 04 0.6 0 0.5 0 (4) 式中BCM'。 2相似模糊概念与相容模糊概念 模糊形式背景(G',M',)同置信度阈值T下的 一个二元组(A,B)(ACG',B二M')是模糊形式概 在形式概念分析中,对不完备形式背景进行完 念,当且仅当FA(A)=B与FO(B)=A同时成立。 备化处理,一般可采用以下3种方法。 A、B分别叫做模糊形式背景的模糊外延和模糊 1)删除法。删除法即删除形式背景中缺失数 内涵。 据的一列或者一行,也就是删除一个对象或者删除 定义5(A1,B,)和(A2,B2)是形式背景 一个属性。这类方法操作起来比较简单,但是在删 (G',M',')的两个模糊概念。(A1,B,)是(A2,B2) 除过程中会导致原先存在的数据缺失,可能会造成 的子概念,记作(A1,B,)≤(A2,B2),当且仅当 获取的知识不准确。 ACA2(台B2SB,)。 2)填补法。填补法就是对不完备形式背景中 目前所研究的形式背景是完备的,换句话讲,此 缺失的数据填充为1或者0,使之补全为一个完备 时对象或者具有某属性,或者不具有某属性,他们之 的形式背景。这类方法比较简单,但是容易造成获 间的关系是确定的。数据缺失现象在生活中普遍存 取的知识错误,因为好多缺失信息都是人为地填充 在。例如,对一些突发事件,并没有该事件的完整记 0或者1。 录:再如病人突发疾病,而不能对病人进行全面检 3)扩展属性法[1)。扩展属性法即把原有不完 查,然后来制定相应的治疗方案。下面给出一个例 备形式背景下的属性集合中的属性分为完备和不完 子来说明,表2是医生诊断表,即为不完备模糊形式 备属性两部分,然后将不完备属性在不同对象的不 背景,其中01、02、03、04表示病人编号,组成对象集 同取值进行扩展,从而把不完备形式背景补充完整。 G'。a、b、c、d、ef表示病人的症状,其代表为头痛、 此方法的好处是既不会增加知识也不会缺失知识, 血压、恶心、食欲不振、咳嗽、乏力,组成属性集M”。 但是增加了知识获取的时间和空间复杂度。 用*来表示缺失数据,但是这些数据是客观存在的。 定义6在不完备模糊形式背景K=(G',M', 表2初始模糊形式背景 I)中,对于集合A∈G,记作: Table 2 The initial fuzzy formal context FA(A)={m∈M'IVg∈A:t1≤ u(g,m)≤t2或u(g,m)=*} (5) e 式中A∈G。 0.8 0.1 0.61 0.6 0.8 FO(B)={g∈GlHm∈B:t1≤ u(g,m)≤t2或u(g,m)=*} (6) 03 0.9 0.85 0.2 0.7 0.9 式中BM'。 03 0.21 0.87 0.6 0.6 如果FA(4)=B且FO(B)=A称(A,B)为模糊 04 0.6 0.30 0.5 形式背景K。下的一个相似模糊概念,g∈A时u,为 个置信度阈值T设置在区间[,2]中。通 (4,B)中对象g的隶属度值,其表示如式(7):
1.2 模糊形式概念 定义 3 [14] 一个模糊形式背景是一个三元组 (G′,M′,I′),其中 G′是对象的有限集,M′是属性有 限集,I′是 G′×M′的模糊集合。 (g,m)∈I′有一个隶 属度值 u(g,m)∈[0,1] 。 定义 4 [14] 给定一个模糊形式背景 K′ = {G′, M′,I′=φ(G′×M′)}和一个置信度阈值 T = [ t 1 ,t 2 ], 在形式背景中定义式(3)与式(4): FA(A) = {m ∈ M′ | ∀g ∈ A:t 1 ≤ u(g,m) ≤ t 2 } (3) 式中 A⊆G′。 FO(B) = {g ∈ G′ | ∀m ∈ B:t 1 ≤ u(g,m) ≤ t 2 } (4) 式中 B⊆M′。 模糊形式背景(G′,M′,I′)同置信度阈值 T 下的 一个二元组( A,B) ( A⊆G′,B⊆M′) 是模糊形式概 念,当且仅当 FA( A) = B 与 FO(B) = A 同时成立。 A、B 分别叫做模糊形式背景的模糊外延和模糊 内涵。 定义 5 [14] ( A1 ,B1 ) 和( A2 ,B2 ) 是形式背景 (G′,M′,I′)的两个模糊概念。 (A1 ,B1 ) 是( A2 ,B2 ) 的子 概 念, 记 作 ( A1 , B1 ) ≤ ( A2 , B2 ), 当 且 仅 当 A1⊆A2 (⇔B2⊆B1 )。 目前所研究的形式背景是完备的,换句话讲,此 时对象或者具有某属性,或者不具有某属性,他们之 间的关系是确定的。 数据缺失现象在生活中普遍存 在。 例如,对一些突发事件,并没有该事件的完整记 录;再如病人突发疾病,而不能对病人进行全面检 查,然后来制定相应的治疗方案。 下面给出一个例 子来说明,表 2 是医生诊断表,即为不完备模糊形式 背景,其中 o1 、o2 、o3 、o4 表示病人编号,组成对象集 G′。 a、b、c、d、e、f 表示病人的症状,其代表为头痛、 血压、恶心、食欲不振、咳嗽、乏力,组成属性集 M′。 用∗来表示缺失数据,但是这些数据是客观存在的。 表 2 初始模糊形式背景 Table 2 The initial fuzzy formal context a b c d e f o1 0.8 0.1 0.61 0.6 0.8 ∗ o2 0.9 0.85 ∗ 0.2 0.7 0.9 o3 0.21 ∗ 0.87 ∗ 0.6 0.6 o4 0.6 ∗ 0.30 ∗ 0.5 0 一个置信度阈值 T 设置在区间[ t 1 ,t 2 ] 中。 通 过设置置信度阈值可以消除一些不在这个值之内的 关系,对于 t 1 与 t 2 的值用户可以根据需要来设定。 例如在表 2 中设定模糊形式背景的置信度阈值为 T = [0.5,1] ,对于表中(o1 ,b)的隶属度值为 0.1,认 为病人 o1 的血压没有问题,可以不考虑。 表3 置信度阈值为 T 的模糊形式背景 Table 3 Confidence thresholds for T fuzzy formal context a b c d e f o1 0.8 0 0.61 0.6 0.8 ∗ o2 0.9 0.85 ∗ 0 0.7 0.9 o3 0 ∗ 0.87 ∗ 0.6 0.6 o4 0.6 ∗ 0 ∗ 0.5 0 2 相似模糊概念与相容模糊概念 在形式概念分析中,对不完备形式背景进行完 备化处理,一般可采用以下 3 种方法。 1)删除法。 删除法即删除形式背景中缺失数 据的一列或者一行,也就是删除一个对象或者删除 一个属性。 这类方法操作起来比较简单,但是在删 除过程中会导致原先存在的数据缺失,可能会造成 获取的知识不准确。 2)填补法。 填补法就是对不完备形式背景中 缺失的数据填充为 1 或者 0,使之补全为一个完备 的形式背景。 这类方法比较简单,但是容易造成获 取的知识错误,因为好多缺失信息都是人为地填充 0 或者 1。 3)扩展属性法[15] 。 扩展属性法即把原有不完 备形式背景下的属性集合中的属性分为完备和不完 备属性两部分,然后将不完备属性在不同对象的不 同取值进行扩展,从而把不完备形式背景补充完整。 此方法的好处是既不会增加知识也不会缺失知识, 但是增加了知识获取的时间和空间复杂度。 定义 6 在不完备模糊形式背景 Kc = (G′,M′, IM ) 中,对于集合 A∈G′,记作: FA(A) = {m ∈ M′ | ∀g ∈ A:t 1 ≤ u(g,m) ≤ t 2 或 u(g,m) = ∗} (5) 式中 A∈G′。 FO(B) = {g ∈ G | ∀m ∈ B:t 1 ≤ u(g,m) ≤ t 2 或 u(g,m) = ∗} (6) 式中 B⊆M′。 如果 FA(A) = B 且 FO(B) = A 称 (A,B) 为模糊 形式背景 Kc 下的一个相似模糊概念,g∈A 时 ug 为 (A,B) 中对象 g 的隶属度值,其表示如式(7): ·354· 智 能 系 统 学 报 第 11 卷
第3期 胡小康,等:基于相容模糊概念的规则提取方法 ·355· ug=min(u(g,m))m∈B (7) 证明假设(A,B)是(A,B)的一个子概念, 特别地当u(g,m)=*时可用补全法补全g与 (A,B)是粗糙相容模糊概念,即存在u(g,m)=*, m的隶属度值。在不完备形式背景下所有相似模糊 根据概念之间的继承关系可知g∈A1,m∈B1。 概念构成的集合可表示为w(K)。 相似模糊概念与相容模糊概念既有区别也有联 在相似概念(A,B)中,如果含有大量缺失数据, 系,在经典的不完备形式背景中“补全法”将缺失数 则涉及(4,B)的任何应用都是不可靠的,即它不仅 据补充为1,而在不完备的模糊形式背景中,相似模 降低了知识获取的有效性,反而会使不确定性进一 糊概念是将不完备模糊形式背景中的缺失数据补充 步扩散。下面在相似模糊概念的基础上提出了相容 为0.5得到的。而相容模糊概念是对相似模糊概念 模糊概念,通过设置参数(α,B)可满足不同用户的 的扩展,它是在相似模糊概念基础上通过设置参数 需求,(α,B)就叫做相容参数。 (α:,B),去除一些数据量缺失较大的相似模糊概念 定义7在不完备模糊形式背景K。= 而得到的。根据定义6和定义7以及传统的概念获 (G,M',Iw)中,设ACG,BCM',(M,B)∈o(K), 取算法[6,可以得出相似模糊概念和相容模糊概念 0≤a,B≤1,记作: 的构造算法,具体算法步骤参考算法1与算法2。 X(A,B)={a∈B1|(A,B).|≥a×Al}(8) 算法1在不完备形式背景K。中,相似模糊概 P(A,B)={x∈AI|(A,B)|≥×|B|}(9) 念的构造算法。 y(A,B)=AI+B(IX(A,B)+l(A,B)1) 输入不完备模糊形式背景K=(G,M,Iy), w(K)为空集。 (10) 输出相似模糊概念w(K)。 式中:(A,B)={x∈AIt1≤u(x,a)≤t2},(A,B)'= 1)先对不完备模糊形式背景进行处理,如果 {a∈BIt1≤u(x,a)≤t2},在相似模糊概念 (g,m)小于置信度阈值T,则u(g,m)为0,然后将 (A,B)中,X(A,B)表示属性a(Ha∈B)在K。中满 K。中的空缺数据*全部填充为0.5,即用补全法把 足集合(A,B)中元素数量大于α×|A的属性集 不完备形式背景转化为完备形式背景。 合。P(A,B)表示为对象x(Hx∈A)在K。满足集合 2)获得第一个概念(FO(M),M)设置概念的隶 (A,B)中元素数量大于a×|B|的对象集合。 属度值并加入(K)中。 如果Y(A,B)≥B则称(A,B)是相容模糊概念, 3)遍历对象g,其中g∈G,如果遍历完成转到 定义u为(A,B)的隶属度值,u可以表示为 6),反之转到4)。 ∑“ 4)遍历近似模糊概念(A,B),其中(A,B)∈ (11) w(K),如果遍历完成转到3),否则转到5)。 在不完备模糊形式背景K中,基于参数(α,B) 5)求出B与FA(g)交集I,如果获得的交集I不 的所有相容概念构成的集合为w(K)。不完备模 是已获得w(K)的内涵,则计算出(FO(I),I)隶属 糊形式背景K.用补全法转化为完备的模糊形式背 度值并加入w(K)中然后回到4)。 景,其上获得的相似模糊概念(K)中有许多填充 6)输出w(K),算法结束。 的信息,通过参数:与外延中对象数量与内涵中属 算法2在不完备形式背景K中,相容模糊概 性数量的乘积,即aα×A与α×|B可以去掉填充值 念的获取算法。 较大概念。 输入不完备模糊形式背景K。=(G',M',I), 定义8如果在一个相容模糊概念中有“ 相似模糊概念o(K),w(K)为空集。 (g,m)=*则这个相容模糊概念称为粗糙概念,反 输出相容模糊概念wg(K。)。 之称为精确概念。 1)任取o(K)里的相似模糊概念并计算出 定理1在不完备模糊形式背景K。= X(4,B)、P(A,B)与Y(A,B)。如果Y(A,B)>B,计 (G',M',IM)中,如果(A,B)是粗糙概念,那么这个相 算出(A,B)的隶属度值并加入到相容模糊概念 容模糊概念的子概念至少存在一个概念,其粗糙 wg(K)中。 度为 2)如果相似模糊概念都被进行计算过,则输出 I u(g,m)(VeA=I 相容模糊概念转到3),反之再进行1)。 I AI XI BI (12) 3)输出u(K),算法结束
ug = min(u(g,m) ) m ∈ B (7) 特别地当 u (g,m) = ∗时可用补全法补全 g 与 m 的隶属度值。 在不完备形式背景下所有相似模糊 概念构成的集合可表示为 w Kc ( ) 。 在相似概念(A,B) 中,如果含有大量缺失数据, 则涉及(A,B) 的任何应用都是不可靠的,即它不仅 降低了知识获取的有效性,反而会使不确定性进一 步扩散。 下面在相似模糊概念的基础上提出了相容 模糊概念,通过设置参数(α,β)可满足不同用户的 需求,(α,β)就叫做相容参数。 定义 7 在 不 完 备 模 糊 形 式 背 景 Kc = G′,M′,IM ( ) 中,设 A⊆G′,B⊆M′, (A,B) ∈w Kc ( ) , 0≤α,β≤1,记作: χ (A,B) = {a ∈ B | (A,B) a ≥ α × A } (8) φ(A,B) = {x ∈ A | (A,B) x ≥ α × B } (9) γ(A,B) = 1 | A | +| B | (| χ (A,B) + φ(A,B) | ) (10) 式中:(A,B) a = {x∈A | t 1≤u (x,a) ≤t 2 }, (A,B) x = {a ∈ B | t 1 ≤ u (x,a) ≤ t 2 }, 在 相 似 模 糊 概 念 (A,B) 中, χ (A,B) 表示属性 a(∀a∈B)在 Kc 中满 足集合(A,B) a 中元素数量大于 α × A 的属性集 合。 φ(A,B) 表示为对象 x(∀x∈A)在 Kc 满足集合 (A,B) x 中元素数量大于 α× B 的对象集合。 如果 γ(A,B) ≥β 则称(A,B) 是相容模糊概念, 定义 u - 为(A,B) 的隶属度值,u - 可以表示为 u - = ∑g∈A ug A (11) 在不完备模糊形式背景 Kc 中,基于参数(α,β) 的所有相容概念构成的集合为 w α β (Kc )。 不完备模 糊形式背景 Kc 用补全法转化为完备的模糊形式背 景,其上获得的相似模糊概念 w Kc ( ) 中有许多填充 的信息,通过参数 α 与外延中对象数量与内涵中属 性数量的乘积,即 α× A 与 α× B 可以去掉填充值 较大概念。 定义 8 如 果 在 一 个 相 容 模 糊 概 念 中 有 u (g,m) = ∗则这个相容模糊概念称为粗糙概念,反 之称为精确概念。 定理 1 在 不 完 备 模 糊 形 式 背 景 Kc = G′,M′,IM ( ) 中,如果(A,B)是粗糙概念,那么这个相 容模糊概念的子概念至少存在一个概念,其粗糙 度为 | u (g,m) (∀g∈A) = ∗ | | A | ×| B | (12) 证明 假设(A1 ,B1 ) 是(A,B) 的一个子概念, (A,B)是粗糙相容模糊概念,即存在 u (g,m) = ∗, 根据概念之间的继承关系可知 g∈A1 ,m∈B1 。 相似模糊概念与相容模糊概念既有区别也有联 系,在经典的不完备形式背景中“补全法”将缺失数 据补充为 1,而在不完备的模糊形式背景中,相似模 糊概念是将不完备模糊形式背景中的缺失数据补充 为 0.5 得到的。 而相容模糊概念是对相似模糊概念 的扩展,它是在相似模糊概念基础上通过设置参数 (α,β),去除一些数据量缺失较大的相似模糊概念 而得到的。 根据定义 6 和定义 7 以及传统的概念获 取算法[16] ,可以得出相似模糊概念和相容模糊概念 的构造算法,具体算法步骤参考算法 1 与算法 2。 算法 1 在不完备形式背景 Kc 中,相似模糊概 念的构造算法。 输入 不完备模糊形式背景 Kc = G′,M′,IM ( ) , w Kc ( ) 为空集。 输出 相似模糊概念 w Kc ( ) 。 1)先对不完备模糊形式背景进行处理,如果 u (g,m) 小于置信度阈值 T,则 u (g,m) 为 0,然后将 Kc 中的空缺数据∗全部填充为 0.5,即用补全法把 不完备形式背景转化为完备形式背景。 2)获得第一个概念(FO(M),M)设置概念的隶 属度值并加入 w(Kc)中。 3)遍历对象 g,其中 g∈G,如果遍历完成转到 6),反之转到 4)。 4)遍历近似模糊概念( A,B),其中( A,B) ∈ w Kc ( ) ,如果遍历完成转到 3),否则转到 5)。 5)求出 B 与 FA(g) 交集 I,如果获得的交集 I 不 是已获得 w Kc ( ) 的内涵,则计算出(FO( I),I)隶属 度值并加入 w Kc ( ) 中然后回到 4)。 6)输出 w Kc ( ) ,算法结束。 算法 2 在不完备形式背景 Kc 中,相容模糊概 念的获取算法。 输入 不完备模糊形式背景 Kc = G′,M′,IM ( ) , 相似模糊概念 w Kc ( ) ,w α β(Kc)为空集。 输出 相容模糊概念 w α β(Kc)。 1)任取 w Kc ( ) 里的相似模糊概念并计算出 χ (A,B) 、φ(A,B) 与 γ( A,B)。 如果 γ( A,B) >β,计 算出(A,B) 的隶属度值 u - 并加入到相容模糊概念 w α β(Kc)中。 2)如果相似模糊概念都被进行计算过,则输出 相容模糊概念转到 3),反之再进行 1)。 3)输出 w α β(Kc),算法结束。 第 3 期 胡小康,等:基于相容模糊概念的规则提取方法 ·355·
·356· 智能系统学报 第11卷 3基于相容模糊概念的规则提取 可以将得到的规则B,=B,-B2加入Σ中,其可信度 是IA,I/八A2I。 关联规则数据挖掘中最活跃的研究方法之 3)如果对于节点C=(4,B)有多个双亲节点, 一【2。规则就是形如“如果…那么…(f…Then 则任取两个双亲节点C,=(A1,B,)与C2=(42,B2), …)”前者为条件,后者为结果。典型的关联规则发 现问题是对超市中的购物篮数据进行分析,例如最 如果满足条件min(i(A,B,),a(4,B, >7,则可 max(u(A:,B),u(A2,B2)) 著名的案例就是啤酒与尿布。 以提取到的规则B,→B2与B2→B1,并将其加入∑ 对于关联规则A→B的支持度是supP(A→B)= 中,支持度分别为1A1/八AI与1AI/八A2I。 IFO(AUB)I/IUI,置信度为conf(A→B)>B关联规 4)输出∑。 则A→B被称为关于(w,r)关联规则,当supp(A曰 在得到提取规则∑后,可以给其支持度阈值ω B)>w时把AUB称为频繁的。 与置信度阈值?。然后根据需要从提取的规则中筛 在不完备的模糊背景下,规则提取是一件比较 选出符合要求的规则。 困难的工作,在之前的工作中已经获得了相似模糊 概念和相容模糊概念,然后根据算法3构造好相似 4示例展示 模糊概念格,但是由于相似模糊概念中有许多不确 现在举例来展示规则提取的过程,在表3中讨 定性信息,所以构造的相似模糊概念格也是不准确 论的置信度阈值是T=[0.5,1],通过算法1,可以得出 的。通过对相似模糊概念的筛选,最后得到了较为 在表3的不完备模糊背景下形成的相似模糊概念为 准确的相容模糊概念,可以在构造好的相似模糊概 1){☑,(a,b,c,d,ef)}; 念格基础上得到相容模糊概念的之间的偏序关系, 2){(0.6/o1),(a,c,d,ef); 从而可以提取出可信度较高的关联规则,具体算法 3){(0.5/o2),(a,b,c,ef)}; 参考算法4。 4){(0.61/o1,0.5/o2),(a,c,ef}; 算法3相似模糊概念格的构造算法。 5){(0.5/o3),(b,c,d,ef)}; 输入不完备模糊形式背景K。=(G',M',Iw), 6){(0.6/o1,0.5/o3),(c,d,ef}: 相似模糊概念w(K)。 7){(0.5/o2,0.5/o3),(b,c,e)}: 输出相似模糊概念格。 8){(0.61/o1,0.5/o2,0.6/o3),(c,e,f)}. 1)遍历相似模糊概念(A,B),其中(A,B)∈0 9){(0.5/oa),(a,b,d,e)}: (K),并且设置(A,B)的count为0。如果遍历完成 10){(0.6/o1,0.5/o4),(a,d,e)}; 则转4),否则转2)。 11){(0.7/o2,0.5/o4),(a,b,e)}; 2)遍历属性m,其中m∈M,并求得A与FO(m) 12){(0.8/o1,0.7/o2,0.5/o4),(a,e)}: 交集I。如果遍历结束转到1),否则转到3)。 13){(0.5/o3,0.5/o4),(b,d,e)}: 3)在w(K)找出相似模糊概念(A1,B,)使得 14){(0.6/o1,0.5/o3,0.5/o4),(d,e)}; A,=I,并把概念(A1,B,)的count值加1。假如 15){(0.7/o2,0.5/o3,0.5/o4),(b,e)}: IB,I-IB1等于(A1,B)的count值,则增加边在 16){(o1,o2,03,04),(0a,0yb,0yc,0yd,05/e,0yfio (A1,B)与(A,B),反之转2)。 4)输出相似模糊概念格,算法结束。 16 算法4不完备形式背景下规则提取的算法。 输入不完备模糊形式背景K。=(G,M',Iw), 4口5 相容模糊概念1g(K)。 力3 输出关联规则Σ。 1)对相似模糊概念格进行处理,除去相容模糊 概念之外的概念,更新父节点和子节点。 2)如果概念C1=(A1,B1)与C2=(42,B2)满足 C2是C,的父节点,且满足C,与C2的隶属度大于 给定的阑值,即min(i(A,B,),i(A,B,)) 图2相似模糊概念的相似模糊概念格 >n,则 Fig.2 Approximat fuzzy concept lattice max(u(A,B),u(A2,B2)) 图2是相似模糊概念格对应的Hasse图。上述
3 基于相容模糊概念的规则提取 关联规则数据挖掘中最活跃的研究方法之 一[17⁃21] 。 规则就是形如“如果…那么…( If…Then …)”前者为条件,后者为结果。 典型的关联规则发 现问题是对超市中的购物篮数据进行分析,例如最 著名的案例就是啤酒与尿布。 对于关联规则 A⇒B 的支持度是 supp(A⇒B)= | FO(A∪B) | / |U| ,置信度为 conf(A⇒B)>β 关联规 则 A⇒B 被称为关于(ω,τ)关联规则,当 supp(A⇒ B)>ω 时把 A∪B 称为频繁的。 在不完备的模糊背景下,规则提取是一件比较 困难的工作,在之前的工作中已经获得了相似模糊 概念和相容模糊概念,然后根据算法 3 构造好相似 模糊概念格,但是由于相似模糊概念中有许多不确 定性信息,所以构造的相似模糊概念格也是不准确 的。 通过对相似模糊概念的筛选,最后得到了较为 准确的相容模糊概念,可以在构造好的相似模糊概 念格基础上得到相容模糊概念的之间的偏序关系, 从而可以提取出可信度较高的关联规则,具体算法 参考算法 4。 算法 3 相似模糊概念格的构造算法。 输入 不完备模糊形式背景 Kc = G′,M′,IM ( ) , 相似模糊概念 w Kc ( ) 。 输出 相似模糊概念格。 1)遍历相似模糊概念( A,B),其中( A,B) ∈w Kc ( ) ,并且设置(A,B)的 count 为 0。 如果遍历完成 则转 4),否则转 2)。 2)遍历属性 m,其中 m∈M,并求得 A 与FO(m) 交集 I。 如果遍历结束转到 1),否则转到 3)。 3)在 w Kc ( ) 找出相似模糊概念 A1 ,B1 ( ) 使得 A1 = I, 并 把 概 念 A1 ,B1 ( ) 的 count 值 加 1。 假 如 | B1 | - | B | 等 于 A1 ,B1 ( ) 的 count 值, 则 增 加 边 在 A1 ,B1 ( ) 与(A,B),反之转 2)。 4)输出相似模糊概念格,算法结束。 算法 4 不完备形式背景下规则提取的算法。 输入 不完备模糊形式背景 Kc = G′,M′,IM ( ) , 相容模糊概念 w α β(Kc)。 输出 关联规则∑。 1)对相似模糊概念格进行处理,除去相容模糊 概念之外的概念,更新父节点和子节点。 2)如果概念 C1 = A1 ,B1 ( ) 与 C2 = A2 ,B2 ( ) 满足 C2 是 C1 的父节点,且满足 C1 与 C2 的隶属度大于 给定的阈值 η,即 min(u - (A1 ,B1 ),u - (A2 ,B2 )) max(u - (A1 ,B1 ),u - (A2 ,B2 )) >η,则 可以将得到的规则 B2 = B1 -B2 加入∑中,其可信度 是| A1 | / | A2 | 。 3)如果对于节点 C = (A,B) 有多个双亲节点, 则任取两个双亲节点 C1 = A1 ,B1 ( ) 与 C2 = A2 ,B2 ( ) , 如果满足条件 min(u - (A1 ,B1 ),u - (A2 ,B2 )) max(u - (A1 ,B1 ),u - (A2 ,B2 )) >η,则可 以提取到的规则 B1⇒B2 与 B2⇒B1 ,并将其加入∑ 中,支持度分别为| A | / | A1 |与| A | / | A2 | 。 4)输出∑。 在得到提取规则∑后,可以给其支持度阈值 ω 与置信度阈值 τ。 然后根据需要从提取的规则中筛 选出符合要求的规则。 4 示例展示 现在举例来展示规则提取的过程,在表 3 中讨 论的置信度阈值是 T=[0.5,1],通过算法 1,可以得出 在表 3 的不完备模糊背景下形成的相似模糊概念为 1){∅,(a,b,c,d,e,f)}; 2){(0.6 / o1 ),(a,c,d,e,f)}; 3){(0.5 / o2 ),(a,b,c,e,f)}; 4){(0.61 / o1 ,0.5 / o2 ),(a,c,e,f)}; 5){(0.5 / o3 ),(b,c,d,e,f)}; 6){(0.6 / o1 ,0.5 / o3 ),(c,d,e,f)}; 7){(0.5 / o2 ,0.5 / o3 ),(b,c,e,f)}; 8){(0.61 / o1 ,0.5 / o2 ,0.6 / o3 ),(c,e,f)}.; 9){(0.5 / o4 ),(a,b,d,e)}; 10){(0.6 / o1 ,0.5 / o4 ),(a,d,e)}; 11){(0.7 / o2 ,0.5 / o4 ),(a,b,e)}; 12){(0.8 / o1 ,0.7 / o2 ,0.5 / o4 ),(a,e)}; 13){(0.5 / o3 ,0.5 / o4 ),(b,d,e)}; 14){(0.6 / o1 ,0.5 / o3 ,0.5 / o4 ),(d,e)}; 15){(0.7 / o2 ,0.5 / o3 ,0.5 / o4 ),(b,e)}; 16){(o1,o2,o3,o4),(0/ a,0/ b,0/ c,0/ d,0.5/ e,0/ f)}。 图 2 相似模糊概念的相似模糊概念格 Fig.2 Approximat fuzzy concept lattice 图 2 是相似模糊概念格对应的Hasse 图。上述 ·356· 智 能 系 统 学 报 第 11 卷
第3期 胡小康,等:基于相容模糊概念的规则提取方法 ·357· 已经得出不完备形式背景下(表3)的相似模糊概 3.0r×10 念,然后在此基础上根据算法3构建出相似模糊概 2.7 念格,通过设置相容参数(α=0.6,B=0.8)来获得所 2.4 2.1 需要的可靠的相容模糊概念(K): 1.8 1){0.6/(o1),(a,c,d,ef)}; 15 2){0.5/(o2),(a,b,c,ef}; 0.9 0.6 3){0.57/(o1,02,03),(c,ef}; 0.3 4){0.55/(o1,oa),(a,d,e)}; 50 100150 200 5){0.6/(o2,04),(a,d,e)}; 对象数量/个 6){0.667/(o1,02,04),(a,e)}: 图3对象与概念个数关系 7){0.083/(01,02,03,04),(c)}。 Fig.3 Relationship between object and concept 根据算法4可以得出阈值τ为0.9,置信度阈值 为0.5的关联规则: 1.0,*10 0.9 1){a,d,e}→{c,f升置信度为0.5。 0.8 解释:如果头疼、食欲不振、咳嗽则恶心、乏力。 ←0.7 蠡0.6 2){a,e}→{b}置信度为0.67。 0.5 0.4 解释:如果头疼、咳嗽则血压会高。 0.3 0.2 实验结果与分析 0.1 20406080100120140160180200 本文基于相容模糊概念的关联规则提取可分为 对象数量/个 在不完备模糊形式背景中相容模糊概念的构造过程 图4对象与关联规则个数关系 和根据相容模糊概念的偏序关系进行提取规则的过 Fig.4 Relationship between object and association rule 程。本文算法在Win7环境下用MATLAB来实现, 并在UCI数据库的water数据集(526个对象,38个 6 结束语 属性)进行实验。实验主要对2个指标进行测量: 目前在不完备模糊形式背景下的研究越来越 第1个是在不完备模糊形式背景下相似模糊概念数 多。本文结合在传统的不完备形式背景下获取概念 目与对象数目以及相容模糊概念与对象数目之间的 的方法,提出了在不完备模糊形式背景中提取出相 关系:第2个是提取的关联规则数目与对象数目之 容模糊概念,并根据相似模糊概念格提取出相容规 间的关系。在本实验中针对不完备模糊形式背景, 则的方法。实验表明,该方法可以有效的降低形式 背景中因数据缺失和数据的模糊性对获取知识准确 设定相容模糊参数为(α=0.8,B=0.9),关联规则的 性带来的的影响。未来的工作还需要改进和细化文 置信度阈值为0.8。在不完备形式背景下相似模糊 中的一些算法,例如如何在知识库分类能力保持不 概念与相容模糊概念的数量关系可由图3体现,图 变的情况下删除不相关的冗余属性:如何把模糊概 4则体现了对象数目与关联规则数量之间的关系。 念格与粗糙集理论有效结合以解决不确定规则提取 图3与图4都在相容模糊参数与属性数量都不变的 中的规则冗余性等问题。 情况下,取water数据集中的前200个对象进行测 量。图3与图4中横坐标都表示对象的数量,初始 参考文献: 为0,分别一次递增50与10进行测试。图3纵坐标 [1]WILLE R.Restructuring lattice theory:an approach based 表示由不完备形式背景形成概念的数量,图4纵坐 on hierarchies of concepts[M]//RIVAL I.Ordered sets. 标表示由相容模糊概念获得的关联规则的数量。通 Netherlands:Springer,1982:445-470. [2]POELMANS J,IGNATOV D I,KUZNETSOV S O,et al. 过图3、4的实验结果可以观察到,在不完备模糊形 Formal concept analysis in knowledge processing:a survey 式背景中随着对象数目的增多,通过本算法获得知 on applications [J].Expert systems with applications, 识准确性与传统的方法相比具有一定的优势
已经得出不完备形式背景下(表 3) 的相似模糊概 念,然后在此基础上根据算法 3 构建出相似模糊概 念格,通过设置相容参数(α = 0.6,β = 0.8)来获得所 需要的可靠的相容模糊概念 w 0.6 0.8(Kc): 1){0.6 / (o1 ),(a,c,d,e,f)}; 2){0.5 / (o2 ),(a,b,c,e,f)}; 3){0.57 / (o1 ,o2 ,o3 ),(c,e,f)}; 4){0.55 / (o1 ,o4 ),(a,d,e)}; 5){0.6 / (o2 ,o4 ),(a,d,e)}; 6){0.667 / (o1 ,o2 ,o4 ),(a,e)}; 7){0.083 / (o1 ,o2 ,o3 ,o4 ),(c)}。 根据算法 4 可以得出阈值 τ 为 0.9,置信度阈值 为 0.5 的关联规则: 1){a,d,e}⇒{c,f}置信度为 0.5。 解释:如果头疼、食欲不振、咳嗽则恶心、乏力。 2){a,e}⇒{b}置信度为 0.67。 解释:如果头疼、咳嗽则血压会高。 5 实验结果与分析 本文基于相容模糊概念的关联规则提取可分为 在不完备模糊形式背景中相容模糊概念的构造过程 和根据相容模糊概念的偏序关系进行提取规则的过 程。 本文算法在 Win7 环境下用 MATLAB 来实现, 并在 UCI 数据库的 water 数据集(526 个对象,38 个 属性)进行实验。 实验主要对 2 个指标进行测量: 第 1 个是在不完备模糊形式背景下相似模糊概念数 目与对象数目以及相容模糊概念与对象数目之间的 关系;第 2 个是提取的关联规则数目与对象数目之 间的关系。 在本实验中针对不完备模糊形式背景, 设定相容模糊参数为(α = 0.8,β = 0.9),关联规则的 置信度阈值为 0.8。 在不完备形式背景下相似模糊 概念与相容模糊概念的数量关系可由图 3 体现,图 4 则体现了对象数目与关联规则数量之间的关系。 图 3 与图 4 都在相容模糊参数与属性数量都不变的 情况下,取 water 数据集中的前 200 个对象进行测 量。 图 3 与图 4 中横坐标都表示对象的数量,初始 为 0,分别一次递增 50 与 10 进行测试。 图 3 纵坐标 表示由不完备形式背景形成概念的数量,图 4 纵坐 标表示由相容模糊概念获得的关联规则的数量。 通 过图 3、4 的实验结果可以观察到,在不完备模糊形 式背景中随着对象数目的增多,通过本算法获得知 识准确性与传统的方法相比具有一定的优势。 图 3 对象与概念个数关系 Fig.3 Relationship between object and concept 图 4 对象与关联规则个数关系 Fig.4 Relationship between object and association rule 6 结束语 目前在不完备模糊形式背景下的研究越来越 多。 本文结合在传统的不完备形式背景下获取概念 的方法,提出了在不完备模糊形式背景中提取出相 容模糊概念,并根据相似模糊概念格提取出相容规 则的方法。 实验表明,该方法可以有效的降低形式 背景中因数据缺失和数据的模糊性对获取知识准确 性带来的的影响。 未来的工作还需要改进和细化文 中的一些算法,例如如何在知识库分类能力保持不 变的情况下删除不相关的冗余属性;如何把模糊概 念格与粗糙集理论有效结合以解决不确定规则提取 中的规则冗余性等问题。 参考文献: [1]WILLE R. Restructuring lattice theory: an approach based on hierarchies of concepts [ M] / / RIVAL I. Ordered sets. Netherlands: Springer, 1982: 445⁃470. [2] POELMANS J, IGNATOV D I, KUZNETSOV S O, et al. Formal concept analysis in knowledge processing: a survey on applications [ J ]. Expert systems with applications, 第 3 期 胡小康,等:基于相容模糊概念的规则提取方法 ·357·
·358. 智能系统学报 第11卷 2013,40(16):6538-6560. [15]何淑贤,王育红,翟岩慧,等.不完备形式背景及其完 [3]MINEAU G W,GODIN R.Automatic structuring of knowl- 备化方法[J].山西大学学报:自然科学版,2006,29 edge bases by conceptual clustering[J].IEEE transactions (4):364-367. on knowledge and data engineering,1995,7(5):824-829. HE Shuxian,WANG Yuhong,ZHAI Yanhui,et al.In- [4]COLE R,EKLUND P W.Scalability in formal concept anal- complete formal context and the completion approach[J]. ysis[]]Computational intelligence,1999,15(1):11-27. Journal of Shanxi university natural science edition, [5]CARPINETO C,ROMANO G.A lattice conceptual cluste- 2006,29(4):364-367. ring system and its application to browsing retrieval[J].Ma- [16]谢志鹏,刘宗田.概念格的快速渐进式构造算法[J] chine learning,1996,24(2):95-122. 计算机学报,2002,25(5):490-496. [6]MA Jianmin,ZHANG Wenxiu.Axiomatic characterizations XIE Zhipeng,LIU Zongtian.A fast incremental algorithm of dual concept lattices[J].Intemational journal of approxi- for building concept lattice[J].Chinese journal of comput- mate reasoning,2013,54(5):690-697. es,2002,25(5):490-496. [7]胡明涵,张莉,任飞亮.模糊形式概念分析与模糊概念 [17]梁吉业,王俊红.基于概念格的规则产生集挖掘算法 格[J].东北大学学报:自然科学版,2007,28(9):1274- [J].计算机研究与发展,2004,41(8):1339-1344. 1277. LIANG Jiye,WANG Junhong.An algorithm for extracting HU Minghan,ZHANG Li,REN Feiliang.Fuzzy formal con- rule-generating sets based on concept lattice[J].Journal of cept analysis and fuzzy concept lattices[J].Journal of north- computer research and development,2004,41(8):1339- eastern university natural science,2007,28(9):1274- 1344. 1277. [18]LEKHA A,SRIKRISHNA C V,VINOD V.Fuzzy associa- [8]GRZYMALA-BUSSE J W.Rough set approach to incomplete tion rule mining[J].Journal of computer science,2015, data[C]//Proceedings of the 7th international conference 11(1):71-74. on artificial intelligence and soft computing-ICAISC 2004. [19]LAKHAL L,STUMME G.Efficient mining of association Berlin Heidelberg,Germany,2004:50-55. rules based on formal concept analysis[M]//GANTER B, [9]LIU Jun,YAO Xiaoqiu.Formal concept analysis of incom- STUMME G,WILLE R.Formal concept analysis.Berlin plete information system[C]//Proceedings of the 7th inter- Heidelberg:Springer-Verlag,2005:180-195. national conference on fuzzy systems and knowledge discov- [20]KUMAR CH A,DIAS S M,VIEIRA N J.Knowledge re- ery.Yantai,China,2010,5:2016-2020. duction in formal contexts using non-negative matrix factor- [10]DJOUADI Y,DUBOIS D,PRADE H.Possibility theory ization[J].Mathematics and computers in simulation, 2015,109:46-63. and formal concept analysis:Context decomposition and uncertainty handling[C]//Proceedings of the 13th interna- [21]王志海,胡可云,胡学纲,等.概念格上规则提取的一 般算法与渐进式算法[J].计算机学报,1991,22(1): tional conference on information processing and manage- 66-70. ment of uncertainty.Berlin Heidelberg,Germany,2010: WANG Zhihai,HU Keyun,HU Xuegang,et al.General 260-269. and incremental algorithms of rule extraction based on con- [11]KRUPKA M.Fuzzy concept lattices with incomplete knowl- cept lattice[J].Chinese journal of computers,1991,22 edge C//Proceedings of the 14th international conference (1):66-70. on information processing and management of uncertainty in 作者简介: knowledge-based systems.Berlin Heidelberg,Germany, 胡小康,男,1991年生,硕士研究 2012:171-180. 生,主要研究方向为形式概念分析、数 [12]DJOUADI Y,PRADE H.Interval-valued fuzzy formal con- 据挖掘。 cept analysis [C]//Proceedings of the 18th international symposium.Berlin Heidelberg,Germany,2009:592-601. [13]LI Jinhai,MEI Changlin,LV Yuejin.Incomplete decision contexts:approximate concept construction,rule acquisi- tion and knowledge reduction[].International journal of 王俊红,女,1979年生,副教授,主要 approximate reasoning,2013,54(1):149-165. 研究方向形式概念分析、粗糙集和数据挖 [14]LAI Hongliang,ZHANG Dexue.Concept lattices of fuzzy 掘。主持或参与多项国家863计划、国家 contexts:formal concept analysis vs.rough set theory[]]. 自然科学基金和省部级等科研项目。发 International journal of approximate reasoning,2009,50 表学术论文10余篇。 (5):695-707
2013, 40(16): 6538⁃6560. [3]MINEAU G W, GODIN R. Automatic structuring of knowl⁃ edge bases by conceptual clustering[ J]. IEEE transactions on knowledge and data engineering, 1995, 7(5): 824⁃829. [4]COLE R, EKLUND P W. Scalability in formal concept anal⁃ ysis[J]. Computational intelligence, 1999, 15(1): 11⁃27. [5]CARPINETO C, ROMANO G. A lattice conceptual cluste⁃ ring system and its application to browsing retrieval[J]. Ma⁃ chine learning, 1996, 24(2): 95⁃122. [6]MA Jianmin, ZHANG Wenxiu. Axiomatic characterizations of dual concept lattices[J]. International journal of approxi⁃ mate reasoning, 2013, 54(5): 690⁃697. [7]胡明涵, 张莉, 任飞亮. 模糊形式概念分析与模糊概念 格[J]. 东北大学学报:自然科学版, 2007, 28(9): 1274⁃ 1277. HU Minghan, ZHANG Li, REN Feiliang. Fuzzy formal con⁃ cept analysis and fuzzy concept lattices[J]. Journal of north⁃ eastern university : natural science, 2007, 28( 9): 1274⁃ 1277. [8]GRZYMALA⁃BUSSE J W. Rough set approach to incomplete data[ C] / / Proceedings of the 7th international conference on artificial intelligence and soft computing⁃ICAISC 2004. Berlin Heidelberg, Germany, 2004: 50⁃55. [9]LIU Jun, YAO Xiaoqiu. Formal concept analysis of incom⁃ plete information system[C] / / Proceedings of the 7th inter⁃ national conference on fuzzy systems and knowledge discov⁃ ery. Yantai, China, 2010, 5: 2016⁃2020. [10] DJOUADI Y, DUBOIS D, PRADE H. Possibility theory and formal concept analysis: Context decomposition and uncertainty handling[C] / / Proceedings of the 13th interna⁃ tional conference on information processing and manage⁃ ment of uncertainty. Berlin Heidelberg, Germany, 2010: 260⁃269. [11]KRUPKA M. Fuzzy concept lattices with incomplete knowl⁃ edge[C] / / Proceedings of the 14th international conference on information processing and management of uncertainty in knowledge⁃based systems. Berlin Heidelberg, Germany, 2012: 171⁃180. [12]DJOUADI Y, PRADE H. Interval⁃valued fuzzy formal con⁃ cept analysis [ C] / / Proceedings of the 18th international symposium. Berlin Heidelberg, Germany, 2009: 592⁃601. [13]LI Jinhai, MEI Changlin, LV Yuejin. Incomplete decision contexts: approximate concept construction, rule acquisi⁃ tion and knowledge reduction[ J]. International journal of approximate reasoning, 2013, 54(1): 149⁃165. [14] LAI Hongliang, ZHANG Dexue. Concept lattices of fuzzy contexts: formal concept analysis vs. rough set theory[ J]. International journal of approximate reasoning, 2009, 50 (5): 695⁃707. [15]何淑贤, 王育红, 翟岩慧, 等. 不完备形式背景及其完 备化方法[ J]. 山西大学学报:自然科学版, 2006, 29 (4): 364⁃367. HE Shuxian, WANG Yuhong, ZHAI Yanhui, et al. In⁃ complete formal context and the completion approach[ J]. Journal of Shanxi university : natural science edition, 2006, 29(4): 364⁃367. [16]谢志鹏, 刘宗田. 概念格的快速渐进式构造算法[ J]. 计算机学报, 2002, 25(5): 490⁃496. XIE Zhipeng, LIU Zongtian. A fast incremental algorithm for building concept lattice[J]. Chinese journal of comput⁃ ers, 2002, 25(5): 490⁃496. [17]梁吉业, 王俊红. 基于概念格的规则产生集挖掘算法 [J]. 计算机研究与发展, 2004, 41(8): 1339⁃1344. LIANG Jiye, WANG Junhong. An algorithm for extracting rule⁃generating sets based on concept lattice[J]. Journal of computer research and development, 2004, 41(8): 1339⁃ 1344. [18]LEKHA A, SRIKRISHNA C V, VINOD V. Fuzzy associa⁃ tion rule mining[ J]. Journal of computer science, 2015, 11(1): 71⁃74. [19]LAKHAL L, STUMME G. Efficient mining of association rules based on formal concept analysis[M] / / GANTER B, STUMME G, WILLE R. Formal concept analysis. Berlin Heidelberg: Springer⁃Verlag, 2005: 180⁃195. [20]KUMAR CH A, DIAS S M, VIEIRA N J. Knowledge re⁃ duction in formal contexts using non⁃negative matrix factor⁃ ization [ J ]. Mathematics and computers in simulation, 2015, 109: 46⁃63. [21]王志海, 胡可云, 胡学纲, 等. 概念格上规则提取的一 般算法与渐进式算法[ J]. 计算机学报, 1991, 22(1): 66⁃70. WANG Zhihai, HU Keyun, HU Xuegang, et al. General and incremental algorithms of rule extraction based on con⁃ cept lattice[ J]. Chinese journal of computers, 1991, 22 (1): 66⁃70. 作者简介: 胡小康,男,1991 年生,硕士研究 生,主要研究方向为形式概念分析、数 据挖掘。 王俊红,女,1979 年生,副教授,主要 研究方向形式概念分析、粗糙集和数据挖 掘。 主持或参与多项国家 863 计划、国家 自然科学基金和省部级等科研项目。 发 表学术论文 10 余篇。 ·358· 智 能 系 统 学 报 第 11 卷