第11卷第4期 智能系统学报 Vol.11 No.4 2016年8月 CAAI Transactions on Intelligent Systems Aug.2016 D0I:10.11992/is.201606006 网络出版地址:http://www.cnki.net/kcms/detail,/23.1538.TP.20160808.0830.014.html 基于权值最大圈的概念格构造算法 毛华,刘祎超 (河北大学数学与信息科学学院,河北保定071002) 摘要:概念格作为一种有效的知识发现与数据处理的工具,在许多领域得到了广泛应用。寻找形式背景下的所有 概念是概念格理论研究的一个基本问题。对于一个给定的形式背景,在属性拓扑图的基础上,结合图论的思想,给 出了一种概念格的构造算法。算法过程如下:首先,构造弱化的属性拓扑图:其次,通过寻找弱化的属性拓扑图中的 每个权值最大圈方法来生成概念,形式背景的所有概念被生成:最后,构造出概念格。通过分析说明此算法复杂度 比以往的一些算法复杂度低。此外,用一个实例验证了这一算法的有效性与正确性。为知识获取提供了有益的思 路与方法。 关键词:形式背景:概念格:概念:权值:最大圈:属性拓扑:数据处理 中图分类号:TP18文献标志码:A文章编号:1673-4785(2016)04-0519-07 中文引用格式:毛华,刘祎超.基于权值最大圈的概念格构造算法[J].智能系统学报,2016,11(4):519-525. 英文引用格式:MAO Hua,LIU Yichao..An algorithm for concept lattice construction based on maximum cycles of weight values [J].CAAI Transactions on Intelligent Systems,2016,11(4):519-525. An algorithm for concept lattice construction based on maximum cycles of weight values MAO Hua,LIU Yichao (School of Mathematics and Information Science,Hebei University,Baoding 071002,China) Abstract:As an effective tool for knowledge discovery and data processing,the concept lattice has been widely ap- plied in many fields.Searching all concepts in a formal context is a basic problem for research into concept lattice theory.On the basis of attribute topology and combined with the idea of graph theory,an algorithm to construct a concept lattice in a fixed formal context is given.The process is as follows:firstly,a weakened attribute topology was built up;then,by applying the method of searching the maximum cycle with a weight in the above weakened attribute topology,all of the formal context concepts were obtained;finally the concept lattice was established.Sub- sequent analysis illustrated that the algorithm can reduce complexity compared with some existing algorithms.In ad- dition,using an example,the accuracy and validity of the algorithm was verified.The result presents a useful idea and method for knowledge acquisition. Keywords:formal context;concept lattice;concept;weight value;maximum cycle;attributes topology;data pro- cessing 概念格是对背景中属性、对象及其关系进行 识处理的数学工具2-)引。目前,概念格已经广泛应 分析研究的理论。它提供了一种支持数据分析和知用于数据挖掘)]、信息处理)、软件工程6和其他 方面-】。概念格理论的研究不仅能用于解决知识 收稿日期:2016-06-02.网络出版日期:2016-08-08. 发现领域中所涉及的关联规则、蕴含规则、分类规则 基金项目:国家自然科学基金项目(61572011):河北省自然科学基金项 目(A2013201119). 的提取,还能够实现对信息的有机组织、减少冗余 通信作者:刘袆超.E-mail:1026074348@q4-com 度、简化信息表,所以对概念格理论及其算法的研究
第 11 卷第 4 期 智 能 系 统 学 报 Vol.11 №.4 2016 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2016 DOI:10.11992 / tis.201606006 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160808.0830.014.html 基于权值最大圈的概念格构造算法 毛华,刘祎超 (河北大学 数学与信息科学学院,河北 保定 071002) 摘 要:概念格作为一种有效的知识发现与数据处理的工具,在许多领域得到了广泛应用。 寻找形式背景下的所有 概念是概念格理论研究的一个基本问题。 对于一个给定的形式背景,在属性拓扑图的基础上,结合图论的思想,给 出了一种概念格的构造算法。 算法过程如下:首先,构造弱化的属性拓扑图;其次,通过寻找弱化的属性拓扑图中的 每个权值最大圈方法来生成概念,形式背景的所有概念被生成;最后,构造出概念格。 通过分析说明此算法复杂度 比以往的一些算法复杂度低。 此外,用一个实例验证了这一算法的有效性与正确性。 为知识获取提供了有益的思 路与方法。 关键词:形式背景;概念格;概念;权值;最大圈;属性拓扑;数据处理 中图分类号: TP18 文献标志码:A 文章编号:1673-4785(2016)04-0519-07 中文引用格式:毛华,刘祎超. 基于权值最大圈的概念格构造算法[J]. 智能系统学报, 2016, 11(4): 519-525. 英文引用格式:MAO Hua, LIU Yichao. An algorithm for concept lattice construction based on maximum cycles of weight values [J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 519-525. An algorithm for concept lattice construction based on maximum cycles of weight values MAO Hua, LIU Yichao (School of Mathematics and Information Science, Hebei University, Baoding 071002, China) Abstract:As an effective tool for knowledge discovery and data processing, the concept lattice has been widely ap⁃ plied in many fields. Searching all concepts in a formal context is a basic problem for research into concept lattice theory. On the basis of attribute topology and combined with the idea of graph theory, an algorithm to construct a concept lattice in a fixed formal context is given. The process is as follows: firstly, a weakened attribute topology was built up; then, by applying the method of searching the maximum cycle with a weight in the above weakened attribute topology, all of the formal context concepts were obtained; finally the concept lattice was established. Sub⁃ sequent analysis illustrated that the algorithm can reduce complexity compared with some existing algorithms. In ad⁃ dition, using an example, the accuracy and validity of the algorithm was verified. The result presents a useful idea and method for knowledge acquisition. Keywords: formal context; concept lattice; concept; weight value; maximum cycle; attributes topology; data pro⁃ cessing 收稿日期:2016-06-02. 网络出版日期:2016-08-08. 基金项目:国家自然科学基金项目(61572011);河北省自然科学基金项 目(A2013201119). 通信作者:刘祎超.E⁃mail:1026074348@ qq.com. 概念格[1]是对背景中属性、对象及其关系进行 分析研究的理论。 它提供了一种支持数据分析和知 识处理的数学工具[2-3] 。 目前,概念格已经广泛应 用于数据挖掘[4] 、信息处理[5] 、软件工程[6] 和其他 方面[7-8] 。 概念格理论的研究不仅能用于解决知识 发现领域中所涉及的关联规则、蕴含规则、分类规则 的提取,还能够实现对信息的有机组织、减少冗余 度、简化信息表,所以对概念格理论及其算法的研究
520 智能系统学报 第11卷 具有重要的意义。 表1形式背景(O,M,) 概念是人类进行知识表达的一种手段,数据 Table 1 Formal context(O,M,I) 库知识发现的过程就是将数据库中蕴含的知识 对像a b c d e f 形式化成有用的概念的过程。对形式背景的表 示及寻找背景下的所有概念是概念格理论研究 2 3 的基本问题。近年来许多学者从图论的方面对 4 概念格进行研究,例如,张涛等[9提出用属性拓 5 扑图来表示形式背景,并在此属性拓扑图的基础 6 上进行概念计算:A.Bery等[io将形式背景构造 表1对应的形式背景的概念格见图1。 成二部图,利用团的思想生成概念:此外,李立峰 等[口利用弦二部图对概念格进行表示,其中判 (123456,) 断弦二部图中是否有圈,是判断弦二部图的关 (123,b)124.a)(24.d34,e)135.c) 键。这也证实图论特别是图中的圈,在概念格的 (12.ab)(13.bc)(24,adg 研究中之重要。 (1,abe)(2.abdg)(3,bce)(4.adeg)(5.cf) 本文结合图论的知识,将形式背景以属性拓扑 图表示出来,通过构造弱化的属性拓扑图,然后寻找 (d,abcdefgh) 弱化的属性拓扑图中的权值地之最大圈,用以生成 图1B(0,M,) 概念,从而构造出概念格,并结合实例分析了这一算 Fig.1 B(O,M,I) 法的有效性。 说明1本文所讨论的形式背景中不含有满足 1基本概念 以下条件的属性和对象,m∈M,m'=0或m'=②; g∈0,g=M或g'=☑。 本节将回顾概念格与图论的一些性质和定 1.2图论 义,关于概念格的更多内容参见文献[12],有关 定义21)称数学结构G={V(G),E(G), 图论详细内容参见文献[13],并且简单描述形式 山。为一个图,其中V(G)为非空集合,中c是从集合 背景的属性拓扑图表示方法,更多详细内容参见 E(G)到V(G)xV(G)的一个映射,则称G是一个以 文献[9,14]。 V(G)为顶集合,以E(G)为边集合的有向图,V(G) 1.1概念格 中的元素称为G的顶点。E(G)中的元素称为G的 定义1 边,中c称为G的关联函数。若中e(e)=(u,v),e∈ 1)形式背景(0,M,)是一个三元组,其中0是 E(G),(u,v)eV(G)xV(G),简写成e=w,称u是有 对象集,M是属性集,I c0 xM。O和M中的元素分 向边e的尾,v是有向边e的头。擦掉有向图中的箭 别称为对象和属性。 头,则得到无向图。 2)设ACO且BCM,定义 2)在顶边交错链P=oe11e2…ez中,e:∈ A'={m∈Ml(VgeA),glm} E(G),i=1,2,…,k,yeV(G),j=1,2,…,k,且e,= B'={g∈0l(meB),glm}; 若A'=B且B'=A,则元素对(A,B)是一个 -1:,则称P是G的一条道路,其中允许u,=心,或 e:=e,i有。称o是p的起点,是p的终点。各顶相 概念。A为概念(A,B)的外延,B为概念(A,B) 异的道路称为轨道:起点与终点重合的轨道称为圈。 的内涵。形式背景(O,M,)的所有概念的集合 3)在一个无向图中,只有一个顶的圈叫做自 用B(0,M,I)表示,称B(0,M,I)为(0,M,I) 环;c(e1)=中c(e2)=(u,v),则称e,与e2是重边。 的概念格。 说明2由上述定义可知自环、重边均为圈。 3)对于B(O,M,I)中的概念(A1,B,)和 1.3属性拓扑图 (A2,B2),如果A,二A2,我们写作(A1,B,)≤ 定义3设(O,M,I)是一个形式背景。按如下 (A2,B2)。很容易看到(B(0,M,I);≤)是一 个完备格。 规则构造属性拓扑图(A(O,M,I),o): 例1形式背景(0,M,I),其中0={1,2,3,4, 1)设m1,m2∈M且m1≠m2o 5,6},M={a,b,c,d,e,fg{,关系I如表1所示。 ①若m'1正m'2,m'2立m',且m',∩m'2≠0,则用 “←→”连接m,和m2;
具有重要的意义。 概念是人类进行知识表达的一种手段,数据 库知识发现的过程就是将数据库中蕴含的知识 形式化成有用的概念的过程。 对形式背景的表 示及寻找背景下的所有概念是概念格理论研究 的基本问题。 近年来许多学者从图论的方面对 概念格进行研究,例如,张涛等[ 9] 提出用属性拓 扑图来表示形式背景,并在此属性拓扑图的基础 上进行概念计算;A. Berry 等[ 10] 将形式背景构造 成二部图,利用团的思想生成概念;此外,李立峰 等[ 11] 利用弦二部图对概念格进行表示,其中判 断弦二部图中是否有圈,是判断弦 二 部 图 的 关 键。 这也证实图论特别是图中的圈,在概念格的 研究中之重要。 本文结合图论的知识,将形式背景以属性拓扑 图表示出来,通过构造弱化的属性拓扑图,然后寻找 弱化的属性拓扑图中的权值 w 之最大圈,用以生成 概念,从而构造出概念格,并结合实例分析了这一算 法的有效性。 1 基本概念 本节将回顾概念格与图论的一些性质和定 义,关于概念格的更多内容参见文献[ 12] ,有关 图论详细内容参见文献[ 13] ,并且简单描述形式 背景的属性拓扑图表示方法,更多详细内容参见 文献[ 9,14] 。 1.1 概念格 定义 1 1)形式背景(O,M,I)是一个三元组,其中 O 是 对象集,M 是属性集,I ÍO ´M。 O 和 M 中的元素分 别称为对象和属性。 2)设 A⊆O 且 B⊆M, 定义 A′ = {m ÎM | ("g ÎA),gIm} B′ = {g ÎO | ("m ÎB),gIm}; 若 A′ = B 且 B′ = A,则元素对( A,B) 是一个 概念。 A 为概念( A,B) 的外延,B 为概念( A,B) 的内涵。 形式背景( O,M,I) 的所有概念的集合 用 β ( O,M,I) 表示,称 β ( O,M,I) 为( O,M, I) 的概念格。 3)对 于 β ( O, M, I) 中 的 概 念 ( A1 , B1 ) 和 ( A2 , B2 ) , 如 果 A1 ÍA2 , 我 们 写 作 ( A1 , B1 ) ≤ ( A2 ,B2 ) 。 很容易看到( β ( O,M, I) ;≤) 是 一 个完备格。 例 1 形式背景(O,M,I),其中 O = {1,2,3,4, 5,6},M= {a,b,c,d,e,f,g},关系 I 如表 1 所示。 表 1 形式背景(O,M,I) Table 1 Formal context(O,M,I) 对像 a b c d e f g 1 ´ ´ ´ 2 ´ ´ ´ ´ 3 ´ ´ ´ 4 ´ ´ ´ ´ 5 ´ ´ 6 ´ 表 1 对应的形式背景的概念格见图 1。 图 1 β (O, M, I) Fig.1 β (O, M, I) 说明 1 本文所讨论的形式背景中不含有满足 以下条件的属性和对象,m ÎM, m′ = O 或 m′ = Æ; g ÎO, g′=M 或 g′= Æ。 1.2 图论 定义 2 1) 称数学结构 G = { V ( G), E ( G), ψG }为一个图,其中 V(G)为非空集合,ψG是从集合 E(G)到 V(G)´V(G)的一个映射, 则称 G 是一个以 V(G)为顶集合,以 E(G)为边集合的有向图,V(G) 中的元素称为 G 的顶点。 E(G)中的元素称为 G 的 边, ψG 称为 G 的关联函数。 若 ψG ( e)= ( u,v),e Î E(G),(u,v)ÎV(G)´V(G),简写成 e = uv,称 u 是有 向边 e 的尾,v 是有向边 e 的头。 擦掉有向图中的箭 头,则得到无向图。 2)在顶边交错链 P = v0 e1 v1 e2 … vk ek 中, ei Î E(G),i = 1,2,…,k,vj ÎV(G),j = 1,2,…,k,且 ei = vi -1 vi,则称 P 是 G 的一条道路,其中允许 vi = vj或 ei = ej,i ¹j。 称 v0是 p 的起点,vk是 p 的终点。 各顶相 异的道路称为轨道;起点与终点重合的轨道称为圈。 3)在一个无向图中,只有一个顶的圈叫做自 环; ψG (e1 )= ψG (e2 )= (u,v),则称 e1与 e2是重边。 说明 2 由上述定义可知自环、重边均为圈。 1.3 属性拓扑图 定义 3 设(O,M,I)是一个形式背景。 按如下 规则构造属性拓扑图(A(O,M,I),w): 1) 设 m1 ,m2ÎM 且 m1≠m2 。 ①若 m′1 Ëm′2 ,m′2 Ëm′1 且 m′1 ∩m′2 ¹Æ,则用 “«”连接 m1和 m2 ; ·520· 智 能 系 统 学 报 第 11 卷
第4期 毛华,等:基于权值最大圈的概念格构造算法 ·521. ②若m'1cm'2且m',∩m'2≠0,则用“→”连接 之间再添加一条边e,(图中用虚线表示),并且令 m,和m2表示为m2→m1; e1的权值也为o(u,v)。 ③若m',∩m'2=g,则m,和m2没有边连接。 完成1)~3)后得到的加权无向图称为弱化的 2)设(A(0,M,I),w)为(0,M,I)的属性拓扑 属性拓扑图,用(R(O,M,I),w)表示。 图,e(m,m)∈E(A(0,M,I),o)),E(A(0,M,I), 此外,显然,在上述3)中的e与e,是重边。 w)为(A(0,M,I),w)的边集,e(m:,m)上的权值用 例3下面图3为图2所对应的(A(O,M,I), (m,m)表示,心(m,m)为属性m:和m之间的公 心)之弱化的属性拓扑图。 共对象{g1,g2,…,gn}的集合,称w(m:,m)为m:和 m之间的权值。 24 4,6 3)设m∈M,b∈M,若与m连接的边均为非单 {1,2,4} 24} 2.45 向入边,即与m连接的边均为m→b或m←b,则称 2) {4 m为顶层属性,顶层属性的集合用T表示。 例2图2为表1形式背景(0,M,I)对应的属 多 4124 3 性拓扑图。 h 3,4 {2,4} 123 3 2.4号 {2,41 5 (2 {4 {13.5 4得 图3(R(O,M,I),w) {4 1,2 3 Fig3(R(O,M,I),w】 1,3 定义4设(0,M,I)是一个形式背景,(R(0, {3 M,),心)是(O,M,I)对应的弱化的属性拓扑图, 5 {m1,m2,…,m,}cM且{m1,m2,…,mw}'≠,若不存 f 在任意m。∈M,m.是{m1,m2,…,m.},使得{m1, 图2(A(0,M,I),w) m2,…,m}'={m1,m2,…,m4,m。}',则称Y={m1, Fig.2 (A(O,M,I),w) m2,…,ma}为权值w({m1,m2,…,m%})的最大圈。 引理1设(0,M,)是一个形式背景,(A(0, 例如图3中,Y={bdga}为权值{2}的最大圈。 M,I),w)为(O,M,I)的属性拓扑图,若m∈T,则 说明3为了描述方便,有时将w(m,m)简写 (m',m)∈β(0,M,I)。 为W。 2.2算法过程 2概念格的构造 对于给定的形式背景(O,M,I),构造概念格的 在搜索概念的过程中,为了不受方向的限制,首 过程如下: 先进行属性拓扑图弱化,将有向图变为无向图,实际 输入形式背景(O,M,I)以及W(R(O,M,I), 上目前结合图论生成概念格的算法,都是在无向图 0)={w1,02,…,0n},0,≠0,T,s,n=1,2,…, 的基础上进行的。其次,给出弱化后属性拓扑图关 MI 于某个权值的最大圈的定义。最后,给出利用权值 2o 的最大圈构造概念算法,并进行算法分析。 输出所有概念B(0,M,I)1{(0,0),(0,M)}。 2.1弱化的属性拓扑图 1)对于(O,M,I),绘制属性拓扑图,根据属性 设(O,M,)是一个形式背景,按照如下规则对 拓扑图中的箭头指向,确定顶层属性集合T。 属性拓扑图进行弱化: 2)将属性拓扑图转化为弱化的属性拓扑图。 1)去掉属性拓扑图中的方向,得一无向图。 3)①初始将W(R(O,M,I),0)赋值给W,对任 2)若m在(A(0,M,I),w)中为顶层属性,则在 1)中的无向图中,加一个以m为顶点的自环。 意两,求n,=1,2,1。者 3)若在1)中的无向图中,包含权值w(u,v)的 0,∩w,=⑦或0:∩w=0,此处w:,0,地,∈W(R(0, 只有一条边e,其中,u、u为e的两个端点,则在u与
②若 m′1Ìm′2且 m′1∩m′2¹Æ,则用“®” 连接 m1和 m2表示为 m2®m1 ; ③若 m′1∩m′2 = Æ, 则 m1和 m2没有边连接。 2) 设(A(O,M,I),w)为(O,M,I)的属性拓扑 图,e(mi,mj)ÎE( A(O,M,I),w)),E( A(O,M,I), w)为(A(O,M,I),w)的边集,e(mi,mj)上的权值用 w(mi,mj)表示,w(mi,mj)为属性 mi和 mj之间的公 共对象{g1 , g2 ,…,gn }的集合,称 w(mi,mj)为 mi和 mj之间的权值。 3)设 m ÎM,b ÎM,若与 m 连接的边均为非单 向入边,即与 m 连接的边均为 m ®b 或 m «b,则称 m 为顶层属性,顶层属性的集合用 T 表示。 例 2 图 2 为表 1 形式背景(O,M,I)对应的属 性拓扑图。 图 2 (A(O,M,I),w) Fig.2 (A(O,M,I),w) 引理 1 设(O,M,I)是一个形式背景,(A(O, M,I),w) 为(O,M,I) 的属性拓扑图,若 m ÎT,则 (m′, m)Îβ(O,M,I)。 2 概念格的构造 在搜索概念的过程中,为了不受方向的限制,首 先进行属性拓扑图弱化,将有向图变为无向图,实际 上目前结合图论生成概念格的算法,都是在无向图 的基础上进行的。 其次,给出弱化后属性拓扑图关 于某个权值的最大圈的定义。 最后,给出利用权值 的最大圈构造概念算法,并进行算法分析。 2.1 弱化的属性拓扑图 设(O,M,I)是一个形式背景,按照如下规则对 属性拓扑图进行弱化: 1)去掉属性拓扑图中的方向,得一无向图。 2)若 m 在(A(O,M,I),w)中为顶层属性,则在 1)中的无向图中,加一个以 m 为顶点的自环。 3)若在 1)中的无向图中,包含权值 w(u,v)的 只有一条边 e,其中,u、v 为 e 的两个端点,则在 u 与 v 之间再添加一条边 e1(图中用虚线表示),并且令 e1 的权值也为 w(u,v)。 完成 1) ~ 3)后得到的加权无向图称为弱化的 属性拓扑图,用(R(O,M,I),w)表示。 此外,显然,在上述 3)中的 e 与 e1 是重边。 例 3 下面图 3 为图 2 所对应的(A(O,M,I), w)之弱化的属性拓扑图。 图 3 (R(O,M,I),w) Fig.3 (R(O,M,I),w) 定义 4 设(O,M,I)是一个形式背景,(R(O, M,I),w) 是(O,M,I) 对应的弱化的属性拓扑图, {m1 ,m2 ,…,mh }ÍM 且{m1 ,m2 ,…,mh }¢¹Æ,若不存 在任意 ma ÎM, ma Ï{ m1 ,m2 ,…,mh }, 使得{ m1 , m2 ,…,mh }¢= {m1 ,m2 ,…,mh , ma } ¢,则称 Y = {m1 , m2 ,…,mh }为权值 w({m1 ,m2 ,…,mh }¢)的最大圈。 例如图 3 中,Y = {bdga}为权值{2}的最大圈。 说明 3 为了描述方便,有时将 w(mi,mj)简写 为 w。 2.2 算法过程 对于给定的形式背景(O,M,I),构造概念格的 过程如下: 输入 形式背景(O,M,I)以及 W(R(O,M,I), w) = { w1 , w2 , …, wn }, wr ¹ws, r, s, n = 1, 2, …, M 2 2 。 输出 所有概念 β (O,M,I) \{(O,Æ),(Æ,M)}。 1)对于(O,M,I),绘制属性拓扑图,根据属性 拓扑图中的箭头指向,确定顶层属性集合 T。 2)将属性拓扑图转化为弱化的属性拓扑图。 3)①初始将 W(R(O,M,I),w)赋值给 Wr,对任 意 wi,wj ÎWr,求 wi ∩wj, i,j = 1,2,…, M 2 2 。 若 wi∩wj = Æ或 wi∩wj = wt,此处 wi, wj, wtÎW(R(O, 第 4 期 毛华,等:基于权值最大圈的概念格构造算法 ·521·
.522. 智能系统学报 第11卷 1)由一条边构成,也即自环: M,I),w),ij,t=1,2,…, ,。则进行4)。 2)由两条边构成,也即重边: ②若:∩0=w,0,W(R(0,M,),0),i,j,t= 3)由3条或3条以上的边构成,也即非自环非 ,则将W,={,,∩0,=,e,,6 1,2,…,2 重边的圈。 证明由定义2中3)可知,自环是只有一个顶 W(R(O,M,I),o),0,EW(R(0,M,I),e)}添加到 点的圈;重边是由两个顶点的圈:由定义2中3)可 W(R(O,M,I),w)中。将W,赋值给W,执行①。 知,非自环非重边的圈之顶点个数大于2。 4)取maxw,,开始寻找边上权值包含w,的最 当圈只有一个顶点时,根据定义2中3)可知, 大圈,记录权值心,最大圈的顶点为Y,对应概念为 此时的圈为一个自环: C={(A,B):A=w,B=Y}。 当圈有两个顶点时,根据定义2中3)可知,此 5)①根据4)的原则,若W中存在0+1,s=1,2, 时的圈为重边; …,|MP,则选定0+1,重复4)。 当圈的顶点个数大于2时,符合定义2中2)。 ②若W中不存在0+1,则停止。 因此,圈有且仅有自环、重边、非自环非重边的 若W(R(0,M,I),w)中的元素满足3)中的①, 圈3种情况。 若心,∩心,=0,或0:∩心=0,此处0:,0,0,∈W(R 定理1设(0,M,I)是一个形式背景,(R(0, M,I),w)是(O,M,I)对应的弱化的属性拓扑图,权 (0,M,),w),i,j,t=1,2,…, 1M2I 2 ,则能够进行 值最大圈一定能够生成一个概念。 4)、5),又因为W(R(0,M,I),w)是有限的,因此 证明由引理2可知,弱化的属性拓扑图的权 有限步后算法可以停止。 值w最大圈有且仅有3种情况,下面关于这3种情 若W(R(0,M,I),w)中的元素满足w:∩心= 况分别说明。 M,此 1)当圈为自环时 ,0,gW(R(0,M,),0),i,t=1,2,…, 2 m∈M,圈Y={m},由弱化的属性拓扑图的构造 时会将新生成的w,添加到W(R(O,M,I),0)中,由 1)可知,有meT。根据引理1,(m',m)∈β(0,M, 于w,地,心,c0,0为有限的,因此经过有限步后 I)。而m'=w(m,m),因此,((m,m),m)∈β(0, 一定可以进行3)中①,因此有限步后算法可停止。 M,I)。 2.3算法分析 2)当圈为重边时 根据文献[9],可以看出1)的复杂度为 m1,m2∈M,圈Y={m1,m2},由弱化的属性拓扑 0门:步骤2将属性拓扑图弱化,首先判断每 图的构造2)可知,不存在其他权值为w(m1,m2)的 边,即不存在其他顶m,m∈M,使w(m1,m2)∈ 个属性是否为顶层属性,其复杂度为O(|M),其 0(m,m),i有,i≥3,j≥1。这就是说,除m1,m2 次需要判断是否为不能构成权值心的最大圈,其复 外,不存在其他属性所拥有的对象集包含w(m, 杂度为0 (MP (MP 2 ,所以2)的复杂度为02): m2),所以(w(m1,m2),Y)eβ(0,M,)。 3)=当圈的顶点个数大于等于3时 若是3)中①,首先对W中任意两元素取交,有 m1,m2,…,m:∈M,i≥3,若圈Y={m1,m2,… orD个元素,进行og 次,若是3)中②, m},证明过程与第2种情况类似,易证(0(m1, m2),Y)∈β(0,M,I)。 对新生成的集合W,重复次3),最多重复0次,所 引理3设W(R(0,M,I),0)是一个集族,则 以3)的复杂度为0 (01Wn12 ,其中W,伪元素 任意的其中0:,0,0,∈W(R(0,M,I),0),0.生W 2 IM2| 最多的集合;4)中,每到一个属性节点最多需要判 ((0,M,),0),,u=1,2,,2,它们之间 断M1次该节点是否在当前权值w的最大圈中, 的关系有且仅有以下3种情况之一发生: 最多判断M饮,所以4)的复杂度为0(|M2):5) 1)0:∩w:=0; 的复杂度为0(|OW.)。 2)0:∩0;=0, 因此,整个算法的复杂度为O(2wK10)。 3)0:∩0;=10u9 引理2圈有且仅有以下3种情况: 证明根据文献[15],可得若W(R(0,M,I)
M,I),w), i,j,t = 1,2,…, M 2 2 。 则进行 4)。 ②若 wi∩wj =wt,wtÏW(R(O,M,I),w),i,j,t = 1,2,…, M 2 2 ,则将 Wr r = {wt:wi∩wj =wt,wi, wj,Î W(R(O,M,I),w),wt ÏW(R(O,M,I),w)}添加到 W(R(O,M,I),w)中。 将 Wr r赋值给 Wr,执行①。 4)取 max êws ú,开始寻找边上权值包含 ws的最 大圈,记录权值 ws 最大圈的顶点为 Y,对应概念为 C = {(A,B): A =ws, B = Y}。 5)①根据 4)的原则,若 W 中存在 ws +1 ,s = 1,2, …, êM ú 2 ,则选定 ws +1 ,重复 4)。 ②若 W 中不存在 ws +1 ,则停止。 若 W(R(O,M,I),w)中的元素满足 3)中的①, 若 wi∩wj = Æ,或 wi∩wj = wt,此处 wi, wj,wt ÎW(R (O,M,I),w), i,j,t = 1,2,…, M 2 2 ,则能够进行 4)、5),又因为êW(R(O,M,I),w) ú是有限的,因此 有限步后算法可以停止。 若 W(R(O,M,I),w) 中的元素满足 wi ∩wj = wt,wtÏW(R(O,M,I),w),i,j,t = 1,2,…, M 2 2 ,此 时会将新生成的 wt添加到 W(R(O,M,I),w)中,由 于 wr¹ws,wt ÍO,êO ú为有限的,因此经过有限步后 一定可以进行 3)中①,因此有限步后算法可停止。 2.3 算法分析 根据 文 献 [ 9 ], 可 以 看 出 1 ) 的 复 杂 度 为 O M 2 2 æ è ç ö ø ÷ ;步骤 2 将属性拓扑图弱化,首先判断每 个属性是否为顶层属性,其复杂度为 O( M ) ,其 次需要判断是否为不能构成权值 w 的最大圈,其复 杂度为 O M 2 2 æ è ç ö ø ÷ ,所以 2)的复杂度为 O M 2 2 æ è ç ö ø ÷ ; 若是 3) 中 ①, 首先对 W 中任意两元素取交, 有 O( W ) 个元素,进行 O W 2 2 æ è ç ö ø ÷ 次,若是 3) 中②, 对新生成的集合 Wr r重复次 3),最多重复êO ú次,所 以 3)的复杂度为 O O Wrr 2 2 æ è ç ö ø ÷ ,其中êWr r ú为元素 最多的集合;4) 中,每到一个属性节点最多需要判 断êM ú-1 次该节点是否在当前权值 w 的最大圈中, 最多判断êM ú次,所以 4)的复杂度为 O M 2 ( ) ;5) 的复杂度为 O O Wrr ( ) 。 因此,整个算法的复杂度为 O 2 M × O ( ) 。 引理 2 圈有且仅有以下 3 种情况: 1)由一条边构成,也即自环; 2)由两条边构成,也即重边; 3)由 3 条或 3 条以上的边构成,也即非自环非 重边的圈。 证明 由定义 2 中 3)可知,自环是只有一个顶 点的圈;重边是由两个顶点的圈;由定义 2 中 3)可 知,非自环非重边的圈之顶点个数大于 2。 当圈只有一个顶点时,根据定义 2 中 3)可知, 此时的圈为一个自环; 当圈有两个顶点时,根据定义 2 中 3)可知,此 时的圈为重边; 当圈的顶点个数大于 2 时,符合定义 2 中 2)。 因此,圈有且仅有自环、重边、非自环非重边的 圈 3 种情况。 定理 1 设(O,M,I)是一个形式背景,(R(O, M,I),w)是(O,M,I)对应的弱化的属性拓扑图,权 值最大圈一定能够生成一个概念。 证明 由引理 2 可知,弱化的属性拓扑图的权 值 w 最大圈有且仅有 3 种情况,下面关于这 3 种情 况分别说明。 1)当圈为自环时 m ÎM,圈 Y = {m},由弱化的属性拓扑图的构造 1)可知,有 m ÎT。 根据引理 1,(m′, m) Îβ(O,M, I)。 而 m′ = w(m,m),因此,(w(m,m), m)Îβ(O, M,I)。 2)当圈为重边时 m1 ,m2ÎM,圈 Y = {m1 ,m2 },由弱化的属性拓扑 图的构造 2)可知,不存在其他权值为 w(m1 ,m2 )的 边,即不存在其他顶 mi, mj ÎM,使 w ( m1 , m2 ) Í w(mi, mj), i ¹j, i≥3, j≥1。 这就是说,除 m1 , m2 外,不存在其他属性所拥有的对象集包含 w( m1 , m2 ),所以(w(m1 ,m2 ),Y)Îβ(O,M,I)。 3)= 当圈的顶点个数大于等于 3 时 m1 ,m2 , … ,miÎM,i≥3,若圈 Y = { m1 ,m2 , … mi},证明过程与第 2 种情况类似,易证 ( w ( m1 , m2 ),Y)Îβ(O,M,I)。 引理 3 设 W(R(O,M,I),w)是一个集族,则 任意的其中 wi, wj, wt ÎW(R(O,M,I),w),wu ÏW (R(O,M,I),w),i,j,t,u = 1,2,…, M 2 2 ,它们之间 的关系有且仅有以下 3 种情况之一发生: 1)wi∩wj = Æ; 2)wi∩wj =wt; 3)wi∩wj =wu 。 证明 根据文献[15],可得若 W(R(O,M,I), ·522· 智 能 系 统 学 报 第 11 卷
第4期 毛华,等:基于权值最大圈的概念格构造算法 ·523· w)是一个集族,则对于任意的0:,0,0,∈W(R(0, 余概念的产生必然导致算法的储存空间的增加,引 M,I),o),0.eW(R(0,M,I),0),i,j,t,u=1,2,…, 发空间复杂度的加大 11有且仅有,n,=⑦,n=,或w,n,9 本文算法用图论中的权值与最大圈结合来寻找 2 概念,由于不会重复对同一权值寻找其相应的最大 w.,3种情况之一发生: 圈,因此不会有冗余概念的产生。从而,必然在概念 定理2设(0,M,)是一个形式背景,(R(O, 寻找中,降低数据的储存空间,空间复杂度较张涛等 M,I),w)是(O,M,1)对应的弱化的属性拓扑图,通 的方法减少成为显然之事。 过权值0最大圈算法一定能够得到B(O,M,I)1 2)Bemy等[o]将形式背景构造成二部图,利用 {(0,0),(0,M)}。 团的思想生成概念,其计算每个概念的复杂度为 证明由引理3可知集族W(R(O,M,I),o)中 0(|M2)。 的权值之间有且仅有3种情况,对于任意的0:,心, 对于弱化的属性拓扑图产生概念有: w,∈W(R(O,M,I),w),0.W(R(O,M,I),e),i,j, 1)对于只含有一个顶点属性的情况,由引理1 t,u=1,2,…, r以下对引理3中的3种情况分 可知,属性m为某个概念的内涵。在弱化的属性拓 2 扑图中属性m构成一个自环时,本文计算每个概念 别说明。 的复杂度 (1M2) 1)w:∩w,=0 2 说明任意3个属性之间没有公共对象,根据属 2)对于至少含有两个顶点属性的情况,本文计 性拓扑图的构造过程,其弱化的属性拓扑图为定理 算每个概念的算法复杂度O(|MP)。 1的第2种情况,得到的W(R(0,M,I),0)能够包 以上两种情形说明,当情形1)时,本文算法的 括所有概念的外延,因此,依次搜索W(R(O,M,I), 复杂度小于Bey等的:当情形2)时,本文算法的复 o)中的每一个权值w最大圈,即可得到B(O,M,)\ 杂度与Bemy等的相同。这说明,对于情形1),本文 {(0,0),(0,M)}。 的算法优于Bery等的,虽然在其他情况(也就是情 2)0:∩0=0,w,∈W(R(0,M,I),0),i,j,t=1, 形2)),本文的算法与Be四等的具有相同的时间复 2,…,IMP,说明得到的W(R(O,M,I),w)能够包 杂度。 括所有概念的外延,符合定理的第2、3种情况。因 再有,由图论知识可知,每一个团必包含至少一 此,依次搜索W(R(O,M,I),o)中的每一个权值e 个圈,所以在判断团的过程中必然存在对圈的判断 最大圈,即可得到B(0,M,I)1{(0,⑦),(0,M)}。 过程,当一个团中含有两个以上圈时,此时对团的判 3)若0:∩w=0,0,W(R(0,M,I),0),i,j, 定过程会重复圈的判断过程。因此,Berry等的方法 t=1,2,…,MP,则说明当前W(R(O,M,),o) 会造成数据存储量过大。而本文算法,不会对相同 中不能包含所有概念的外延,将W,={w,:心:∩0 权值的圈进行重复判断与存储,因此,降低了数据存 =0,w,是W(R(O,M,I),0)}添加到W中,只需 储空间复杂度。 对W,中的任意两个元素取交集即可,由于引0是 3)李立峰等仅是从理论方面指出弦二部图 有限的,因此一定会有0:∩w,=0,0,∈W(R(0, 的概念格表示,并没有给出算法过程。所以他们的 M,I),0),i,j,t=1,2,…,|MP,此时说明得到的 方法只是理论过程,而无法直接实现。 W(R(O,M,I),0)能够包括所有概念的外延,并 本文中不仅给出了理论分析,并且将理论的内 且W(R(O,M,I),w)中的元素对应的最大圈符 容通过一个可行的算法加以实现,故此,本文的思想 合定理1的第2、3种情况。因此,依次搜索W(R 和方法可操作性强,易于直接理解与实现。 (O,M,),0)中的每一个权值w最大圈,即可得 由以上1)~3)的分析可以看出,本文给出的算 到B(0,M,I)1{(0,0),(0,M)}。 法与已有算法相比,计算出全部概念的时间复杂度 以上说明了本算法的正确性。下面将通过与已 并不低于以往的算法,基本相同。在数据存储空间 有的图论方法构造概念格的相关著名算法或方法的 方面,本文给出的算法与已有算法相比,空间复杂度 比较,分析得出本算法的优势。 降低。这样必然使得本算法在整个计算过程能在占 1)张涛等14)在属性拓扑的基础上给出概念计 用更小内存的情况下完成,同时也就对计算机器系 算方法,实际上是将图论中已有的深度优先算法应 统的运行空间降低了要求。因此本文算法要优于其 用于概念的寻找,如此可能导致产生冗余概念。冗 他一些已有算法或方法
w)是一个集族,则对于任意的 wi, wj, wtÎW(R(O, M,I),w),wuÏW(R(O,M,I),w),i,j,t,u = 1,2,…, M 2 2 有且仅有 wi ∩wj = Æ、wi ∩wj = wt 或 wi ∩wj = wu ,3 种情况之一发生: 定理 2 设(O,M,I)是一个形式背景,(R(O, M,I),w)是(O,M,I)对应的弱化的属性拓扑图,通 过权值 w 最大圈算法一定能够得到 β (O,M,I) \ {(O,Æ),(Æ,M)}。 证明 由引理 3 可知集族 W(R(O,M,I),w)中 的权值之间有且仅有 3 种情况,对于任意的 wi, wj, wtÎW(R(O,M,I),w),wuÏW(R(O,M,I),w),i,j, t,u = 1,2,…, M 2 2 以下对引理 3 中的 3 种情况分 别说明。 1)wi∩wj = Æ 说明任意 3 个属性之间没有公共对象,根据属 性拓扑图的构造过程,其弱化的属性拓扑图为定理 1 的第 2 种情况,得到的 W(R(O,M,I),w)能够包 括所有概念的外延,因此,依次搜索 W(R(O,M,I), w)中的每一个权值 w 最大圈,即可得到β(O,M,I) \ {(O,Æ),(Æ,M)}。 2)wi∩wj =wt,wtÎW(R(O,M,I),w),i,j,t = 1, 2,…, êM ú 2 ,说明得到的 W(R(O,M,I),w)能够包 括所有概念的外延,符合定理的第 2、3 种情况。 因 此,依次搜索 W(R(O,M,I),w)中的每一个权值 w 最大圈,即可得到 β(O,M,I) \{(O,Æ),(Æ,M)}。 3)若 wi∩wj = wt,wtÏW( R(O,M,I) ,w) ,i,j, t = 1,2,…, êM ú 2 ,则说明当前 W( R(O,M,I) ,w) 中不能包含所有概念的外延,将 Wr = { wt:wi∩wj = wt,wt ÏW( R( O,M,I) ,w) } 添加到 W 中,只需 对 Wr中的任意两个元素取交集即可,由于êO ú是 有限的,因此一定会有 wi∩wj = wt,wt ÎW( R( O, M,I) ,w) ,i,j,t = 1,2,…, êM ú 2 ,此时说明得到的 W( R(O,M,I) ,w) 能够包括所有概念的外延,并 且 W( R(O,M,I) ,w) 中的元素对应的最大圈符 合定理 1 的第 2、3 种情况。 因此,依次搜索 W( R (O,M,I) ,w)中的每一个权值 w 最大圈,即可得 到 β(O,M,I) \ { (O,Æ) ,( Æ,M) } 。 以上说明了本算法的正确性。 下面将通过与已 有的图论方法构造概念格的相关著名算法或方法的 比较,分析得出本算法的优势。 1)张涛等[14]在属性拓扑的基础上给出概念计 算方法,实际上是将图论中已有的深度优先算法应 用于概念的寻找,如此可能导致产生冗余概念。 冗 余概念的产生必然导致算法的储存空间的增加,引 发空间复杂度的加大。 本文算法用图论中的权值与最大圈结合来寻找 概念,由于不会重复对同一权值寻找其相应的最大 圈,因此不会有冗余概念的产生。 从而,必然在概念 寻找中,降低数据的储存空间,空间复杂度较张涛等 的方法减少成为显然之事。 2)Berry 等[10] 将形式背景构造成二部图,利用 团的思想生成概念,其计算每个概念的复杂度为 O M 2 ( ) 。 对于弱化的属性拓扑图产生概念有: 1)对于只含有一个顶点属性的情况,由引理 1 可知,属性 m 为某个概念的内涵。 在弱化的属性拓 扑图中属性 m 构成一个自环时,本文计算每个概念 的复杂度 O M 2 2 æ è ç ö ø ÷ 。 2)对于至少含有两个顶点属性的情况,本文计 算每个概念的算法复杂度 O M 2 ( ) 。 以上两种情形说明,当情形 1)时,本文算法的 复杂度小于 Berry 等的;当情形 2)时,本文算法的复 杂度与 Berry 等的相同。 这说明,对于情形 1),本文 的算法优于 Berry 等的,虽然在其他情况(也就是情 形 2)),本文的算法与 Berry 等的具有相同的时间复 杂度。 再有,由图论知识可知,每一个团必包含至少一 个圈,所以在判断团的过程中必然存在对圈的判断 过程,当一个团中含有两个以上圈时,此时对团的判 定过程会重复圈的判断过程。 因此,Berry 等的方法 会造成数据存储量过大。 而本文算法,不会对相同 权值的圈进行重复判断与存储,因此,降低了数据存 储空间复杂度。 3)李立峰等[11] 仅是从理论方面指出弦二部图 的概念格表示,并没有给出算法过程。 所以他们的 方法只是理论过程,而无法直接实现。 本文中不仅给出了理论分析,并且将理论的内 容通过一个可行的算法加以实现,故此,本文的思想 和方法可操作性强,易于直接理解与实现。 由以上 1) ~3)的分析可以看出,本文给出的算 法与已有算法相比,计算出全部概念的时间复杂度 并不低于以往的算法,基本相同。 在数据存储空间 方面,本文给出的算法与已有算法相比,空间复杂度 降低。 这样必然使得本算法在整个计算过程能在占 用更小内存的情况下完成,同时也就对计算机器系 统的运行空间降低了要求。 因此本文算法要优于其 他一些已有算法或方法。 第 4 期 毛华,等:基于权值最大圈的概念格构造算法 ·523·
.524. 智能系统学报 第11卷 3实例 a)=w(a1,a4)∩w(a4,a,)=…={1}及w(a1,a1) ∩w(a6,a7)=0(a1,a2)∩w(a6,a7)=…={3}, 结合实例,说明第2.2节中的算法有效性。以 {1},{3}W,将{1}与{3}添加到W,重复3)。 表2为形式背景(O,M1,11),进行概念的搜索,该 对{{1},{3}}进行步骤3)中②,{1}∩{3}=0 背景从UCI机器学习数据库中,随机选取BLOG ,进行4)。 GER数据集的前40个对象进行试验,整理后得到 2.45,10 {5} 、{1.5.89y 如表2所示的形式背景。 1,92 {2,10 表2(0,M,41) {1379 L9 4.5p②.0 Table 2 Formal context (0,M,I) 1.3} 2 387 a. 对像a142a3a4a;。a 4}3y (8} {37}3 13,4118 {61 a3{68} 6) 3 3,4,67,八/ 4 图5(R(0,M,),o) 5 Fig5(R(O,M1,l),w) 6 7 根据4),W={w(a1,a1),w(a2,a2),0(a3, 8 a3),w(a4,a4),w(a6,a6),(a,a,),w(a1,a4), 9 o(a1,a6),n(a1,a,),0(a2,a4),0(a2,a5),0 10 (a2,a6),0(a2,a),0(a3,a4),0(a3,a6),0(a4, 其中,a,代表博主高学历,a,代表博主中等学 a),w(a5,a2),w(a6,a,),{1},{3}。 历,a,代表博主低学历,a,代表政治立场为左派,a 因为6=w(a7,a7)l≥4=|w(a1,a1)=|w(a2, 代表政治立场中立,a。代表政治立场为右派,a,代表 a2)=|w(a4,aa)=|w(a6,a6)l≥3=|w(a2,a,)l= 博客被当地媒体转载。 Iw(a,a)2 Iw(a,a)Iw(a,a)=Iw 根据1),按照定义3中1)得到以表2为形式背 (a1,a,)l=lo(2,a5)=|0(a,a3)= 景的属性拓扑图,如图4。根据2),按照定义4,构 lw(a6,a,)l≥1=o(a2,a6)=|w(a2,a4)l=|w 造出弱化的属性拓扑图(R(O1,M1,11),0),如图5。 (a3,aa)=|w(a3,a6)=|w(a5,a,)=|{1}= {3}1,所首先寻找包含w(a,a)={1,2,3,4,5,8引 {5 的最大圈,Y,={a,},对应的概念为(123458, a1)。 {1,9} {2,10 {2,4,5} /115,8} 根据5)中①,依次选择W中的其他元素重复 9L,3y 2} 4),概念分别为(1379,a),(24510,02),(158 4 9,a4),(3467,a6),(245,a2a),(158,a4a), 8} 3,7} (19,a1a4),(37,a1a6),(13,a1a),(210,a2 13,4} 8 a5),(68,a3),(34,a6a),(4,a2a6a),(5,a2a4 f6; a),(8,a3a4a),(6,a3a6),(2,a2a5a),(1,a1 图4(A(01,M1,L1),w) a4a),(3,a1a6a)。 Fig.4 (A(O,M,I),w) 根据5)中②,停止。 最后添加(12345678910,⑦)和(⑦,a1a2 根据3),W={w(a1,a1),(a2,a2),0(a3, a3a4a5a6a,)后,得到概念格B(01,M1,l1)={(12 a3),w(a4,aa),0(a6,a6),w(a,a),0(a1,a4), 345678910,⑦),(123458,a),(1379, w(a1,a6),0(a1,a7),o(a2,a4),0(a2,as), a1),(24510,a2),(1589,a4),(3467,a6),(2 (a2,a6),w(a2,a),(a3,a),(a3,6),0(a4,45,a2a,),(158,a4a),(19,a1a4),(37,a1a6), a),10(a5,a),w(a6,a)}。 (13,a1a),(210,42a5),(68,a3),(34,a6a), 对于任意两个w(a,a)求交集,ij=1,2,…,7,(4,a2a6),(5,a2a41),(8,a3a4a1),(6,a 根据3)中②,可以发现存在w(a1,a1)∩w(a4, a6),(2,a2a5a7),(1,a1a4a),(3,a1a6a,),(☑
3 实例 结合实例,说明第 2.2 节中的算法有效性。 以 表 2 为形式背景(O1 ,M1 ,I1 ),进行概念的搜索,该 背景从 UCI 机器学习数据库中,随机选取 BLOG⁃ GER 数据集的前 40 个对象进行试验,整理后得到 如表 2 所示的形式背景。 表 2 (O1 ,M1 ,I1 ) Table 2 Formal context (O1 ,M1 ,I1 ) 对像 a1 a2 a3 a4 a5 a6 a7 1 ´ ´ ´ 2 ´ ´ ´ 3 ´ ´ ´ 4 ´ ´ ´ 5 ´ ´ ´ 6 ´ ´ 7 ´ ´ 8 ´ ´ ´ 9 ´ ´ 10 ´ ´ 其中,a1 代表博主高学历,a2 代表博主中等学 历,a3代表博主低学历,a4代表政治立场为左派,a5 代表政治立场中立,a6代表政治立场为右派,a7代表 博客被当地媒体转载。 根据 1),按照定义 3 中 1)得到以表 2 为形式背 景的属性拓扑图,如图 4。 根据 2),按照定义 4,构 造出弱化的属性拓扑图(R(O1 ,M1 ,I1 ),w),如图 5。 图 4 (A(O1 ,M1 ,I1 ),w) Fig.4 (A(O1 ,M1 ,I1 ),w) 根据 3),W = {w( a1 ,a1 ), w( a2 ,a2 ), w( a3 , a3 ), w(a4 ,a4 ), w( a6 ,a6 ), w( a7 ,a7 ),w( a1 ,a4 ), w(a1 ,a6 ), w( a1 ,a7 ), w( a2 ,a4 ), w( a2 ,a5 ), w (a2 ,a6 ), w(a2 ,a7 ), w(a3 ,a4 ), w(a3 ,a6 ), w(a4 , a7 ), w(a5 ,a7 ), w(a6 ,a7 )}。 对于任意两个 w(ai,aj)求交集,i,j = 1,2,…,7, 根据 3)中②,可以发现存在 w(a1 ,a1 )∩ w(a4 , a7 )= w(a1 ,a4 )∩ w(a4 ,a7 )= …= {1}及 w(a1 ,a1 ) ∩ w( a6 ,a7 ) = w( a1 ,a7 ) ∩ w( a6 ,a7 ) = … = {3}, {1},{3}ÏW,将{1}与{3}添加到 W,重复 3)。 对{{1},{3}}进行步骤 3)中②,{1}∩{3} = Æ ,进行 4)。 图 5 (R(O1 ,M1 ,I1 ),w) Fig.5 (R(O1 ,M1 ,I1 ),w) 根据 4),W = {w( a1 ,a1 ), w( a2 ,a2 ), w( a3 , a3 ), w(a4 ,a4 ), w( a6 ,a6 ), w( a7 ,a7 ),w( a1 ,a4 ), w(a1 ,a6 ), w( a1 ,a7 ), w( a2 ,a4 ), w( a2 ,a5 ), w (a2 ,a6 ), w(a2 ,a7 ), w(a3 ,a4 ), w(a3 ,a6 ), w(a4 , a7 ), w(a5 ,a7 ), w(a6 ,a7 ), {1},{3}}。 因为 6 = êw(a7 ,a7 )ú≥4 = êw(a1 ,a1 )ú= êw(a2 , a2 )ú= êw(a4 ,a4 )ú= êw(a6 ,a6 )ú≥3 = êw(a2 ,a7 )ú= êw(a4 ,a7 ) ú≥2 êw( a1 ,a4 ) ú = êw( a1 ,a6 ) ú = êw (a1 , a7 ) ú = êw ( a2 , a5 ) ú = êw ( a3 , a3 ) ú = êw(a6 ,a7 )ú≥1 = êw( a2 ,a6 ) ú = êw ( a2 , a4 ) ú = êw (a3 ,a4 ) ú= êw( a3 ,a6 ) ú= êw( a5 ,a7 ) ú = ê{1} ú = ê {3}ú,所首先寻找包含 w( a7 ,a7 ) = {1,2,3,4,5,8} 的最大圈,Y1 = { a7 },对应的概念为(1 2 3 4 5 8, a7 )。 根据 5) 中①,依次选择 W 中的其他元素重复 4),概念分别为(1 3 7 9,a1 ),(2 4 5 10,a2 ),(1 5 8 9,a4 ),(3 4 6 7,a6 ), (2 4 5,a2 a7 ),(1 5 8,a4 a7 ), (1 9,a1 a4 ),( 3 7,a1 a6 ),( 1 3,a1 a7 ), ( 2 10, a2 a5 ), (6 8,a3 ),(3 4,a6 a7 ),(4,a2 a6 a7 ),(5,a2 a4 a7 ),(8, a3 a4 a7 ),(6,a3 a6 ),(2, a2 a5 a7 ),(1, a1 a4 a7 ),(3, a1 a6 a7 )。 根据 5)中②,停止。 最后添加(1 2 3 4 5 6 7 8 9 10,Æ)和(Æ,a1 a2 a3 a4 a5 a6 a7 )后,得到概念格 β (O1 ,M1 ,I1 )= {(1 2 3 4 5 6 7 8 9 10,Æ),(1 2 3 4 5 8,a7 ),(1 3 7 9, a1 ),(2 4 5 10,a2 ),(1 5 8 9,a4 ),(3 4 6 7,a6 ), (2 4 5,a2 a7 ),(1 5 8,a4 a7 ),(1 9,a1 a4 ),(3 7,a1 a6 ), (1 3,a1 a7 ),(2 10,a2 a5 ), (6 8,a3 ),(3 4,a6 a7 ), (4,a2 a6 a7 ),(5,a2 a4 a7 ),( 8, a3 a4 a7 ),( 6,a3 a6 ),(2, a2 a5 a7 ),(1, a1 a4 a7 ),(3, a1 a6 a7 ) ,(Æ, ·524· 智 能 系 统 学 报 第 11 卷
第4期 毛华,等:基于权值最大圈的概念格构造算法 .525. a1a2a3a4a5a6a7)}。 WANG Xuyang,LI Ming.Method of data mining based on 在本实例中,步骤2),弱化属性拓扑图,以 concept lattice[J].Computer applications,2005,25(4): w(a1,a1)为例进行复杂度计算,判断是否有w(a1, 827-829. a1)c0(a,a),其中i,j=1,2,…,16,对于w(a1,a1) [5]SIFF M,REPS T.Identifying modules via concept analysis 进行16次比较可得a,为顶层属性。对每个0∈W [C]//Proceedings of International Conference on Software Maintenance.Washington,DC.USA:IEEE Computer Soci- 重复上述比较过程,可得到弱化的属性拓扑图。 ety,1997:170-179. 3)对任意两个元素心,w∈W,i,j=1,2,…,16, [6]FERJANI F,ELLOUMI S,JAOUA A,et al.Formal context 取交集,此过程需要进行18义1”次,得到WU1U coverage based on isolated labels:an efficient solution for 2 text feature extraction J].Information sciences,2012, {3},对{{1},{3}}执行步骤3)中②,此过程进行1 188:198-214. 次,可以看出符合3)中①,可转4)。 [7]邓君,马晓君,张巨峰,等.基于概念格的实体档案馆用 户行为研究[].图书情报工作,2014,58(12):109-117. 4)取W中的元素w(a7,a,),判断w(a,a7)sw DENG Jun,MA Xiaojun,ZHANG Jufeng,et al.Study on (a:,4)其中i,j=1,2,…,20,每个元素比较20次, entity archives'user behavior based on concept lattice[J]. 寻找最大圈,得到概念(123458,a,)。 Library and information service,2014,58(12):109-117. 5)依次取W中的其他元素,重复4),在此例W [8]张晓,龙伟,卢斌.基于概念格的关联规则在排产管理 中的18个元素,4)需要重复18次。 的应用[J].计算机工程与应用,2014,50(9):264 在复杂度上,本文算法与张涛等的算法相同。 270.v ZHANG Xiao,LONG Wei,LU Bin.Application of 并且利用张涛等的算法对(O,M,I1)进行概念的 association rule based on concept lattice for scheduling man- 计算,得到的概念格与本文算法的结果相同。从而 agement[J].Computer engineering and applications,2014, 50(9):264-270. 说明了本文算法的有效性与正确性。 [9]张涛,任宏面.形式背景的属性拓扑表示[J刀.小型微型 4结束语 计算机系统,2014,35(3):590-593. ZHANG Tao,REN Honglei.Attribute topology of formal 本文结合图论的知识,将形式背景对应的属性 context[J].Journal of Chinese computer systems,2014,35 拓扑图弱化,提出了一种利用权值最大圈寻找概念 (3):590-593. 的算法。与现有的算法比较,本文提出一种新的思 [10]BERRY A,SIGAYRET A.Representing a concept lattice 路来搜索概念,此外通过弱化的属性拓扑图,对于概 by a graph[J].Discrete applied mathematics,2004,144 (1/2):27-42. 念的可视化也得到了很好的体现:通过实例可知,该 [11]李立峰,刘三阳,罗清君.弦二部图的概念格表示[J]: 方法能够有效地构造概念格,为知识获取和数据处 电子学报,2013,41(7):1384-1388. 理提供了一种有益的思想。通过分析可知,虽然本 LI Lifeng,LIU Sanyang,LUO Qingjun.Representing chor- 文提出的算法产生全部概念的空间复杂度降低,但由 dal bipartite graph using concept lattice theory[J].Acta 于其时间复杂度仍为指数级,因此对于数据量较大的 electronica sinica,2013,41(7):1384-1388. 情况,计算时间方面需要进一步研究,以便提高应用 [12]DAVEY B A,PRIESTLEY H A.Introduction to lattices 其进行数据分析的效率。 and order[M].2nd ed.New York:Cambridge University Press,2002:66-69 参考文献: [13]王树禾.图论[M].北京:科学出版社,2009 [14]ZHANG Tao,REN Honglei,WANG Xiaomin.A calcula- [1]WILLE R.Restructuring lattice theory:an approach based tion of formal concept by attribute topology[J].ICIC ex- on hierarchies of concepts[M]//RIVAL I.Ordered Sets. press letters part B:applications,2013,4(3):793-800. Dordrecht:Springer,1982. [15]方嘉琳集合论[M].长春:吉林人民出版社,1982. [2]BELOHLAVEK R,SIGMUND E,ZACPAL J.Evaluation of 作者简介: IPAQ questionnaires supported by formal concept analysis 毛华,女,1963年生,教授,博士,主 [J].Information sciences,2011,181(10):1774-1786. 要研究方向为计算机数学及其应用、拟 [3]NGUYEN TT,HUI S C,CHANG Kuiyu.A lattice-based 阵理论、离散数学。发表学术论文90 approach for mathematical search using formal concept anal- 余篇,其中被SCIEI检索20余篇。 ysis[J].Expert systems with applications,2012,39(5): 5820-5828. [4]王旭杨,李明.基于概念格的数据挖掘方法研究[J].计 算机应用.2005,25(4):827-829
a1 a2 a3 a4 a5 a6 a7 )}。 在本实例中, 步骤 2), 弱化属性拓扑图, 以 w(a1 ,a1 )为例进行复杂度计算,判断是否有 w( a1 , a1 )Íw(ai,aj),其中 i,j = 1,2,…,16,对于 w(a1 ,a1 ) 进行 16 次比较可得 a1为顶层属性。 对每个 w ÎW 重复上述比较过程,可得到弱化的属性拓扑图。 3)对任意两个元素 wi,wjÎW,i,j = 1,2,…,16, 取交集,此过程需要进行 18 × 17 2 次,得到W È{1}È {3},对{{1},{3}}执行步骤 3)中②,此过程进行 1 次,可以看出符合 3)中①,可转 4)。 4)取 W 中的元素 w(a7 ,a7 ),判断 w(a7 ,a7 )Íw (ai,aj) 其中 i,j = 1,2,…,20,每个元素比较 20 次, 寻找最大圈,得到概念(1 2 3 4 5 8,a7 )。 5)依次取 W 中的其他元素,重复 4),在此例 W 中的 18 个元素,4)需要重复 18 次。 在复杂度上,本文算法与张涛等的算法相同。 并且利用张涛等的算法对(O1 ,M1 ,I1 ) 进行概念的 计算,得到的概念格与本文算法的结果相同。 从而 说明了本文算法的有效性与正确性。 4 结束语 本文结合图论的知识,将形式背景对应的属性 拓扑图弱化,提出了一种利用权值最大圈寻找概念 的算法。 与现有的算法比较,本文提出一种新的思 路来搜索概念,此外通过弱化的属性拓扑图,对于概 念的可视化也得到了很好的体现;通过实例可知,该 方法能够有效地构造概念格,为知识获取和数据处 理提供了一种有益的思想。 通过分析可知,虽然本 文提出的算法产生全部概念的空间复杂度降低,但由 于其时间复杂度仍为指数级,因此对于数据量较大的 情况,计算时间方面需要进一步研究,以便提高应用 其进行数据分析的效率。 参考文献: [1]WILLE R. Restructuring lattice theory: an approach based on hierarchies of concepts [ M] / / RIVAL I. Ordered Sets. Dordrecht: Springer, 1982. [2]BELOHLAVEK R, SIGMUND E, ZACPAL J. Evaluation of IPAQ questionnaires supported by formal concept analysis [J]. Information sciences, 2011, 181(10): 1774-1786. [3]NGUYEN T T, HUI S C, CHANG Kuiyu. A lattice-based approach for mathematical search using formal concept anal⁃ ysis[ J]. Expert systems with applications, 2012, 39(5): 5820-5828. [4]王旭杨, 李明. 基于概念格的数据挖掘方法研究[ J]. 计 算机应用, 2005, 25(4): 827-829. WANG Xuyang, LI Ming. Method of data mining based on concept lattice[ J]. Computer applications, 2005, 25( 4): 827-829. [5]SIFF M, REPS T. Identifying modules via concept analysis [C] / / Proceedings of International Conference on Software Maintenance. Washington, DC, USA: IEEE Computer Soci⁃ ety, 1997: 170-179. [6]FERJANI F, ELLOUMI S, JAOUA A, et al. Formal context coverage based on isolated labels: an efficient solution for text feature extraction [ J ]. Information sciences, 2012, 188: 198-214. [7]邓君, 马晓君, 张巨峰, 等. 基于概念格的实体档案馆用 户行为研究[J]. 图书情报工作, 2014, 58(12): 109-117. DENG Jun, MA Xiaojun, ZHANG Jufeng, et al. Study on entity archives’ user behavior based on concept lattice[ J]. Library and information service, 2014, 58(12): 109-117. [8]张晓, 龙伟, 卢斌. 基于概念格的关联规则在排产管理 的应用[ J]. 计算机工程与应用, 2014, 50 ( 9): 264 - 270. v ZHANG Xiao, LONG Wei, LU Bin. Application of association rule based on concept lattice for scheduling man⁃ agement[J]. Computer engineering and applications, 2014, 50(9): 264-270. [9]张涛, 任宏雷. 形式背景的属性拓扑表示[ J]. 小型微型 计算机系统, 2014, 35(3): 590-593. ZHANG Tao, REN Honglei. Attribute topology of formal context[J]. Journal of Chinese computer systems, 2014, 35 (3): 590-593. [10]BERRY A, SIGAYRET A. Representing a concept lattice by a graph[ J]. Discrete applied mathematics, 2004, 144 (1 / 2): 27-42. [11]李立峰, 刘三阳, 罗清君. 弦二部图的概念格表示[ J]. 电子学报, 2013, 41(7): 1384-1388. LI Lifeng, LIU Sanyang, LUO Qingjun. Representing chor⁃ dal bipartite graph using concept lattice theory [ J]. Acta electronica sinica, 2013, 41(7): 1384-1388. [12] DAVEY B A, PRIESTLEY H A. Introduction to lattices and order[M]. 2nd ed. New York: Cambridge University Press, 2002: 66-69. [13]王树禾. 图论[M]. 北京: 科学出版社, 2009. [14]ZHANG Tao, REN Honglei, WANG Xiaomin. A calcula⁃ tion of formal concept by attribute topology[ J]. ICIC ex⁃ press letters part B: applications, 2013, 4(3): 793-800. [15]方嘉琳. 集合论[M]. 长春: 吉林人民出版社, 1982. 作者简介: 毛华,女,1963 年生,教授,博士,主 要研究方向为计算机数学及其应用、拟 阵理论、离散数学。 发表学术论文 90 余篇,其中被 SCI、EI 检索 20 余篇。 第 4 期 毛华,等:基于权值最大圈的概念格构造算法 ·525·