D0L:10.13374.issn1001-053x.2012.05.020 第34卷第5期 北京科技大学学报 Vol.34 No.5 2012年5月 Journal of University of Science and Technology Beijing May 2012 基于加权阈值容差关系的不完备信息系统粗糙集模型 武森蒲 立程锴 高学东 北京科技大学经济管理学院,北京100083 ☒通信作者,E-mail:wusen@manage.usth.cdu.cm 摘要针对已有的不完备信息系统粗糙集扩充模型没有考虑属性的权重的缺点,提出基于加权阙值容差关系的粗糙集扩 充模型.该模型根据给出的不完备信息系统信息量计算权重,不需引入系统外知识,权重确定比较客观:同时引入阈值来调整 加权阈值容差类判定的严格程度,兼顾了人的主观要求,并能预先排除因自身不满足阙值条件而不可能与任何其他对象划为 同一加权阙值容差类的对象,但不影响类的完整性.实例对比分析表明,与其他模型相比,基于加权阈值容差关系的粗糙集扩 充模型符合不完备信息系统应用客观实际,具有更强的适应能力 关键词粗糙集理论:信息系统:容差分析:加权 分类号TP181 Rough set model of incomplete information systems based on the weighted threshold tolerance relation WU Sen,PU Li,CHENG Kai,GAO Xue-dong School of Economics and Management,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:wusen@manage.ustb.edu.cn ABSTRACT In order to overcome the shortage that attribute weights are not taken into consideration in the existing extensions of rough sets under incomplete information systems,a new rough set model is proposed based on the weighted threshold tolerance relation. The new model calculates the weights according to the information quantity of the incomplete information system without outside knowl- edge,so the weights are objective.Moreover,the model introduces a threshold to adjust the strictness degree of the weighted threshold tolerance class,which not only combines subjective requirements into consideration,but also excludes objects in advance that do not reach the threshold and can not be in the same weighted threshold tolerance class with other objects.This exclusion will not influence the completeness of the classes.Contrastive analysis of an example shows that the proposed extension of a rough set based on the weigh- ted threshold tolerance relation accords with the fact of an incomplete information system and is more applicable compared with other models. KEY WORDS rough set theory:information systems;tolerance analysis:weighing 粗糙集0理论作为一种处理模糊和不确定性 糙集理论中的等价关系不能处理数据中的缺失信 知识的新型数学方法,在工业控制与管理回、决策 息,一般需要采用数据补齐的方法将不完备信息系 科学回、医学及生物科学0、模式识别囚、航空航天 统转化为完备信息系统或在不完备信息系统下放宽 及军事管理的等领域有许多成功的应用.它的基本 等价关系来扩充粗糙集模型.考虑到补齐数据不一 思想是通过关系数据库分类归纳形成概念和规则, 定能真实反映原系统的信息图,所以经常采用直接 通过等价关系的分类以及分类对于目标的近似实现 扩充粗糙集模型的方法来处理不完备信息系统。 知识发现可.在实际数据挖掘应用中,面对的通常 经典的不完备信息系统扩充模型容差关系回、 是存在缺失数据的不完备信息系统.由于经典的粗 非对称相似关系0-0和量化容差关系0-1极大地 收稿日期:201106-05 基金项目:国家自然科学基金资助项目(70771007):中央高校基本科研业务费专项(FRF-TP-10-006B)
第 34 卷 第 5 期 2012 年 5 月 北京科技大学学报 Journal of University of Science and Technology Beijing Vol. 34 No. 5 May 2012 基于加权阈值容差关系的不完备信息系统粗糙集模型 武 森 蒲 立 程 锴 高学东 北京科技大学经济管理学院,北京 100083 通信作者,E-mail: wusen@ manage. ustb. edu. cn 摘 要 针对已有的不完备信息系统粗糙集扩充模型没有考虑属性的权重的缺点,提出基于加权阈值容差关系的粗糙集扩 充模型. 该模型根据给出的不完备信息系统信息量计算权重,不需引入系统外知识,权重确定比较客观; 同时引入阈值来调整 加权阈值容差类判定的严格程度,兼顾了人的主观要求,并能预先排除因自身不满足阈值条件而不可能与任何其他对象划为 同一加权阈值容差类的对象,但不影响类的完整性. 实例对比分析表明,与其他模型相比,基于加权阈值容差关系的粗糙集扩 充模型符合不完备信息系统应用客观实际,具有更强的适应能力. 关键词 粗糙集理论; 信息系统; 容差分析; 加权 分类号 TP181 Rough set model of incomplete information systems based on the weighted threshold tolerance relation WU Sen ,PU Li,CHENG Kai,GAO Xue-dong School of Economics and Management,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail: wusen@ manage. ustb. edu. cn ABSTRACT In order to overcome the shortage that attribute weights are not taken into consideration in the existing extensions of rough sets under incomplete information systems,a new rough set model is proposed based on the weighted threshold tolerance relation. The new model calculates the weights according to the information quantity of the incomplete information system without outside knowledge,so the weights are objective. Moreover,the model introduces a threshold to adjust the strictness degree of the weighted threshold tolerance class,which not only combines subjective requirements into consideration,but also excludes objects in advance that do not reach the threshold and can not be in the same weighted threshold tolerance class with other objects. This exclusion will not influence the completeness of the classes. Contrastive analysis of an example shows that the proposed extension of a rough set based on the weighted threshold tolerance relation accords with the fact of an incomplete information system and is more applicable compared with other models. KEY WORDS rough set theory; information systems; tolerance analysis; weighing 收稿日期: 2011--06--05 基金项目: 国家自然科学基金资助项目( 70771007) ; 中央高校基本科研业务费专项( FRF--TP--10--006B) 粗糙集[1]理论作为一种处理模糊和不确定性 知识的新型数学方法,在工业控制与管理[2]、决策 科学[3]、医学及生物科学[4]、模式识别[5]、航空航天 及军事管理[6]等领域有许多成功的应用. 它的基本 思想是通过关系数据库分类归纳形成概念和规则, 通过等价关系的分类以及分类对于目标的近似实现 知识发现[7]. 在实际数据挖掘应用中,面对的通常 是存在缺失数据的不完备信息系统. 由于经典的粗 糙集理论中的等价关系不能处理数据中的缺失信 息,一般需要采用数据补齐的方法将不完备信息系 统转化为完备信息系统或在不完备信息系统下放宽 等价关系来扩充粗糙集模型. 考虑到补齐数据不一 定能真实反映原系统的信息[8],所以经常采用直接 扩充粗糙集模型的方法来处理不完备信息系统. 经典的不完备信息系统扩充模型容差关系[9]、 非对称相似关系[10--11]和量化容差关系[10--11]极大地 DOI:10.13374/j.issn1001-053x.2012.05.020
第5期 武森等:基于加权阔值容差关系的不完备信息系统粗糙集模型 ·597· 拓展了粗糙集理论的应用范围.容差关系认为未知 可能将全为“*”而实际没有相同属性值的对象误 值与任何属性值都相等,可能导致实际没有相同属 判在同一类中;对第二种情形,两个对象只要有一个 性值的对象被误判在同一类中:非对称相似关系因 属性取值明确相同而在其余属性上都有“*”时就 其非对称性,可能使直观上就可以判断相象的对象 被判定在同一类,条件仍然比较宽松,尤其在属性数 因不满足相似关系而被判在不同类中:而量化容差 目很多时更为明显 关系需要知道属性值的概率分布情况,应用有一定 1.2联系度容差关系模型 的困难.针对上述情况,限制容差关系回、联系度 在限制容差关系的基础上,联系度容差关系圆 容差关系)、改进相似关系圆、限制非对称相似关 引入阈值a1和a2(0≤a2≤1≤1).将不为“华”的 系和,限制容差关系6被相继提出,从不同角 属性数目在B中所占比例小于阈值1的对象排除, 度进一步改进和推广了不完备信息系统的粗糙集模 针对剩余对象构成的新论域U根据下式将取值明 型.但是,这些模型仍然存在着一些局限,并且在上 确相同属性比例不小于α2且无明确不相同属性值 述所有不完备信息系统粗糙集扩充模型中都没有考 的两个对象判定为同一类 虑属性权重.在实际问题中各属性的重要度往往不 Pg(x)={y∈U'Iu(x,y)= 同,不考虑属性权重是不符合实际情况的 a+b:,a+b=1,a≥a2}. 本文在详细分析限制容差关系、联系度容差关 其中,a和b分别为x和y在属性子集B上取值明 系和?限制容差关系优势与不足的基础上,提出了 确相同属性比例和取值不明确属性比例. 基于加权阈值容差关系的粗糙集扩充模型.该模型 联系度容差关系通过引入阈值结合人的主观要 发扬了上述模型的优点,并克服了这些模型的局限, 求调整类判定的严格程度,改善了限制容差关系条 是对这些模型的进一步推广.更重要的是加权阈值 件仍然比较宽松的情况而保持了自反性和对称性, 容差关系在不需引入系统外知识的情况下考虑了不 但在联系度容差关系中由于阈值α1的限制,不为 完备信息系统的属性权重,更符合客观实际 “*”的属性数目在B中所占比例在[a2,a1)区间的 1几种主要粗糙集扩充模型 对象在被预先排除之列,从而可能使满足阈值α心,要 求的联系度容差类不完整. 1.1限制容差关系模型 1.3?限制容差关系模型 在深入剖析经典模型容差关系、非对称相似关 r限制容差关系LR(B,r)6引入阈值r(O≤ 系和量化容差关系的基础上,文献2]提出的限制 T≤1)来调整类判定的严格程度,两个对象被判定 容差关系成为后来不完备信息系统扩充模型研究的 为同属一类具体分为两种情形:(1)B中所有属性 重要基础之一 值都对应一致,即取值明确相同或同为“*”;(2)B 对于一个不完备信息系统S=U,A,V,f〉,U= 中取值明确相同属性比例不小于?且无明确不相同 {x1,x2,…,x}是论域,A是属性集,V=UV。是属 属性值 性值集,V。是属性a的值域*”表示属性值未知, ILR(B,T)={(x,y)I∈U×UIH6eB(b(x)= f是信息函数,即对Ha∈A,Hx∈U,有a(x)∈V b(y)V(1Pa(x)nPs(y)I≥lAI×r)A 对BCA,记PB(x)={b1b∈BAb(x)≠*},则限制 6B((b(x)≠*)A(b(y)≠*)→ 容差关系回定义为 (b(x)=b(y))}. Vsyeuxu(Lg(x,y)台H6eB(b(x)= τ限制容差关系对限制容差关系进行了改进和 b(y)=*)V((PE(x)nPa(y))A 推广,保持了自反性和对称性,但由于其第一种情形 H6eB((b(x)≠*)A(b(y)≠*)→ 将所有属性值都对应一致的对象归为一类,所以无 (b(x)=b(y)))) 论,如何取值,它仍然可能将全部属性值为“*”而 限制容差关系Ls(x,y)包括两种情形:(1)x和 实际没有相同属性值的对象误判在同一类中,条件 y在属性子集B上全为“*”;(2)x和y在B上有同 仍然比较宽松 不为“*”的属性且在所有这样的属性上取值相同. 针对上述模型的优势及局限,本文提出基于加 限制容差关系具有自反性和对称性,但不具有传递 权阈值容差关系的粗糙集扩充模型,吸收了这些模 性,在信息系统不包含全为“*”的对象时正好介于 型的优点,摈弃了不足,并在不必引入不完备信息系 容差关系太宽松和非对称相似关系太严格两个极端 统外知识的情况下考虑了属性的权重,更符合实际 之间,优于经典模型.限制容差关系的第一种情形 应用情况
第 5 期 武 森等: 基于加权阈值容差关系的不完备信息系统粗糙集模型 拓展了粗糙集理论的应用范围. 容差关系认为未知 值与任何属性值都相等,可能导致实际没有相同属 性值的对象被误判在同一类中; 非对称相似关系因 其非对称性,可能使直观上就可以判断相象的对象 因不满足相似关系而被判在不同类中; 而量化容差 关系需要知道属性值的概率分布情况,应用有一定 的困难. 针对上述情况,限制容差关系[12]、联系度 容差关系[13]、改进相似关系[14]、限制非对称相似关 系[15]和 τ 限制容差关系[16]被相继提出,从不同角 度进一步改进和推广了不完备信息系统的粗糙集模 型. 但是,这些模型仍然存在着一些局限,并且在上 述所有不完备信息系统粗糙集扩充模型中都没有考 虑属性权重. 在实际问题中各属性的重要度往往不 同,不考虑属性权重是不符合实际情况的. 本文在详细分析限制容差关系、联系度容差关 系和 τ 限制容差关系优势与不足的基础上,提出了 基于加权阈值容差关系的粗糙集扩充模型. 该模型 发扬了上述模型的优点,并克服了这些模型的局限, 是对这些模型的进一步推广. 更重要的是加权阈值 容差关系在不需引入系统外知识的情况下考虑了不 完备信息系统的属性权重,更符合客观实际. 1 几种主要粗糙集扩充模型 1. 1 限制容差关系模型 在深入剖析经典模型容差关系、非对称相似关 系和量化容差关系的基础上,文献[12]提出的限制 容差关系成为后来不完备信息系统扩充模型研究的 重要基础之一. 对于一个不完备信息系统 S =〈U,A,V,f〉,U = { x1,x2,…,xn } 是论域,A 是属性集,V = ∪a∈A Va 是属 性值集,Va 是属性 a 的值域,“* ”表示属性值未知, f 是信息函数,即对a∈A,x∈U,有 a( x) ∈Va . 对 BA,记 PB ( x) = { b | b∈B∧b( x) ≠*} ,则限制 容差关系[12]定义为 x,y∈U × U( LB ( x,y) b∈B ( b( x) = b( y) = * ) ∨( ( PB ( x) ∩PB ( y) ≠) ∧ b∈B ( ( b( x) ≠*) ∧( b( y) ≠*) → ( b( x) = b( y) ) ) ) ) . 限制容差关系 LB ( x,y) 包括两种情形: ( 1) x 和 y 在属性子集 B 上全为“* ”; ( 2) x 和 y 在 B 上有同 不为“* ”的属性且在所有这样的属性上取值相同. 限制容差关系具有自反性和对称性,但不具有传递 性,在信息系统不包含全为“* ”的对象时正好介于 容差关系太宽松和非对称相似关系太严格两个极端 之间,优于经典模型. 限制容差关系的第一种情形 可能将全为“* ”而实际没有相同属性值的对象误 判在同一类中; 对第二种情形,两个对象只要有一个 属性取值明确相同而在其余属性上都有“* ”时就 被判定在同一类,条件仍然比较宽松,尤其在属性数 目很多时更为明显. 1. 2 联系度容差关系模型 在限制容差关系的基础上,联系度容差关系[13] 引入阈值 α1 和 α2 ( 0≤α2≤α1≤1) . 将不为“* ”的 属性数目在 B 中所占比例小于阈值 α1 的对象排除, 针对剩余对象构成的新论域 U'根据下式将取值明 确相同属性比例不小于 α2 且无明确不相同属性值 的两个对象判定为同一类. Pα2 B ( x) = { y∈U' | u( x,y) = a + bi,a + b = 1,a≥α2 } . 其中,a 和 b 分别为 x 和 y 在属性子集 B 上取值明 确相同属性比例和取值不明确属性比例. 联系度容差关系通过引入阈值结合人的主观要 求调整类判定的严格程度,改善了限制容差关系条 件仍然比较宽松的情况而保持了自反性和对称性, 但在联系度容差关系中由于阈值 α1 的限制,不为 “* ”的属性数目在 B 中所占比例在[α2,α1 ) 区间的 对象在被预先排除之列,从而可能使满足阈值 α2 要 求的联系度容差类不完整. 1. 3 τ 限制容差关系模型 τ 限制容差关系 ILR( B,τ) [16]引入阈值τ( 0≤ τ≤1) 来调整类判定的严格程度,两个对象被判定 为同属一类具体分为两种情形: ( 1) B 中所有属性 值都对应一致,即取值明确相同或同为“* ”; ( 2) B 中取值明确相同属性比例不小于 τ 且无明确不相同 属性值. ILR( B,τ) = { ( x,y) |∈U × U|b∈B ( b( x) = b( y) ) ∨( | PB ( x) ∩PB ( y) |≥| A | × τ) ∧ b∈B ( ( b( x) ≠*) ∧( b( y) ≠*) → ( b( x) = b( y) ) ) } . τ 限制容差关系对限制容差关系进行了改进和 推广,保持了自反性和对称性,但由于其第一种情形 将所有属性值都对应一致的对象归为一类,所以无 论 τ 如何取值,它仍然可能将全部属性值为“* ”而 实际没有相同属性值的对象误判在同一类中,条件 仍然比较宽松. 针对上述模型的优势及局限,本文提出基于加 权阈值容差关系的粗糙集扩充模型,吸收了这些模 型的优点,摈弃了不足,并在不必引入不完备信息系 统外知识的情况下考虑了属性的权重,更符合实际 应用情况. ·597·
·598 北京科技大学学报 第34卷 2基于加权阈值容差关系的粗糙集模型 Sigc(c3)=I(c)-1(C\{c})= 0.712-0.712=0, 2.1不完备信息系统的属性权重 Sigc(c)=I(C)-I(C\e }) 加权阈值容差关系模型基于不完备信息系统信 0.712-0.561=0.151, 息量计算权重,不需引入系统外知识,权重确定比较 0(c1)=0.28, 客观. w(c2)=0.32, 定义1对不完备信息系统S=(U,A,V,f), e(c3)=0, BCA,x]B为x:的容差类,定义信息量为 w(c.)=0.40. 1)=a- 1 ∑1]1. 表1不完备信息表 Table 1 Table of incomplete information 性质10≤1(B)≤1,maxl(B)=1台[x,]g= U d (x;},minl (B)=0]=U. 0 该性质表明:属性子集B的信息量在0,1]区 0 防 间.在B能区分出每一个对象x,i=1,2,…,n时信 息量达到最大,为1:在B不能区分出U中任何对象 时信息量达到最小,为0 么 性质2对于B,CB2CA,有I(B)≤I(B2). 06 么 该性质表明:随着属性子集B中属性的增加, 1 信息量单调递增. 定义2对不完备信息系统S=《U,A,V,f),属 性b∈BCA在B中的重要度定义如下: 么 Sign (b)=I(B)-I(B\(b)). 010 ★ 性质30≤SigB(b)≤1. 么 2 该性质表明:属性b∈BCA在B中的重要度在 a12 0,1]区间.这是因为由性质1可知0≤I(B)≤1及 2.2加权阈值容差关系 0≤I(B\{b})≤1,由性质2可知I(B1{b})≤I(B), 定义3对不完备信息系统S=U,A,V,f), 所以0≤I(B)-I(B\{b})≤1,即0≤SigB(b)≤1. B二A,0≤(b)≤1为属性b在B中的权重,加权阈 b在B中的权重通过重要度归一化后确定,即 值容差关系为 w(b)=- Sigg (b) WT(w)={(x,y)Ix∈UAy∈UAH6.B(b(x)= ∑Siga(b,) 6 *Vb(y)=*Vb(x)=b(y)A∑w(b)≥w}. B 0≤o(b)≤1,∑w(b)=1. 其中, 下面给出不完备信息系统属性权重计算实例 B={b∈B1(b(x)≠*)∧(b(y)≠*)∧ 为了研究比较方便,所用的不完备信息系统为文献 (b(x)=b(y))},0≤w≤1为阈值. 00-13,16]中分析容差关系、量化容差关系、限制 此时,记gTw={y∈U1(x,y)∈WT(w)}为 容差关系、联系度容差关系和?限制容差关系共同 对象x的加权阈值容差类. 采用的实例,如表1所示.其中,U={a1,a2,…, 由定义可知,对象x与y只有在属性子集B中 a2}为论域,为条件属性集,{d}是决策属性集,Vc= 取值明确相同的属性权重和不小于ω且没有明确 {0,1,2,3}为条件属性值集,V={Φ,为决策 不相同的属性值时,才能被判定属于同一类.在实 属性值集 际应用中,可以根据具体问题的实际情况和人的主 1(C)=0.712, 观要求来调整ω的取值,以得到更好的应用效果. Sigc (c)=I(C)-1(C\e})= 显然,加权阈值容差关系是自反的、对称的,但 0.712-0.606=0.106, 不一定是传递的.并且,加权阈值容差关系一般不 Sigc (c2)=I(C)-1(C\e2))= 构成U的划分,而构成U的覆盖. 0.712-0.591=0.121, 定义4对不完备信息系统S=U,A,V,f)
北 京 科 技 大 学 学 报 第 34 卷 2 基于加权阈值容差关系的粗糙集模型 2. 1 不完备信息系统的属性权重 加权阈值容差关系模型基于不完备信息系统信 息量计算权重,不需引入系统外知识,权重确定比较 客观. 定义 1 对不完备信息系统 S =〈U,A,V,f〉, BA,[xi ]T B 为 xi 的容差类,定义信息量为 I( B) = n n - 1 - 1 n( n - 1) ∑ n i = 1 |[xi ]T B | . 性质 1 0≤I( B) ≤1,maxI( B) = 1[xi ]T B = { xi} ,minI( B) = 0[xi ]T B = U. 该性质表明: 属性子集 B 的信息量在[0,1]区 间. 在 B 能区分出每一个对象 xi,i = 1,2,…,n 时信 息量达到最大,为 1; 在 B 不能区分出 U 中任何对象 时信息量达到最小,为 0. 性质 2 对于 B1B2A,有 I( B1 ) ≤I( B2 ) . 该性质表明: 随着属性子集 B 中属性的增加, 信息量单调递增. 定义 2 对不完备信息系统 S =〈U,A,V,f〉,属 性 b∈BA 在 B 中的重要度定义如下: SigB ( b) = I( B) - I( B \{ b} ) . 性质 3 0≤SigB ( b) ≤1. 该性质表明: 属性 b∈BA 在 B 中的重要度在 [0,1]区间. 这是因为由性质 1 可知 0≤I( B) ≤1 及 0≤I( B \{ b} ) ≤1,由性质 2 可知 I( B \{ b} ) ≤I( B) , 所以 0≤I( B) - I( B \{ b} ) ≤1,即 0≤SigB ( b) ≤1. b 在 B 中的权重通过重要度归一化后确定,即 w( b) = SigB ( b) ∑bi∈B SigB ( bi ) , 0≤w( b) ≤1,∑b∈B w( b) = 1. 下面给出不完备信息系统属性权重计算实例. 为了研究比较方便,所用的不完备信息系统为文献 [10--13,16]中分析容差关系、量化容差关系、限制 容差关系、联系度容差关系和 τ 限制容差关系共同 采用的实例,如表 1 所示. 其中,U = { a1,a2,…, a12 } 为论域,为条件属性集,{ d} 是决策属性集,VC = { 0,1,2,3} 为条件属性值集,V{ d} = { Φ,Ψ} 为决策 属性值集. I( C) = 0. 712, SigC ( c1 ) = I( C) - I( C \{ c1 } ) = 0. 712 - 0. 606 = 0. 106, SigC ( c2 ) = I( C) - I( C \{ c2 } ) = 0. 712 - 0. 591 = 0. 121, SigC ( c3 ) = I( C) - I( C \{ c3 } ) = 0. 712 - 0. 712 = 0, SigC ( c4 ) = I( C) - I( C \{ c4 } ) = 0. 712 - 0. 561 = 0. 151, w( c1 ) = 0. 28, w( c2 ) = 0. 32, w( c3 ) = 0, w( c4 ) = 0. 40. 表 1 不完备信息表 Table 1 Table of incomplete information U c1 c2 c3 c4 d a1 3 2 1 0 Φ a2 2 3 2 0 Φ a3 2 3 2 0 Ψ a4 * 2 * 1 Φ a5 * 2 * 1 Ψ a6 2 3 2 1 Ψ a7 3 * * 3 Φ a8 * 0 0 * Ψ a9 3 2 1 3 Ψ a10 1 * * * Φ a11 * 2 * * Ψ a12 3 2 1 * Φ 2. 2 加权阈值容差关系 定义 3 对不完备信息系统 S =〈U,A,V,f〉, BA,0≤w( b) ≤1 为属性 b 在 B 中的权重,加权阈 值容差关系为 WT( ω) = { ( x,y) | x∈U∧y∈U∧b∈B ( b( x) = *∨b( y) = *∨b( x) = b( y) ) ∧ ∑b∈B' w( b) ≥ω} . 其中, B' = { b∈B | ( b( x) ≠*) ∧( b( y) ≠*) ∧ ( b( x) = b( y) ) } ,0≤ω≤1 为阈值. 此时,记[x]WT( ω) B = { y∈U| ( x,y) ∈WT( ω) } 为 对象 x 的加权阈值容差类. 由定义可知,对象 x 与 y 只有在属性子集 B 中 取值明确相同的属性权重和不小于 ω 且没有明确 不相同的属性值时,才能被判定属于同一类. 在实 际应用中,可以根据具体问题的实际情况和人的主 观要求来调整 ω 的取值,以得到更好的应用效果. 显然,加权阈值容差关系是自反的、对称的,但 不一定是传递的. 并且,加权阈值容差关系一般不 构成 U 的划分,而构成 U 的覆盖. 定义 4 对不完备信息系统 S =〈U,A,V,f〉, ·598·
第5期 武森等:基于加权阔值容差关系的不完备信息系统粗糙集模型 ·599· BCA,对象集X关于属性子集B的加权阈值容差关 阈值容差关系。由于限制容差关系是对容差关系和 系的上近似BT(X)和下近似BwT(X)分别为 非对称相似关系的改进和推广,联系度容差关系和 BTa()={xlx≠☑,xeU, τ限制容差关系是对限制容差关系的改进和推广, Bw (X)=(l]X,EU). 在文献02-13,16]中已有深入详细的对比分析,所 由上述定义可知BT()=UT 以在此仅将加权阈值容差关系与联系度容差关系和 关于加权阈值容差关系的下述两个定理成立, ?限制容差关系进行比较 证明略 在联系度容差关系下,根据0≤a2≤a,≤1的要 定理1如果IB1=1(记为B={b})且w≠0 求取阈值a1=0.51,a2=0.3,对于属性子集C,a4, 时有(x,y)∈WT(o),则 a5,a,ag,ao和a1由于不为“*”的属性数目在C中 (b(x)=b(y))∧(b(x)≠*)∧(b(y)≠*). 的比例小于0.51被从论域U中删除,剩余对象根 此时若存在b()=*,则]T={. 据两对象取值明确相同属性比例不小于0.3且无明 该定理表明:在只有一个属性且阈值不为0的 确不相同属性值被判定为一类,得到如下联系度容 情况下,如果两个对象同属一个加权阈值容差类,则 差类: 属性取值一定明确相等:如果一个对象属性取值为 P23(a1)={a1,a2}, “*”,则一定独自属于一个加权阈值容差类 P3(a2)=P3(a)={a2,a3}, 定理2记PB(x)={b1b∈B∧b(x)≠*}, pe3(a6)={a6}, X={x1∑o(b)<ω},则对Hx∈X,有 po3(a)=(ag,an, bePg(x) po3(an)=(a,a,an [x]Wr()=Ix). 上述实例中,联系度容差关系没有考虑属性权 该定理表明:当对象x在属性子集B中不为 重,而且由于阈值的限制,不为“*”的属性数目在 “*”的属性权重和小于ω时,不可能再与其他任何 C中所占比例在0.3,0.51)区间的对象被预先删 对象同属一个加权阈值容差类,只能被判定独自属 除,从而使满足不小于阈值2=0.3要求的联系度 于一个加权阈值容差类中,在判定其他对象的加权 容差类不完整.例如:根据不小于阈值2=0.3的 阈值容差类时可以从论域中将其排除 要求,a,应该被包含在a,的联系度容差类中,但是 2.3加权阈值容差关系模型与其他模型的联系 由于a,根据小于阈值a,=0.51的要求己被删除, 特殊地,当V()=高时,加权阀值容差 因而ag的联系度容差类不完整. 在x限制容差关系下,当阈值r=0.3时,对于 关系即退化为联系度容差关系和?限制容差关系, 属性子集C,所有属性值都对应一致(明确相同或同 但不会出现联系度容差关系中取值明确相同的属性 为“*”)的两对象同属一类,取值明确相同的属性 比例在α2,心,)区间的对象被预先排除的情况,也 比例不小于0.3且无明确不相同属性值的两对象也 不会出现τ限制容差关系中条件比较宽松的第一种 同属一类 情形更进一步地,当V(0)=且0<0≤ Le3(a,)={a1,a2}, n L3(a2)=lL3(a)={a2,a3}, 时,加权阈值容差关系即退化为限制容差关系的第 ILe3(a4)=lL23(a)={a4,a5}, 二种情形,而排除了全部属性为“*”的不同对象被 L3(a6)={a6}, 判定为同属一类的第一种情形:当仙)=高 ILo3 (a)=a,a, 且ω=0时,加权阈值容差关系即退化为容差关系 L83(as)={ag}, 因此,加权阈值容差关系是联系度容差关系、T限制 Le3(ag)={a'ag,a2}, 容差关系、限制容差关系和容差关系的推广:联系度 IL3 (a)=(ao}, 容差关系、?限制容差关系、限制容差关系和容差关 L83(a)={a}, 系都是加权阈值容差关系的特殊情形 Le3(a12)={a1,ag,a12}. 3实例比较分析 从上述实例可知:?限制容差关系也没有考虑 属性权重.在该例中,属性子集C中全部属性为 继续采用计算属性权重的实例表1来分析加权 “*”的对象没有出现.如果有,则无论T如何取值
第 5 期 武 森等: 基于加权阈值容差关系的不完备信息系统粗糙集模型 BA,对象集 X 关于属性子集 B 的加权阈值容差关 系的上近似 BWT( ω) ( X) 和下近似 BWT( ω) ( X) 分别为 BWT( ω) ( X) = { x |[x]WT( ω) B ∩X≠,x∈U} , BWT( ω) ( X) = { x |[x]WT( ω) B X,x∈U} . 由上述定义可知 BWT( ω) ( X) = ∪x∈X [x]WT( ω) B . 关于加权阈值容差关系的下述两个定理成立, 证明略. 定理 1 如果 | B | = 1( 记为 B = { b} ) 且 ω≠0 时有( x,y) ∈WT( ω) ,则 ( b( x) = b( y) ) ∧( b( x) ≠*) ∧( b( y) ≠*) . 此时若存在 b( z) = * ,则[z]WT( ω) B = { z} . 该定理表明: 在只有一个属性且阈值不为 0 的 情况下,如果两个对象同属一个加权阈值容差类,则 属性取值一定明确相等; 如果一个对象属性取值为 “* ”,则一定独自属于一个加权阈值容差类. 定理 2 记 PB ( x) = { b | b∈B∧b ( x) ≠*} , X = { x b∈ ∑PB( x) w ( b ) < ω } ,则 对 x ∈ X,有 [x]WT( ω) B = { x} . 该定理表明: 当对象 x 在属性子集 B 中不为 “* ”的属性权重和小于 ω 时,不可能再与其他任何 对象同属一个加权阈值容差类,只能被判定独自属 于一个加权阈值容差类中,在判定其他对象的加权 阈值容差类时可以从论域中将其排除. 2. 3 加权阈值容差关系模型与其他模型的联系 特殊地,当b∈B w( b) = 1 | B | 时,加权阈值容差 关系即退化为联系度容差关系和 τ 限制容差关系, 但不会出现联系度容差关系中取值明确相同的属性 比例在[α2,α1 ) 区间的对象被预先排除的情况,也 不会出现 τ 限制容差关系中条件比较宽松的第一种 情形. 更进一步地,当b∈B w( b) = 1 | B | 且 0 < ω≤ 1 n 时,加权阈值容差关系即退化为限制容差关系的第 二种情形,而排除了全部属性为“* ”的不同对象被 判定为同属一类的第一种情形; 当b∈B w( b) = 1 | B | 且 ω = 0 时,加权阈值容差关系即退化为容差关系. 因此,加权阈值容差关系是联系度容差关系、τ 限制 容差关系、限制容差关系和容差关系的推广; 联系度 容差关系、τ 限制容差关系、限制容差关系和容差关 系都是加权阈值容差关系的特殊情形. 3 实例比较分析 继续采用计算属性权重的实例表 1 来分析加权 阈值容差关系. 由于限制容差关系是对容差关系和 非对称相似关系的改进和推广,联系度容差关系和 τ 限制容差关系是对限制容差关系的改进和推广, 在文献[12--13,16]中已有深入详细的对比分析,所 以在此仅将加权阈值容差关系与联系度容差关系和 τ 限制容差关系进行比较. 在联系度容差关系下,根据 0≤α2≤α1≤1 的要 求取阈值 α1 = 0. 51,α2 = 0. 3,对于属性子集 C,a4, a5,a7,a8,a10和 a11由于不为“* ”的属性数目在 C 中 的比例小于 0. 51 被从论域 U 中删除,剩余对象根 据两对象取值明确相同属性比例不小于 0. 3 且无明 确不相同属性值被判定为一类,得到如下联系度容 差类: P0. 3 C ( a1 ) = { a1,a12 } , P0. 3 C ( a2 ) = P0. 3 C ( a3 ) = { a2,a3 } , P0. 3 C ( a6 ) = { a6 } , P0. 3 C ( a9 ) = { a9,a12 } , P0. 3 C ( a12 ) = { a1,a9,a12 } . 上述实例中,联系度容差关系没有考虑属性权 重,而且由于阈值的限制,不为“* ”的属性数目在 C 中所占比例在[0. 3,0. 51) 区间的对象被预先删 除,从而使满足不小于阈值 α2 = 0. 3 要求的联系度 容差类不完整. 例如: 根据不小于阈值 α2 = 0. 3 的 要求,a7 应该被包含在 a9 的联系度容差类中,但是 由于 a7 根据小于阈值 α1 = 0. 51 的要求已被删除, 因而 a9 的联系度容差类不完整. 在 τ 限制容差关系下,当阈值 τ = 0. 3 时,对于 属性子集 C,所有属性值都对应一致( 明确相同或同 为“* ”) 的两对象同属一类,取值明确相同的属性 比例不小于 0. 3 且无明确不相同属性值的两对象也 同属一类. IL0. 3 C ( a1 ) = { a1,a12 } , IL0. 3 C ( a2 ) = IL0. 3 C ( a3 ) = { a2,a3 } , IL0. 3 C ( a4 ) = IL0. 3 C ( a5 ) = { a4,a5 } , IL0. 3 C ( a6 ) = { a6 } , IL0. 3 C ( a7 ) = { a7,a9 } , IL0. 3 C ( a8 ) = { a8 } , IL0. 3 C ( a9 ) = { a7,a9,a12 } , IL0. 3 C ( a10 ) = { a10 } , IL0. 3 C ( a11 ) = { a11 } , IL0. 3 C ( a12 ) = { a1,a9,a12 } . 从上述实例可知: τ 限制容差关系也没有考虑 属性权重. 在该例中,属性子集 C 中全部属性为 “* ”的对象没有出现. 如果有,则无论 τ 如何取值, ·599·
·600* 北京科技大学学报 第34卷 都有可能将全部属性值为“*”而实际没有相同属 糙集理论进一步应用于实际有着非常重要的意义 性值的对象误判在同一类中. 本文在深入分析几种主要粗糙集扩充模型的基础 在加权阈值容差关系下,取阈值w=0.3时,对 上,提出了基于加权阈值容差关系的粗糙集扩充模 象a1o不为“*”的属性权重和为∑0(b)= 型,在同时考虑属性权重和阈值的情况下确定加权 bePc(a1o) 阈值容差类.该模型是对容差关系、限制容差关系、 w(c)=0.28<w,不可能再与其他任何对象同属于 联系度容差关系和?限制容差关系的改进和推广, 一个类中,独自属于一个加权阈值容差类,即 [ao]Ta》={ao},ao被从论域U中排除.剩余各 适应性更强.属性权重基于不完备信息系统的信息 量确定,不需引入系统外知识,比较客观,而阈值ω 对象的加权阈值容差类分别为 [a]er=(a,an,anl, 的引入又兼顾了人的主观要求,可以根据具体问题 a]Ta》=a]Ta》={a2,a}, 来调整ω的取值,以取得更好的应用效果.该模型 a4]Ta》=a]Ta》={a4,a5,a1,a}, 还能预先排除因自身不满足阈值要求而不可能与任 []Ta》-{as}, 何其他对象判定为同一类的对象,但不影响加权阈 [a,]Ta.》={a,ag}, 值容差类的完整性,且能保证加权阈值容差类的自 [a]Ta》={ag}, 反性和对称性.实例对比分析表明,与其他几种主 要模型相比,本文提出的粗糙集扩充模型具有更强 [,]Ta》={aaaa2}, 的适应能力 [an]Ta》={a1,a4,a5,g,a1,a2}, [an]=(aaasaan,a). 参考文献 与联系度容差关系和?限制容差关系相比,加 [1]Pawlak Z.Rough sets.Int J Comput Inf Sci,1982,11(5):341 权阈值容差关系不仅考虑了属性的权重,而且可以 2]Pawlak Z.Al and intelligent industrial applications:the rough set 将不满足加权阈值条件的对象预先排除,但不影响 perspective.Cybern Syst,2000,31(3):227 类的完整性,类的判定更为合理.下面以几个对象 B]Xie G,Zhang J L.Group decision-making for risk avoidance in 为例说明. sofware project bidding based on VPRS.Chin J Manage Sci, 2006,14(2):71 (1)a1o只有属性c1具有明确值,不为“*”的 (谢刚,张金隆.基于VPRS的软件项目投标风险规避群决策 属性权重和即为属性c1的权重0.28,小于阈值w= 研究.中国管理科学,2006,14(2):71) 0.3,根据定理2可知,应该被预先排除,独自属于一 4 Hirano S,Tsumoto S.Segmentation of medical images based on 个加权阈值容差类. approximations in rough set theory Proceedings of the Third In- (2)a1只有属性C2具有明确值,不为“*”的 ternational Conference on Rough Sets and Current Trends in Compu- 属性权重和即为属性2的权重0.32,大于阈值w= ting.Malvern,2002:554 5 0.3,根据定理2不应该被预先排除,最终结果是其 Song X Y,Liu F,Sun H L Autonomous threshold selection based on rough set theory in clustering algorithm.Syst Eng Electron, 被判定为分别属于a1,a4,a5,ag,a1和a2的加权阈 2010,32(1):192 值容差类中 (宋晓宇,刘锋,孙焕良.基于粗糙集的聚类算法中阈值自动选 (3)a,的加权阈值容差类为{a,ag,a1,a2}, 取.系统工程与电子技术,2010,32(1):192) 与其r限制容差类{a,ag,a2}相比多a1,这是因为 6] Wojcik Z M.Detecting spot s for NASA space programs using 虽然a,和a,只有属性c2取值明确相同,但是由于 rough sets /Proceedings of the Second International Conference on c2的权重较大,w(c2)=0.32,大于阈值w=0.3,所 Rough Sets and Current Trends in Computing.Banff,2000:531 [7]Wang G Y,Yao YY,Yu H.A survey on rough set theory and ap- 以a,被判定在ag的加权阈值容差类中.ag的加权 plications.Chin JComput,2009.32(7):1229 阈值容差类与其联系度容差类{a,a12}相比多a, (王国胤,姚一豫,于洪.粗糙集理论与应用研究综述.计算机 和a11,这不仅是由于属性权重的影响,还因为a,和 学报,2009,32(7):1229) a1由于阈值a1=0.51的限制在联系度容差类中已 8 Wang G Y,Guan L H,Hu F.Rough set extensions in incomplete 经被预先删除了,联系度容差类{ag,a12}是不完整 information systems.Front Electr Electron Eng China,2008,3 的.显而易见,与联系度容差类和T限制容差类相 (4):399 ] 比,αg的加权阈值容差类更完整,更合理. Kryszkiewicz M.Rough set approach to incomplete information system.Inf Sci,1998,112(1-4):39 4结论 [10]Stefanowski J,Tsoukiis A.On the extension of rough sets under incomplete information /Proceedings of the Seventh International 粗糙集模型在不完备信息系统的扩充,对于粗 Workshop on New Directions in Rough Sets,Data Mining,and
北 京 科 技 大 学 学 报 第 34 卷 都有可能将全部属性值为“* ”而实际没有相同属 性值的对象误判在同一类中. 在加权阈值容差关系下,取阈值 ω = 0. 3 时,对 象 a10不为“* ”的属性权重和为 b∈ ∑PC( a10) w ( b) = w( c1 ) = 0. 28 < ω,不可能再与其他任何对象同属于 一个 类 中,独自属于一个加权阈值容差类,即 [a10]WT( 0. 3) C = { a10 } ,a10被从论域 U 中排除. 剩余各 对象的加权阈值容差类分别为 [a1]WT( 0. 3) C = { a1,a11,a12 } , [a2]WT( 0. 3) C =[a3]WT( 0. 3) C = { a2,a3 } , [a4]WT( 0. 3) C =[a5]WT( 0. 3) C = { a4,a5,a11,a12 } , [a6]WT( 0. 3) C = { a6 } , [a7]WT( 0. 3) C = { a7,a9 } , [a8]WT( 0. 3) C = { a8 } , [a9]WT( 0. 3) C = { a7,a9,a11,a12 } , [a11]WT( 0. 3) C = { a1,a4,a5,a9,a11,a12 } , [a12]WT( 0. 3) C = { a1,a4,a5,a9,a11,a12 } . 与联系度容差关系和 τ 限制容差关系相比,加 权阈值容差关系不仅考虑了属性的权重,而且可以 将不满足加权阈值条件的对象预先排除,但不影响 类的完整性,类的判定更为合理. 下面以几个对象 为例说明. ( 1) a10只有属性 c1 具有明确值,不为“* ”的 属性权重和即为属性 c1 的权重 0. 28,小于阈值 ω = 0. 3,根据定理 2 可知,应该被预先排除,独自属于一 个加权阈值容差类. ( 2) a11只有属性 c2 具有明确值,不为“* ”的 属性权重和即为属性 c2 的权重 0. 32,大于阈值 ω = 0. 3,根据定理 2 不应该被预先排除,最终结果是其 被判定为分别属于 a1,a4,a5,a9,a11和 a12的加权阈 值容差类中. ( 3) a9 的加权阈值容差类为{ a7,a9,a11,a12 } , 与其 τ 限制容差类{ a7,a9,a12 } 相比多 a11,这是因为 虽然 a11和 a9 只有属性 c2 取值明确相同,但是由于 c2 的权重较大,w( c2 ) = 0. 32,大于阈值 ω = 0. 3,所 以 a11被判定在 a9 的加权阈值容差类中. a9 的加权 阈值容差类与其联系度容差类{ a9,a12 } 相比多 a7 和 a11,这不仅是由于属性权重的影响,还因为 a7 和 a11由于阈值 α1 = 0. 51 的限制在联系度容差类中已 经被预先删除了,联系度容差类{ a9,a12 } 是不完整 的. 显而易见,与联系度容差类和 τ 限制容差类相 比,a9 的加权阈值容差类更完整,更合理. 4 结论 粗糙集模型在不完备信息系统的扩充,对于粗 糙集理论进一步应用于实际有着非常重要的意义. 本文在深入分析几种主要粗糙集扩充模型的基础 上,提出了基于加权阈值容差关系的粗糙集扩充模 型,在同时考虑属性权重和阈值的情况下确定加权 阈值容差类. 该模型是对容差关系、限制容差关系、 联系度容差关系和 τ 限制容差关系的改进和推广, 适应性更强. 属性权重基于不完备信息系统的信息 量确定,不需引入系统外知识,比较客观,而阈值 ω 的引入又兼顾了人的主观要求,可以根据具体问题 来调整 ω 的取值,以取得更好的应用效果. 该模型 还能预先排除因自身不满足阈值要求而不可能与任 何其他对象判定为同一类的对象,但不影响加权阈 值容差类的完整性,且能保证加权阈值容差类的自 反性和对称性. 实例对比分析表明,与其他几种主 要模型相比,本文提出的粗糙集扩充模型具有更强 的适应能力. 参 考 文 献 [1] Pawlak Z. Rough sets. Int J Comput Inf Sci,1982,11( 5) : 341 [2] Pawlak Z. AI and intelligent industrial applications: the rough set perspective. Cybern Syst,2000,31( 3) : 227 [3] Xie G,Zhang J L. Group decision-making for risk avoidance in software project bidding based on VPRS. Chin J Manage Sci, 2006,14( 2) : 71 ( 谢刚,张金隆. 基于 VPRS 的软件项目投标风险规避群决策 研究. 中国管理科学,2006,14( 2) : 71) [4] Hirano S,Tsumoto S. Segmentation of medical images based on approximations in rough set theory / / Proceedings of the Third International Conference on Rough Sets and Current Trends in Computing. Malvern,2002: 554 [5] Song X Y,Liu F,Sun H L. Autonomous threshold selection based on rough set theory in clustering algorithm. Syst Eng Electron, 2010,32( 1) : 192 ( 宋晓宇,刘锋,孙焕良. 基于粗糙集的聚类算法中阈值自动选 取. 系统工程与电子技术,2010,32( 1) : 192) [6] Wojcik Z M. Detecting spot s for NASA space programs using rough sets / / Proceedings of the Second International Conference on Rough Sets and Current Trends in Computing. Banff,2000: 531 [7] Wang G Y,Yao Y Y,Yu H. A survey on rough set theory and applications. Chin J Comput,2009,32( 7) : 1229 ( 王国胤,姚一豫,于洪. 粗糙集理论与应用研究综述. 计算机 学报,2009,32( 7) : 1229) [8] Wang G Y,Guan L H,Hu F. Rough set extensions in incomplete information systems. Front Electr Electron Eng China,2008,3 ( 4) : 399 [9] Kryszkiewicz M. Rough set approach to incomplete information system. Inf Sci,1998,112( 1--4) : 39 [10] Stefanowski J,Tsoukis A. On the extension of rough sets under incomplete information / / Proceedings of the Seventh International Workshop on New Directions in Rough Sets,Data Mining,and ·600·
第5期 武森等:基于加权阔值容差关系的不完备信息系统粗糙集模型 ·601· Granular-Soft Computing.Yamaguchi,1999:73 [14]Rady E A,Abd El-Monsef MM E,Abd El-Latif W A.A modi- [11]Stefanowski J,Tsoukias A.Incomplete information tables and fied rough set approach to incomplete information systems.J Appl rough classification.Comput Intell,2001,17(3):545 Math Decis Sci,2007,10:1155 [12]Wang G Y.Extension of rough set under incomplete information [15]Qu B B,Lu YS.Rough set model based on limited non-symmet- systems.Comput Res Der,2002,39(10):1238 ric similarity relation.J Chin Comput Syst,2007,28(6):1084 (王国胤.Rough集理论在不完备信息系统中的扩充.计算机 (瞿彬彬,卢炎生.基于限制非对称相似关系的粗糙集模型. 研究与发展,2002,39(10):1238) 小型微型计算机系统,2007,28(6):1084) [13]Huang B,Zhou X Z.Extension of rough set model based on con- [16]Liang M L.Liang JR,Li TZ,et al.Extension of rough set un- nection degree under in complete information systems.Syst Eng der incomplete information system based on r limited tolerance re- 7 heory Pract,2004,24(1):88 lation.Comput Eng Appl,2007,43(31)53 (黄兵,周献中.不完备信息系统中基于联系度的粗集模型拓 (粱美莲,梁家荣,李天志,等.基于?限制容差关系的不完备 展.系统工程理论与实践,2004,24(1):88) 信息粗糙集模型.计算机工程与应用,2007,43(31):53)
第 5 期 武 森等: 基于加权阈值容差关系的不完备信息系统粗糙集模型 Granular-Soft Computing. Yamaguchi,1999: 73 [11] Stefanowski J,Tsoukiàs A. Incomplete information tables and rough classification. Comput Intell,2001,17( 3) : 545 [12] Wang G Y. Extension of rough set under incomplete information systems. J Comput Res Dev,2002,39( 10) : 1238 ( 王国胤. Rough 集理论在不完备信息系统中的扩充. 计算机 研究与发展,2002,39( 10) : 1238) [13] Huang B,Zhou X Z. Extension of rough set model based on connection degree under in complete information systems. Syst Eng Theory Pract,2004,24( 1) : 88 ( 黄兵,周献中. 不完备信息系统中基于联系度的粗集模型拓 展. 系统工程理论与实践,2004,24( 1) : 88) [14] Rady E A,Abd El-Monsef M M E,Abd El-Latif W A. A modified rough set approach to incomplete information systems. J Appl Math Decis Sci,2007,10: 1155 [15] Qu B B,Lu Y S. Rough set model based on limited non-symmetric similarity relation. J Chin Comput Syst,2007,28( 6) : 1084 ( 瞿彬彬,卢炎生. 基于限制非对称相似关系的粗糙集模型. 小型微型计算机系统,2007,28( 6) : 1084) [16] Liang M L,Liang J R,Li T Z,et al. Extension of rough set under incomplete information system based on τ limited tolerance relation. Comput Eng Appl,2007,43( 31) : 53 ( 梁美莲,梁家荣,李天志,等. 基于 τ 限制容差关系的不完备 信息粗糙集模型. 计算机工程与应用,2007,43( 31) : 53) ·601·