正在加载图片...
第3期 冯丹,等:连续型数据的辨识矩阵属性约简方法 ·373· 而POSg(D)CPOS,(D)显然成立,因此POSB(D)= 表1病例决策信息表 P0S,(D)。 Table 1 Decision information for cases 另设x,x∈POS4(D)且[x:]。∩[x]。=☑,则 序号 a 存在X,X,∈U/D(X。≠X)使得8(x:)≤X。=[x:]D 0.66 0.45 0.20 0.82 和8(x)CX1=[x]0。由于x4(x:)→x X2 0.47 0.30 0.06 0.65 1 6(x:),所以6(x:)CX。,从而x:∈POSg(D)。于是 X3 0.05 0.80 0.40 0.10 2 POS(D)CPOS(D),而POSB(D)CPOS,(D)是显 0.35 0.51 0.00 0.52 2 然成立的,因此POS(D)=POS4(D)。综上所述,结 0.31 0.20 0.15 0.70 论成立。 根据定理1可以定义如下的辨识矩阵。 0.00 1.00 0.20 0.00 2 定义3设(U,A,F,D={d})为决策表,U= 取£=0.25,根据定义1和定义2,计算关系矩阵 {x1,x2,…,xn},A={a1,a2,am},令 N,(i≤4)、N,以及决策关系矩阵N。分别为 DIS =(x,)x;EPOS,(D),;POS,(D)A 110000 110110 111111 d(x:)≠d(x)}U{(x,x)lx,x∈ 110110 110110 110111 P0S,(D)A[x:]。∩[x]。= 001001 001001 101011 N,= ,N3= 则称DIS为决策表(U,A,F,D)的可辨识域。对于 010110 ,N2= 110100 110111 任意的样本对(x:,x)eDIS,记 010110 110010 111111 {a∈A:年δn(x:)},(x:,x)∈DIS 001001 001001] 111111 DM(i,j)= 110010 110000 110010 (A,(x,x)生DIS 110110 110110 110010 则称DM(i,j)为x,x的辩识集合,称DM为基于 001001 001001 001101 邻域关系的辨识矩阵。 N .NA= ,N= 010110 010100 001101 定理2设DM为决策表(U,A,F,D={d})的 110110 010010 110010 辨识矩阵,B二A,则B是决策表的一个约简的充要 001001 001001 001101」 条件是:B满足B∩DM(i,j)≠☑,Hx:,x∈U的最 说明N4¢N。由以上计算知,POS(D)={x1,x, 小子集。 x5,x6}。根据定义3,得到辨识矩阵如表2所示。 定理2说明通过辨识矩阵可以等价地刻画决策 表2病例决策信息表的辨识矩阵 表的属性约简。下面给出决策表的属性约简的辨 Table 2 Discernibility matrix of case decisions 识公式。通过析取和合取运算可以获得决策表的 序号 X2 全部约简。 a1,a2,a4a1,a4 1,a2,a4 定义4设DM为决策表(U,A,F,D)的辨识 矩阵,U={x1,x2,…,xn},辨识函数定义为 A y A f(U,A,F,D)=A (V DM(i,j)) x3 a1,a2,d4 A A a1,2,a4 A i.i=1 定理3设f(U,A,F,D)为决策表(U,A,F,D) A A A 的辨识函数,如果通过析取和合取运算,有 A A a1,a2,a4 a1,a2,a4 f(U,A,F,D)=V (A B) x6a1,a2,a4a1,a2,a4 A A a,a,aa A k=1 式中:B,CA,且B中每个属性只能出现一次。则称 所以,可得决策表的辨识函数为 {B:k≤}是A的所有约简组成的集类。 f=(a Va)A(a VaVa)Aa2= A的所有约简组成的集类记为RED,(A)={B: (a1∧a2)V(a2Aa4) k≤}。 因此{a1,a2}和{a2,a4}是病例决策表的两个 下面通过一个具体的实例来说明应用辨识矩 约简。 阵方法如何求解邻域决策表的属性约简。 2属性约简算法 例1表1是具有4种症状a1、a2、a3、a4的某 些病例信息,具体描述如表1所示。 经典粗糙集算法是以等价关系作为聚类标准而 POSB(D)⊆POSA(D)显然成立,因此 POSB(D)= POSA(D)。 另设 xi,xj∈POSA (D) 且[xi] D∩[xj] D = ∅,则 存在 X0 ,X1∈U/ D X0≠X1 ( ) 使得 δA(xi)⊆X0 = [xi] D 和 δA ( xj ) ⊆ X1 = [xj] D。 由于 xj ∉ δA ( xi ) ⇒ xj ∉ δB(xi),所以 δB(xi)⊆X0 ,从而 xi∈POSB(D)。 于是 POSA(D) ⊆POSB(D),而 POSB(D)⊆POSA(D)是显 然成立的,因此 POSB(D)= POSA(D)。 综上所述,结 论成立。 根据定理 1 可以定义如下的辨识矩阵。 定义 3 设(U,A,F,D = { d}) 为决策表,U = {x1 ,x2 ,…,xn },A = {a1 ,a2 ,…am },令 DIS = {(xi,xj) xi ∈POSA(D),xj ∉ POSA(D) ∧ d(xi) ≠ d(xj)} ∪ {(xi,xj) xi,xj ∈ POSA(D) ∧ [xi] D ∩ [xj] D = ∅} 则称 DIS 为决策表(U,A,F,D) 的可辨识域。 对于 任意的样本对(xi,xj)∈DIS,记 DM(i, j) = {al ∈ A:xj ∉ δal (xi)}, (xi,xj) ∈ DIS A, (xi,xj) ∉ DIS { 则称 DM(i, j)为 xi,xj 的辩识集合,称 DM 为基于 邻域关系的辨识矩阵。 定理 2 设 DM 为决策表(U,A,F,D = {d})的 辨识矩阵,B⊆A,则 B 是决策表的一个约简的充要 条件是:B 满足 B∩DM(i,j)≠∅,∀xi,xj∈U 的最 小子集。 定理 2 说明通过辨识矩阵可以等价地刻画决策 表的属性约简。 下面给出决策表的属性约简的辨 识公式。 通过析取和合取运算可以获得决策表的 全部约简。 定义 4 设 DM 为决策表(U,A,F,D) 的辨识 矩阵,U= {x1 ,x2 ,…,xn },辨识函数定义为 f(U,A,F,D) = ∧ n i,j = 1 (∨ DM(i,j)) 定理 3 设 f(U,A,F,D)为决策表(U,A,F,D) 的辨识函数,如果通过析取和合取运算,有 f(U,A,F,D) =∨ l k = 1 (∧ Bk) 式中:Bk⊆A,且 Bk 中每个属性只能出现一次。 则称 {Bk:k≤l}是 A 的所有约简组成的集类。 A 的所有约简组成的集类记为REDD(A)= {Bk: k≤l}。 下面通过一个具体的实例来说明应用辨识矩 阵方法如何求解邻域决策表的属性约简。 例 1 表 1 是具有 4 种症状 a1 、a2 、a3 、a4 的某 些病例信息,具体描述如表 1 所示。 表 1 病例决策信息表 Table 1 Decision information for cases 序号 a1 a2 a3 a4 D x1 0.66 0.45 0.20 0.82 1 x2 0.47 0.30 0.06 0.65 1 x3 0.05 0.80 0.40 0.10 2 x4 0.35 0.51 0.00 0.52 2 x5 0.31 0.20 0.15 0.70 1 x6 0.00 1.00 0.20 0.00 2 取 ε = 0.25,根据定义 1 和定义 2,计算关系矩阵 Nl(i≤4)、NA 以及决策关系矩阵 ND 分别为 N1 = 110000 110110 001001 010110 010110 001001 é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ,N2 = 110110 110110 001001 110100 110010 001001 é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ,N3 = 111111 110111 101011 110111 111111 111111 é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú N4 = 110010 110110 001001 010110 110110 001001 é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ,NA = 110000 110110 001001 010100 010010 001001 é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú ,ND = 110010 110010 001101 001101 110010 001101 é ë ê ê ê ê ê ê ê ê ù û ú ú ú ú ú ú ú ú 说明 NA⊄ND。 由以上计算知,POSA(D)= {x1 ,x3 , x5 ,x6 }。 根据定义 3,得到辨识矩阵如表 2 所示。 表 2 病例决策信息表的辨识矩阵 Table 2 Discernibility matrix of case decisions 序号 x1 x2 x3 x4 x5 x6 x1 A A a1,a2,a4 a1,a4 A a1,a2,a4 x2 A A A A A A x3 a1,a2,a4 A A A a1,a2,a4 A x4 A A A A A A x5 A A a1,a2,a4 A A a1,a2,a4 x6 a1,a2,a4 a1,a2,a4 A A a1,a2,a4 A 所以,可得决策表的辨识函数为 f = (a1 ∨ a4 ) ∧ (a1 ∨ a2 ∨ a4 ) ∧ a2 = (a1 ∧ a2 ) ∨ (a2 ∧ a4 ) 因此{ a1 ,a2 } 和{ a2 ,a4 } 是病例决策表的两个 约简。 2 属性约简算法 经典粗糙集算法是以等价关系作为聚类标准 第 3 期 冯丹,等:连续型数据的辨识矩阵属性约简方法 ·373·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有