正在加载图片...
第4期 钱进,等:面向成组对象集的增量式属性约简算法 .497. 策表中,一般不希望将原有的决策表和新产生的增 IND(R)表示,简记为U/R。U/R中的任何元素 量数据整合成一个新的决策表进行属性约简,因为 [x]R={ylHa∈R,f(x,a)=f(y,a)}称为等价 这样会对原有数据不断地进行重复的计算。因此, 类。不失一般性,假设决策表$仅有一个决策属性 如何利用原决策表中所含的信息并结合增量数据来 D={d},其决策属性值映射为1,2,…,k,由D导 进行属性约简成为粗糙集理论新的挑战。 出的U上划分记为U/D={D,D2,…,D},其 数据的动态变化主要有3种情况:1)属性集保 中,D={x∈Ulf(x,D)=i},i=1,2,…,k。 持不变而对象不断增加5$】:2)对象集保持不变而 定义2在决策表S=〈U,CUD,V)中,对 属性集不断增加:3)对象集和属性集同时增 于每个决策类D:∈U/D和不可区分关系ACC,D: 加。本文着重研究第1种情况的增量式属性约 的下近似集与上近似集分别可以由A的基本集定义 简问题,尤其研究适合大规模数据集的约简问题。 如下: 文献[5]提出了基于正区域的属性约简增量式更新 apra(D:)=UxUI [x]D 算法,提高了属性约简算法效率;文献[6]提出了基 apr(D:)=U{x∈U1[x]A∩D:≠☑} 于差别矩阵的属性约简增量式更新算法;文献[7] 定义3在决策表S=〈U,C,D,V)中, 提出了不使用可辨识矩阵的增量式核更新算法以及 HACC,正区域POS,(D)和边界域BND,(D)定 属性约简算法;文献[8]针对现有增量式属性约简 义为 算法中存在的约简传承性差以及不完备现象,提出 PoS,(D)=apr(D.) 了基于标记可辨识矩阵的增量式属性约简算法。然 而,这些算法不适宜解决每次增加批量对象的问题。 BND(D)=U (apr(D:)apr(D))= 文献[11]提出了面向成组对象集的3种增量式信 U-POS (D) 息嫡属性约简算法:文献[12]充分利用先前约简中 定义4 在决策表S中,一个属性集Red C 信息和计数排序算法快速更新批量对象的约简,降 是C的D-约简,如果 低计算复杂度;文献[13-14]探讨了混合属性约简 1)POSRed(D)=POSc(D); 算法以及利用MapReduce进行面向大规模数据集 2)Ha∈Red,POSRed-lai(D)≠POSR(D)。 的属性约简方法。 定义5在决策表S中,ACC,Hc∈A,在正 为提高增量式学习算法效率5]和约简传承性, 区域下属性c重要性定义为 本文构建了面向成组对象的增量式属性约简算法, Sigi(c,A,D)=Y(D)-YA-ic(D) 利用原始决策表的一个候选约简来快速地更新新增 I POS (D)I 式中:ya(D)= 决策表的约简,这样既提高了约简的传承性,又有效 U川 地利用了原有知识,提高了增量式学习算法效率。 定义6在决策表S中,A二C,Hc∈C-A, 在正区域下属性c重要性定义为 1粗糙集概念 Sig"(c,A,D)=YAul(D)-Y(D) 下面简要介绍本文主要用到的一些Rough集的 定义7设Red为决策表S的候选属性约简, 基本概念1,9,,1-14 NewRed为新增样本之后的新约简,则单次增量式 定义1四元组S=〈U,CUD,V,f是一个决 约简的传承率(inheritance rate,IR)定义为 策表,其中U={x1,x2,…,xn}表示对象的非空有限 IRed∩NewRed I IR = min(I Red I,I NewRed I) 集合,称为论域:C表示条件属性的非空有限集,D 假设进行了地次增量式约简,则平均传承率 表示决策属性的非空有限集,C∩D=☑;V=U acCUD (inheritance rate average,IRA)定义为 V。,V。是属性a的值域;f:U×(CUD)→V是一个 IR 信息函数,它为每个对象赋予一个信息值,即Ha∈ IRA= CUD,x∈U,有fx,a)∈'。;每一个属性子集 在约简过程中,传承率越高则约简集的变化越 R二CUD决定了一个二元不可区分关系 小,对原始规则集的影响将越小。如果传承率为1, IND(R): 说明新增的对象不影响原始的规则集:如果传承率 IND(R)= 为0,则新的约简集与原来的约简集完全不同,这时 {(x,y)∈U×U|a∈Rf(x,a)=fy,a)} 需全部更新所有规则。 关系IND(R)构成了U的一个划分,用U/策表中,一般不希望将原有的决策表和新产生的增 量数据整合成一个新的决策表进行属性约简,因为 这样会对原有数据不断地进行重复的计算。 因此, 如何利用原决策表中所含的信息并结合增量数据来 进行属性约简成为粗糙集理论新的挑战。 数据的动态变化主要有 3 种情况:1)属性集保 持不变而对象不断增加[5-8 ] ;2)对象集保持不变而 属性集不断增加[9] ; 3) 对象集和属性集同时增 加[10] 。 本文着重研究第 1 种情况的增量式属性约 简问题,尤其研究适合大规模数据集的约简问题。 文献[5]提出了基于正区域的属性约简增量式更新 算法,提高了属性约简算法效率;文献[6]提出了基 于差别矩阵的属性约简增量式更新算法;文献[7] 提出了不使用可辨识矩阵的增量式核更新算法以及 属性约简算法;文献[8]针对现有增量式属性约简 算法中存在的约简传承性差以及不完备现象,提出 了基于标记可辨识矩阵的增量式属性约简算法。 然 而,这些算法不适宜解决每次增加批量对象的问题。 文献[11]提出了面向成组对象集的 3 种增量式信 息熵属性约简算法;文献[12]充分利用先前约简中 信息和计数排序算法快速更新批量对象的约简,降 低计算复杂度;文献[13-14]探讨了混合属性约简 算法以及利用 MapReduce 进行面向大规模数据集 的属性约简方法。 为提高增量式学习算法效率[15] 和约简传承性, 本文构建了面向成组对象的增量式属性约简算法, 利用原始决策表的一个候选约简来快速地更新新增 决策表的约简,这样既提高了约简的传承性,又有效 地利用了原有知识,提高了增量式学习算法效率。 1 粗糙集概念 下面简要介绍本文主要用到的一些 Rough 集的 基本概念[1,9,11,13-14] 。 定义 1 四元组 S = 􀎮U,C ∪ D,V,f􀎯 是一个决 策表,其中 U = {x1 ,x2 ,…,xn }表示对象的非空有限 集合,称为论域; C 表示条件属性的非空有限集, D 表示决策属性的非空有限集, C ∩ D = ⌀ ; V = ∪a∈C∪D Va , Va 是属性 a 的值域; f:U × (C ∪ D) → V 是一个 信息函数,它为每个对象赋予一个信息值,即 ∀a ∈ C ∪ D , x ∈ U ,有 f(x, a) ∈ Va ;每一个属性子集 R ⊆ C ∪ D 决 定 了 一 个 二 元 不 可 区 分 关 系 IND(R) : IND(R) = {(x,y) ∈ U × U | ∀a ∈ R,f(x,a) = f(y,a)} 关系 IND( R ) 构成了 U 的一个划分, 用 U / IND( R ) 表示, 简记为 U/ R 。 U/ R 中的任何元素 [x] R = { y | ∀a ∈ R , f(x,a) = f(y,a) }称为等价 类。 不失一般性, 假设决策表 S 仅有一个决策属性 D = {d}, 其决策属性值映射为 1, 2,…, k ,由 D 导 出的 U 上划分记为 U/ D = { D1 , D2 , …,Dk },其 中, Di = { x ∈ U | f(x,D) = i }, i = 1, 2, …, k。 定义 2 在决策表 S = 􀎮U,C ∪ D,V,f􀎯 中,对 于每个决策类 Di ∈ U/ D 和不可区分关系 A ⊆ C, Di 的下近似集与上近似集分别可以由 A 的基本集定义 如下: aprA(Di) =∪ {x ∈ U | [x] A ⊆ Di} aprA(Di) =∪ {x ∈ U | [x] A ∩ Di ≠ ⌀} 定 义 3 在 决 策 表 S = 􀎮U,C,D,V,f􀎯 中, ∀A ⊆C, 正区域 POSA(D) 和边界域 BNDA(D) 定 义为 POSA(D) = ∪1≤i≤k aprA(Di) BNDA(D) = ∪1≤i≤k (aprA(Di) - aprA(Di)) = U - POSA(D) 定义 4 在决策表 S 中,一个属性集 Red ⊆ C 是 C 的 D⁃ 约简, 如果 1) POSRed(D) = POSC(D) ; 2) ∀a ∈ Red , POSRed-{a}(D) ≠ POSRed(D) 。 定义 5 在决策表 S 中, A⊆C , ∀c∈A ,在正 区域下属性 c 重要性定义为 Sig inner (c,A,D) = γA(D) – γA-{c}(D) 式中: γA(D) = | POSA(D) | U 。 定义 6 在决策表 S 中, A ⊆ C , ∀c ∈ C - A , 在正区域下属性 c 重要性定义为 Sig outer (c,A,D) = γA∪{c}(D) – γA(D) 定义 7 设Red为决策表 S 的候选属性约简, NewRed 为新增样本之后的新约简,则单次增量式 约简的传承率(inheritance rate, IR)定义为 IR = | Red ∩ NewRed | min(| Red | , | NewRed | ) 假设进行了 w 次增量式约简,则平均传承率 (inheritance rate average,IRA)定义为 IRA = ∑ w i = 1 IRi w 在约简过程中,传承率越高则约简集的变化越 小,对原始规则集的影响将越小。 如果传承率为 1, 说明新增的对象不影响原始的规则集;如果传承率 为 0,则新的约简集与原来的约简集完全不同,这时 需全部更新所有规则。 第 4 期 钱进,等:面向成组对象集的增量式属性约简算法 ·497·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有