策表中，一般不希望将原有的决策表和新产生的增量数据整合成一个新的决策表进

正在加载图片...

第4期钱进，等：面向成组对象集的增量式属性约简算法 .497. 策表中，一般不希望将原有的决策表和新产生的增 IND(R)表示，简记为U/R。U/R中的任何元素量数据整合成一个新的决策表进行属性约简，因为 [x]R={ylHa∈R,f(x,a)=f(y,a)}称为等价这样会对原有数据不断地进行重复的计算。因此，类。不失一般性，假设决策表$仅有一个决策属性如何利用原决策表中所含的信息并结合增量数据来 D={d},其决策属性值映射为1,2，…，k,由D导进行属性约简成为粗糙集理论新的挑战。出的U上划分记为U/D={D,D2,…,D},其数据的动态变化主要有3种情况：1)属性集保中，D={x∈Ulf(x,D)=i},i=1,2,…,k。持不变而对象不断增加5$】：2)对象集保持不变而定义2在决策表S=〈U,CUD,V)中，对属性集不断增加：3)对象集和属性集同时增于每个决策类D:∈U/D和不可区分关系ACC,D: 加。本文着重研究第1种情况的增量式属性约的下近似集与上近似集分别可以由A的基本集定义简问题，尤其研究适合大规模数据集的约简问题。如下：文献[5]提出了基于正区域的属性约简增量式更新 apra(D:)=UxUI [x]D 算法，提高了属性约简算法效率；文献[6]提出了基 apr(D:)=U{x∈U1[x]A∩D:≠☑} 于差别矩阵的属性约简增量式更新算法；文献[7] 定义3在决策表S=〈U,C,D,V)中，提出了不使用可辨识矩阵的增量式核更新算法以及 HACC,正区域POS,(D)和边界域BND,(D)定属性约简算法；文献[8]针对现有增量式属性约简义为算法中存在的约简传承性差以及不完备现象，提出 PoS,(D)=apr(D.) 了基于标记可辨识矩阵的增量式属性约简算法。然而，这些算法不适宜解决每次增加批量对象的问题。 BND(D)=U (apr(D:)apr(D))= 文献[11]提出了面向成组对象集的3种增量式信 U-POS (D) 息嫡属性约简算法：文献[12]充分利用先前约简中定义4 在决策表S中，一个属性集Red C 信息和计数排序算法快速更新批量对象的约简，降是C的D-约简，如果低计算复杂度；文献[13-14]探讨了混合属性约简 1)POSRed(D)=POSc(D); 算法以及利用MapReduce进行面向大规模数据集 2)Ha∈Red,POSRed-lai(D)≠POSR(D)。的属性约简方法。定义5在决策表S中，ACC,Hc∈A,在正为提高增量式学习算法效率5]和约简传承性，区域下属性c重要性定义为本文构建了面向成组对象的增量式属性约简算法， Sigi(c,A,D)=Y(D)-YA-ic(D) 利用原始决策表的一个候选约简来快速地更新新增 I POS (D)I 式中：ya(D)= 决策表的约简，这样既提高了约简的传承性，又有效 U川地利用了原有知识，提高了增量式学习算法效率。定义6在决策表S中，A二C,Hc∈C-A, 在正区域下属性c重要性定义为 1粗糙集概念 Sig"(c,A,D)=YAul(D)-Y(D) 下面简要介绍本文主要用到的一些Rough集的定义7设Red为决策表S的候选属性约简，基本概念1,9，，1-14 NewRed为新增样本之后的新约简，则单次增量式定义1四元组S=〈U,CUD,V,f是一个决约简的传承率(inheritance rate,IR)定义为策表，其中U={x1,x2,…,xn}表示对象的非空有限 IRed∩NewRed I IR = min(I Red I,I NewRed I) 集合，称为论域：C表示条件属性的非空有限集，D 假设进行了地次增量式约简，则平均传承率表示决策属性的非空有限集，C∩D=☑；V=U acCUD (inheritance rate average,IRA)定义为 V。,V。是属性a的值域；f:U×(CUD)→V是一个 IR 信息函数，它为每个对象赋予一个信息值，即Ha∈ IRA= CUD,x∈U,有fx,a)∈'。；每一个属性子集在约简过程中，传承率越高则约简集的变化越 R二CUD决定了一个二元不可区分关系小，对原始规则集的影响将越小。如果传承率为1， IND(R): 说明新增的对象不影响原始的规则集：如果传承率 IND(R)= 为0，则新的约简集与原来的约简集完全不同，这时 {(x,y）∈U×U|a∈Rf(x,a)=fy,a)} 需全部更新所有规则。关系IND(R)构成了U的一个划分，用U/策表中，一般不希望将原有的决策表和新产生的增量数据整合成一个新的决策表进行属性约简，因为这样会对原有数据不断地进行重复的计算。因此，如何利用原决策表中所含的信息并结合增量数据来进行属性约简成为粗糙集理论新的挑战。数据的动态变化主要有３种情况：１）属性集保持不变而对象不断增加［５－８］；２）对象集保持不变而属性集不断增加［９］；３）对象集和属性集同时增加［１０］。本文着重研究第１种情况的增量式属性约简问题，尤其研究适合大规模数据集的约简问题。文献［５］提出了基于正区域的属性约简增量式更新算法，提高了属性约简算法效率；文献［６］提出了基于差别矩阵的属性约简增量式更新算法；文献［７］提出了不使用可辨识矩阵的增量式核更新算法以及属性约简算法；文献［８］针对现有增量式属性约简算法中存在的约简传承性差以及不完备现象，提出了基于标记可辨识矩阵的增量式属性约简算法。然而，这些算法不适宜解决每次增加批量对象的问题。文献［１１］提出了面向成组对象集的３种增量式信息熵属性约简算法；文献［１２］充分利用先前约简中信息和计数排序算法快速更新批量对象的约简，降低计算复杂度；文献［１３－１４］探讨了混合属性约简算法以及利用ＭａｐＲｅｄｕｃｅ进行面向大规模数据集的属性约简方法。为提高增量式学习算法效率［１５］和约简传承性，本文构建了面向成组对象的增量式属性约简算法，利用原始决策表的一个候选约简来快速地更新新增决策表的约简，这样既提高了约简的传承性，又有效地利用了原有知识，提高了增量式学习算法效率。１粗糙集概念下面简要介绍本文主要用到的一些Ｒｏｕｇｈ集的基本概念［１，９，１１，１３－１４］。定义１四元组Ｓ＝ 􀎮Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ􀎯 是一个决策表，其中Ｕ＝｛ｘ１，ｘ２，…，ｘｎ｝表示对象的非空有限集合，称为论域；Ｃ表示条件属性的非空有限集，Ｄ表示决策属性的非空有限集，Ｃ ∩ Ｄ＝ ⌀ ；Ｖ＝ ∪ａ∈Ｃ∪ＤＶａ，Ｖａ是属性ａ的值域；ｆ：Ｕ × （Ｃ ∪ Ｄ） → Ｖ是一个信息函数，它为每个对象赋予一个信息值，即 ∀ａ ∈ Ｃ ∪ Ｄ，ｘ ∈ Ｕ，有ｆ（ｘ，ａ） ∈ Ｖａ；每一个属性子集Ｒ ⊆ Ｃ ∪ Ｄ决定了一个二元不可区分关系ＩＮＤ（Ｒ）：ＩＮＤ（Ｒ）＝｛（ｘ，ｙ） ∈ Ｕ × Ｕ｜ ∀ａ ∈ Ｒ，ｆ（ｘ，ａ）＝ｆ（ｙ，ａ）｝关系ＩＮＤ（Ｒ）构成了Ｕ的一个划分，用Ｕ／ＩＮＤ（Ｒ）表示，简记为Ｕ／Ｒ。Ｕ／Ｒ中的任何元素［ｘ］Ｒ＝｛ｙ｜ ∀ａ ∈ Ｒ，ｆ（ｘ，ａ）＝ｆ（ｙ，ａ）｝称为等价类。不失一般性，假设决策表Ｓ仅有一个决策属性Ｄ＝｛ｄ｝，其决策属性值映射为１，２，…，ｋ，由Ｄ导出的Ｕ上划分记为Ｕ／Ｄ＝｛Ｄ１，Ｄ２， …，Ｄｋ｝，其中，Ｄｉ＝｛ｘ ∈ Ｕ｜ｆ（ｘ，Ｄ）＝ｉ｝，ｉ＝１，２， …，ｋ。定义２在决策表Ｓ＝ 􀎮Ｕ，Ｃ ∪ Ｄ，Ｖ，ｆ􀎯 中，对于每个决策类Ｄｉ ∈ Ｕ／Ｄ和不可区分关系Ａ ⊆ Ｃ，Ｄｉ的下近似集与上近似集分别可以由Ａ的基本集定义如下：ａｐｒＡ（Ｄｉ）＝∪ ｛ｘ ∈ Ｕ｜［ｘ］Ａ ⊆ Ｄｉ｝ａｐｒＡ（Ｄｉ）＝∪ ｛ｘ ∈ Ｕ｜［ｘ］Ａ ∩ Ｄｉ ≠ ⌀｝定义３在决策表Ｓ＝ 􀎮Ｕ，Ｃ，Ｄ，Ｖ，ｆ􀎯 中， ∀Ａ ⊆Ｃ，正区域ＰＯＳＡ（Ｄ）和边界域ＢＮＤＡ（Ｄ）定义为ＰＯＳＡ（Ｄ）＝ ∪１≤ｉ≤ｋａｐｒＡ（Ｄｉ）ＢＮＤＡ（Ｄ）＝ ∪１≤ｉ≤ｋ（ａｐｒＡ（Ｄｉ）－ａｐｒＡ（Ｄｉ））＝Ｕ－ＰＯＳＡ（Ｄ）定义４在决策表Ｓ中，一个属性集Ｒｅｄ ⊆ Ｃ是Ｃ的Ｄ⁃ 约简，如果１）ＰＯＳＲｅｄ（Ｄ）＝ＰＯＳＣ（Ｄ）；２） ∀ａ ∈ Ｒｅｄ，ＰＯＳＲｅｄ－｛ａ｝（Ｄ） ≠ ＰＯＳＲｅｄ（Ｄ）。定义５在决策表Ｓ中，Ａ⊆Ｃ， ∀ｃ∈Ａ，在正区域下属性ｃ重要性定义为Ｓｉｇｉｎｎｅｒ（ｃ，Ａ，Ｄ）＝ γＡ（Ｄ） – γＡ－｛ｃ｝（Ｄ）式中： γＡ（Ｄ）＝｜ＰＯＳＡ（Ｄ）｜Ｕ。定义６在决策表Ｓ中，Ａ ⊆ Ｃ， ∀ｃ ∈ Ｃ－Ａ，在正区域下属性ｃ重要性定义为Ｓｉｇｏｕｔｅｒ（ｃ，Ａ，Ｄ）＝ γＡ∪｛ｃ｝（Ｄ） – γＡ（Ｄ）定义７设Ｒｅｄ为决策表Ｓ的候选属性约简，ＮｅｗＲｅｄ为新增样本之后的新约简，则单次增量式约简的传承率（ｉｎｈｅｒｉｔａｎｃｅｒａｔｅ，ＩＲ）定义为ＩＲ＝｜Ｒｅｄ ∩ ＮｅｗＲｅｄ｜ｍｉｎ（｜Ｒｅｄ｜，｜ＮｅｗＲｅｄ｜）假设进行了ｗ次增量式约简，则平均传承率（ｉｎｈｅｒｉｔａｎｃｅｒａｔｅａｖｅｒａｇｅ，ＩＲＡ）定义为ＩＲＡ＝ ∑ ｗｉ＝１ＩＲｉｗ在约简过程中，传承率越高则约简集的变化越小，对原始规则集的影响将越小。如果传承率为１，说明新增的对象不影响原始的规则集；如果传承率为０，则新的约简集与原来的约简集完全不同，这时需全部更新所有规则。第４期钱进，等：面向成组对象集的增量式属性约简算法 ·４９７·

<<向上翻页向下翻页>>

点击下载：【知识工程】面向成组对象集的增量式属性约简算法