令ＴＣＳＩＩＤＳ为测试代价敏感决策系统， α Î［０，１］

正在加载图片...

第2期鞠恒荣，等：不完备信息系统中测试代价敏感的可变精度分类粗糙集 .221. 令TCSIIDS为测试代价敏感决策系统，ae[0, 2)red←-g 1],VACAT,aeA,a,的重要度为 3)Ha:eA7,计算属性a:的重要度TCSLSigin(a:, LSigin (ai,A,D)=y(A,a,D)-y(A-a;,a,D) ArD); 可以看出，LSign(a,B,D)反映了a,从当前条 4)TCSLSigin (a;,Ar,D)=max TCSISigin (a:, 件属性集A中删除后近似质量的变化，相应地也可 Ar,D):a:eA,},则red←-a,计算y(red,a,D): 定义 5)若y(ed,a,D)y(Az,a,D),则重复以下循 ISig(a;,A,D)=y(A U a;,a,D)-y(A,a,D) 环，否则转6)；式中：a,∈A,-A,LSig(a:,A,D)用以度量向属性集A ①Va,eA,-red,计算TCSLSig(a:,red,D); 增加属性α，后近似质量的变化。根据上述属性的重要 ②若TCSLSig,(a:,B,D)=max{TCSLSigou(a:, 度可以设计启发式属性约简算法。Min等在文献[11] B,D):a,∈A,-red},则red←-a:; 中设计了传统的启发式算法（记为算法1）。其算法复 6)a:∈red,若y(red-a:,a,D)=y(Ar,a,D), 14 杂度为0(1A,IU1+∑1U1(1A,1-i+1)。 red red-a:,tmp =c'(red); 7)c'(red)=minc'(red),tmp Min等从获取约简的测试代价最小出发设计出 8)若0大于给定阈值，则0=0-6（此处8为步新的约简算法，即回溯算法（记为算法2）。其算法长，6>0)且重复2)~7)，否则转9)：复杂度为0(2r-1)。详细算法见文献[11]。 9)输出red及c·(red)。 3.1考虑属性测试代价的启发式算法 3.2实验分析由上文可知回溯算法的时间复杂度为O(24- 本节将通过实验，对比算法1、算法2和算法 1)。考虑到现实生活中存在着大量高维属性的数据， 3。表1列出了实验中使用的4组测试数据的基本这样一种机制将会大大制约属性约简的时间。为解信息，所有数据集均下载于UCI数据集。由于UCI 决这一问题，本文依然从启发式算法的角度出发，将数据集中的大部分数据不含有测试代价，所以在本属性的测试代价考虑到属性重要度定义中。为此，给组实验中为每个数据集的属性随机增加了取值在出如下的属性融合重要度定义。 [10,100]之间的测试代价。 TCSLSigin(a:,Ar,D)= 表1实验数据基本信息 0.1×LSigi(a,A7,D)+0.9×(c·(a:))° Table 1 Data sets descriptions TCSLSig (a:,Ar,D)= Decision 0.1 xLSig.(a,A7,D)+0.9×(c(a))° Data ID Data sets Samples Attributes Classes 式中：0≤0。可以看出，TCSLSig..(a:,A7,D)是LSig 1 Bridges 108 12 1 2 Credit Approval 263 3 (a:,A,D)与(c(a:)”之和。当9=0时，无论属性 3 Heart-Disease 303 14 的测试代价取何值，都有TCSLSigin(a:,Ar,D)=0.1× 4 Hepatitis 155 19 2 LSig(a:,A,D)+1,这说明TCSLSig.(a:,A7,D)的大由于基于测试代价敏感的可变精度分类粗糙集小与属性测试代价的大小无关，仅与LSig.(a:,Ar, 模型的下、上近似集由阈值α控制，因此，在实验 D)的值有关。随着0值的不断减小，(c(a:))°的值中选取了10组不同的α值分别对比3个算法的测也不断减小（本文随机产生测试代价在[10,100]），试代价，在算法3的第8步中，给定阈值设为-5，此时(c(a:)°在TCSLSig.(a:,A7,D)中所占的比重步长δ为0.5，即重复求得10次约简，取其中的最也越来越小，表明属性测试代价在属性的重要度中小测试代价作为输出。具体的实验结果见图1。的影响作用越来越小。根据新的属性融合重要度， ×109 7 不难设计出综合考虑了测试代价的启发式算法，具算法1 6 算法2 体算法流程见算法1。 ★ 24 算法3 算法1基于测试代价敏感不完备决策系统 TCSIIDS综合考虑测试代价的启发式算法输入：测试代价敏感不完备决策系统TCSIIDS,a; 0 0.10.20.30.40.50.60.70.80.91.0 输出：约简red及约简的测试代价c·(red)。 1)计算y(4,a,D):令=0，c(d)=c(4): (a)Bridges令ＴＣＳＩＩＤＳ为测试代价敏感决策系统， α Î［０，１］， "Ａ ÍＡＴ， "ａｉÎＡ，ａｉ的重要度为ＬＳｉｇｉｎ（ａｉ，Ａ，Ｄ）＝ γ（Ａ， α，Ｄ） -γ（Ａ -ａｉ， α，Ｄ）可以看出，ＬＳｉｇｉｎ（ａｉ，Ｂ，Ｄ）反映了ａｉ从当前条件属性集Ａ中删除后近似质量的变化，相应地也可定义ＬＳｉｇｏｕｔ（ａｉ，Ａ，Ｄ）＝ γ（Ａ ∪ ａｉ， α，Ｄ） -γ（Ａ， α，Ｄ）式中：ａｉÎＡＴ -Ａ，ＬＳｉｇｏｕｔ（ａｉ，Ａ，Ｄ）用以度量向属性集Ａ增加属性ａｉ后近似质量的变化。根据上述属性的重要度可以设计启发式属性约简算法。Ｍｉｎ等在文献［１１］中设计了传统的启发式算法（记为算法１）。其算法复杂度为Ｏ（｜ＡＴ｜｜Ｕ｜＋∑ ｜ＡＴ｜ｉ＝１｜Ｕ｜（｜ＡＴ｜ -ｉ＋１））。Ｍｉｎ等从获取约简的测试代价最小出发设计出新的约简算法，即回溯算法（记为算法２）。其算法复杂度为Ｏ（２｜ＡＴ｜ -１）。详细算法见文献［１１］。３．１考虑属性测试代价的启发式算法由上文可知回溯算法的时间复杂度为Ｏ（２｜ＡＴ｜ - １）。考虑到现实生活中存在着大量高维属性的数据，这样一种机制将会大大制约属性约简的时间。为解决这一问题，本文依然从启发式算法的角度出发，将属性的测试代价考虑到属性重要度定义中。为此，给出如下的属性融合重要度定义。ＴＣＳＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）＝０．１ ´ＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）＋０．９ ´（ｃ ∗ （ａｉ）） θ ＴＣＳＬＳｉｇｏｕｔ（ａｉ，ＡＴ，Ｄ）＝０．１ ´ＬＳｉｇｏｕｔ（ａｉ，ＡＴ，Ｄ）＋０．９ ´（ｃ ∗ （ａｉ）） θ 式中：θ≤ ０。可以看出，ＴＣＳＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）是ＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）与（ｃ ∗ （ａｉ）） θ 之和。当 θ＝０时，无论属性的测试代价取何值，都有ＴＣＳＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）＝０．１ ´ ＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）＋１，这说明ＴＣＳＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）的大小与属性测试代价的大小无关，仅与ＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）的值有关。随着 θ 值的不断减小，（ｃ ∗ （ａｉ）） θ 的值也不断减小（本文随机产生测试代价在［１０，１００］），此时（ｃ ∗ （ａｉ）） θ 在ＴＣＳＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）中所占的比重也越来越小，表明属性测试代价在属性的重要度中的影响作用越来越小。根据新的属性融合重要度，不难设计出综合考虑了测试代价的启发式算法，具体算法流程见算法１。算法１基于测试代价敏感不完备决策系统ＴＣＳＩＩＤＳ综合考虑测试代价的启发式算法输入：测试代价敏感不完备决策系统ＴＣＳＩＩＤＳ， α；输出：约简ｒｅｄ及约简的测试代价ｃ ∗ （ｒｅｄ）。１）计算 γ（ＡＴ， α，Ｄ）；令θ＝０，ｃ ∗ （ｒｅｄ）＝ｃ ∗ （ＡＴ）；２）ｒｅｄ ¬Æ；３）"ａｉÎＡＴ，计算属性ａｉ的重要度ＴＣＳＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）；４）若ＴＣＳＬＳｉｇｉｎ（ａｊ，ＡＴ，Ｄ）＝ｍａｘ｛ＴＣＳＬＳｉｇｉｎ（ａｉ，ＡＴ，Ｄ）：ａｉÎＡＴ｝，则ｒｅｄ ¬ａｊ，计算 γ（ｒｅｄ，α，Ｄ）；５）若 γ（ｒｅｄ，α，Ｄ）¹γ（ＡＴ，α，Ｄ），则重复以下循环，否则转６）； ①"ａｉÎＡＴ -ｒｅｄ，计算ＴＣＳＬＳｉｇｏｕｔ（ａｉ，ｒｅｄ，Ｄ）； ②若ＴＣＳＬＳｉｇｏｕｔ（ａｉ，Ｂ，Ｄ）＝ｍａｘ｛ＴＣＳＬＳｉｇｏｕｔ（ａｉ，Ｂ，Ｄ）：ａｉÎＡＴ -ｒｅｄ｝，则ｒｅｄ ¬ａｉ；６）"ａｉÎｒｅｄ，若 γ（ｒｅｄ -ａｉ，α，Ｄ）＝ γ（ＡＴ，α，Ｄ），则ｒｅｄ＝ｒｅｄ -ａｉ，ｔｍｐ＝ｃ ∗ （ｒｅｄ）；７）ｃ ∗ （ｒｅｄ）＝ｍｉｎ｛ｃ ∗ （ｒｅｄ），ｔｍｐ｝；８）若 θ 大于给定阈值，则 θ ＝ θ -δ（此处 δ 为步长，δ＞０）且重复２）～７），否则转９）；９）输出ｒｅｄ及ｃ ∗ （ｒｅｄ）。３．２实验分析本节将通过实验，对比算法１、算法２和算法３。表１列出了实验中使用的４组测试数据的基本信息，所有数据集均下载于ＵＣＩ数据集。由于ＵＣＩ数据集中的大部分数据不含有测试代价，所以在本组实验中为每个数据集的属性随机增加了取值在［１０，１００］之间的测试代价。表１实验数据基本信息Ｔａｂｌｅ１ＤａｔａｓｅｔｓｄｅｓｃｒｉｐｔｉｏｎｓＤａｔａＩＤＤａｔａｓｅｔｓＳａｍｐｌｅｓＡｔｔｒｉｂｕｔｅｓＤｅｃｉｓｉｏｎＣｌａｓｓｅｓ１Ｂｒｉｄｇｅｓ１０８１２７２ＣｒｅｄｉｔＡｐｐｒｏｖａｌ２６３１５３３Ｈｅａｒｔ⁃Ｄｉｓｅａｓｅ３０３１４５４Ｈｅｐａｔｉｔｉｓ１５５１９２由于基于测试代价敏感的可变精度分类粗糙集模型的下、上近似集由阈值 α 控制，因此，在实验中选取了１０组不同的 α 值分别对比３个算法的测试代价，在算法３的第８步中，给定阈值设为－５，步长 δ 为０．５，即重复求得１０次约简，取其中的最小测试代价作为输出。具体的实验结果见图１。（ａ）Ｂｒｉｄｇｅｓ第２期鞠恒荣，等：不完备信息系统中测试代价敏感的可变精度分类粗糙集 ·２２１·

<<向上翻页向下翻页>>