正在加载图片...
第2期 鞠恒荣,等:不完备信息系统中测试代价敏感的可变精度分类粗糙集 .221. 令TCSIIDS为测试代价敏感决策系统,ae[0, 2)red←-g 1],VACAT,aeA,a,的重要度为 3)Ha:eA7,计算属性a:的重要度TCSLSigin(a:, LSigin (ai,A,D)=y(A,a,D)-y(A-a;,a,D) ArD); 可以看出,LSign(a,B,D)反映了a,从当前条 4)TCSLSigin (a;,Ar,D)=max TCSISigin (a:, 件属性集A中删除后近似质量的变化,相应地也可 Ar,D):a:eA,},则red←-a,计算y(red,a,D): 定义 5)若y(ed,a,D)y(Az,a,D),则重复以下循 ISig(a;,A,D)=y(A U a;,a,D)-y(A,a,D) 环,否则转6); 式中:a,∈A,-A,LSig(a:,A,D)用以度量向属性集A ①Va,eA,-red,计算TCSLSig(a:,red,D); 增加属性α,后近似质量的变化。根据上述属性的重要 ②若TCSLSig,(a:,B,D)=max{TCSLSigou(a:, 度可以设计启发式属性约简算法。Min等在文献[11] B,D):a,∈A,-red},则red←-a:; 中设计了传统的启发式算法(记为算法1)。其算法复 6)a:∈red,若y(red-a:,a,D)=y(Ar,a,D), 14 杂度为0(1A,IU1+∑1U1(1A,1-i+1)。 red red-a:,tmp =c'(red); 7)c'(red)=minc'(red),tmp Min等从获取约简的测试代价最小出发设计出 8)若0大于给定阈值,则0=0-6(此处8为步 新的约简算法,即回溯算法(记为算法2)。其算法 长,6>0)且重复2)~7),否则转9): 复杂度为0(2r-1)。详细算法见文献[11]。 9)输出red及c·(red)。 3.1考虑属性测试代价的启发式算法 3.2实验分析 由上文可知回溯算法的时间复杂度为O(24- 本节将通过实验,对比算法1、算法2和算法 1)。考虑到现实生活中存在着大量高维属性的数据, 3。表1列出了实验中使用的4组测试数据的基本 这样一种机制将会大大制约属性约简的时间。为解 信息,所有数据集均下载于UCI数据集。由于UCI 决这一问题,本文依然从启发式算法的角度出发,将 数据集中的大部分数据不含有测试代价,所以在本 属性的测试代价考虑到属性重要度定义中。为此,给 组实验中为每个数据集的属性随机增加了取值在 出如下的属性融合重要度定义。 [10,100]之间的测试代价。 TCSLSigin(a:,Ar,D)= 表1实验数据基本信息 0.1×LSigi(a,A7,D)+0.9×(c·(a:))° Table 1 Data sets descriptions TCSLSig (a:,Ar,D)= Decision 0.1 xLSig.(a,A7,D)+0.9×(c(a))° Data ID Data sets Samples Attributes Classes 式中:0≤0。可以看出,TCSLSig..(a:,A7,D)是LSig 1 Bridges 108 12 1 2 Credit Approval 263 3 (a:,A,D)与(c(a:)”之和。当9=0时,无论属性 3 Heart-Disease 303 14 的测试代价取何值,都有TCSLSigin(a:,Ar,D)=0.1× 4 Hepatitis 155 19 2 LSig(a:,A,D)+1,这说明TCSLSig.(a:,A7,D)的大 由于基于测试代价敏感的可变精度分类粗糙集 小与属性测试代价的大小无关,仅与LSig.(a:,Ar, 模型的下、上近似集由阈值α控制,因此,在实验 D)的值有关。随着0值的不断减小,(c(a:))°的值 中选取了10组不同的α值分别对比3个算法的测 也不断减小(本文随机产生测试代价在[10,100]), 试代价,在算法3的第8步中,给定阈值设为-5, 此时(c(a:)°在TCSLSig.(a:,A7,D)中所占的比重 步长δ为0.5,即重复求得10次约简,取其中的最 也越来越小,表明属性测试代价在属性的重要度中 小测试代价作为输出。具体的实验结果见图1。 的影响作用越来越小。根据新的属性融合重要度, ×109 7 不难设计出综合考虑了测试代价的启发式算法,具 算法1 6 算法2 体算法流程见算法1。 ★ 24 算法3 算法1基于测试代价敏感不完备决策系统 TCSIIDS综合考虑测试代价的启发式算法 输入:测试代价敏感不完备决策系统TCSIIDS,a; 0 0.10.20.30.40.50.60.70.80.91.0 输出:约简red及约简的测试代价c·(red)。 1)计算y(4,a,D):令=0,c(d)=c(4): (a)Bridges令 TCSIIDS 为测试代价敏感决策系统, α Î[0, 1], "A ÍAT, "aiÎA, ai的重要度为 LSigin(ai, A, D) = γ(A, α, D) -γ(A -ai, α, D) 可以看出, LSigin(ai, B, D)反映了 ai从当前条 件属性集 A 中删除后近似质量的变化, 相应地也可 定义 LSigout(ai, A, D) = γ(A ∪ ai, α, D) -γ(A, α, D) 式中:aiÎAT -A, LSigout(ai,A, D)用以度量向属性集 A 增加属性 ai后近似质量的变化。 根据上述属性的重要 度可以设计启发式属性约简算法。 Min 等在文献[11] 中设计了传统的启发式算法(记为算法 1)。 其算法复 杂度为 O( |AT | |U| +∑ | AT | i = 1 |U|( |AT | -i+1))。 Min 等从获取约简的测试代价最小出发设计出 新的约简算法, 即回溯算法(记为算法 2)。 其算法 复杂度为 O(2 | AT | -1)。 详细算法见文献[11]。 3.1 考虑属性测试代价的启发式算法 由上文可知回溯算法的时间复杂度为 O(2 | AT | - 1)。 考虑到现实生活中存在着大量高维属性的数据, 这样一种机制将会大大制约属性约简的时间。 为解 决这一问题, 本文依然从启发式算法的角度出发, 将 属性的测试代价考虑到属性重要度定义中。 为此, 给 出如下的属性融合重要度定义。 TCSLSigin(ai, AT , D) = 0.1 ´LSigin(ai, AT , D) + 0.9 ´(c ∗ (ai)) θ TCSLSigout(ai, AT , D) = 0.1 ´LSigout(ai, AT , D) + 0.9 ´(c ∗ (ai)) θ 式中:θ≤ 0。 可以看出, TCSLSigin(ai,AT,D)是 LSigin (ai, AT, D)与(c ∗ (ai)) θ 之和。 当 θ= 0 时, 无论属性 的测试代价取何值, 都有 TCSLSigin(ai,AT,D)= 0.1 ´ LSigin (ai,AT,D)+1, 这说明 TCSLSigin(ai,AT,D)的大 小与属性测试代价的大小无关, 仅与 LSigin (ai,AT, D)的值有关。 随着 θ 值的不断减小, (c ∗ (ai)) θ 的值 也不断减小(本文随机产生测试代价在[10, 100]), 此时(c ∗ (ai)) θ 在 TCSLSigin(ai,AT,D)中所占的比重 也越来越小, 表明属性测试代价在属性的重要度中 的影响作用越来越小。 根据新的属性融合重要度, 不难设计出综合考虑了测试代价的启发式算法, 具 体算法流程见算法 1。 算法 1 基于测试代价敏感不完备决策系统 TCSIIDS 综合考虑测试代价的启发式算法 输入:测试代价敏感不完备决策系统 TCSIIDS, α; 输出:约简 red 及约简的测试代价 c ∗ (red)。 1)计算 γ(AT, α, D); 令θ=0, c ∗ (red)= c ∗ (AT); 2) red ¬Æ; 3)"aiÎAT , 计算属性 ai的重要度 TCSLSigin(ai, AT ,D); 4)若 TCSLSigin(aj,AT,D) = max{TCSLSigin(ai, AT,D): aiÎAT}, 则 red ¬aj,计算 γ(red,α,D); 5)若 γ(red,α,D)¹γ(AT ,α,D), 则重复以下循 环, 否则转 6); ①"aiÎAT -red,计算 TCSLSigout(ai,red,D); ②若 TCSLSigout(ai,B,D) = max{TCSLSigout( ai, B,D): aiÎAT -red},则 red ¬ai; 6)"aiÎred, 若 γ(red -ai,α,D)= γ(AT ,α,D), 则 red = red -ai, tmp = c ∗ (red); 7)c ∗ (red)= min{c ∗ (red), tmp}; 8)若 θ 大于给定阈值, 则 θ = θ -δ(此处 δ 为步 长,δ>0)且重复 2) ~7),否则转 9); 9)输出 red 及 c ∗ (red)。 3.2 实验分析 本节将通过实验, 对比算法 1、算法 2 和算法 3。 表 1 列出了实验中使用的 4 组测试数据的基本 信息, 所有数据集均下载于 UCI 数据集。 由于 UCI 数据集中的大部分数据不含有测试代价, 所以在本 组实验中为每个数据集的属性随机增加了取值在 [10, 100]之间的测试代价。 表 1 实验数据基本信息 Table 1 Data sets descriptions Data ID Data sets Samples Attributes Decision Classes 1 Bridges 108 12 7 2 Credit Approval 263 15 3 3 Heart⁃Disease 303 14 5 4 Hepatitis 155 19 2 由于基于测试代价敏感的可变精度分类粗糙集 模型的下、上近似集由阈值 α 控制, 因此, 在实验 中选取了 10 组不同的 α 值分别对比 3 个算法的测 试代价, 在算法 3 的第 8 步中, 给定阈值设为-5, 步长 δ 为 0.5, 即重复求得 10 次约简, 取其中的最 小测试代价作为输出。 具体的实验结果见图 1。 (a)Bridges 第 2 期 鞠恒荣,等:不完备信息系统中测试代价敏感的可变精度分类粗糙集 ·221·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有