正在加载图片...
.382. 智能系统学报 第12卷 例2表1所示决策表,论域U={u1,山2,u3, 一个广义分布保持约简,进一步,若给定置信度区 u4},AT={a1,a2,a3,a,}为条件属性集,D={d}为决 间[a',B],且满足[a',B]≤[a,B],则3A'≤A,使 策属性。由 得A'是置信度区间[α',B]下的一个广义分布保持 U/AT={E1,E2,E3} 约简,且满足A'二A。其中,a和B满足(a=0∧B∈ E1={u1} [0,1])或(a∈[0,1]ΛB=1)。 E2={u2} 证明由已知条件得,[a',B]C[a,B],Hu∈ E2={山3,u4} U,有Ya剧(u)=Ya](u)。则u∈U,必然有 U/D={D1,D2,D3} Ye(u)=Yg(u),故A是决策表在置信度区 D1={u1} 间[α',B]下的一个广义分布协调集。假设A是决 D2={42,u4} 策表在置信度区间[α',B]下的一个广义分布约简, D3={u3} 则有A'CA:反之,必然3A'CA,使得Y0F](u)= POST(D)=u1,u2 Ya](u),故3A'CA,使得A'≤A成立,证毕。 8Ar(u1)={0} 5实验分析 8Ar(u2)={1} 8Ar(u3)={1,2 本节采用4个UCI数据集进行实验,数据集信 8Ar(u4)={1,2 息如表5所示,其中,|U川表示数据集的样本数, um(u1)=(1,0,0) |AT表示数据集的特征数,|D表示分类数。对于 uA(2)=(0,1,0) 数据集的预处理,处理策略如下:缺失特征值通过 r(u3)=(0,0.5,0.5) 用该缺失特征值所对应特征下的多数特征值进行 r(u4)=(0,0.5,0.5) 填充,连续型特征进行等频离散化,名词性特征值 求得正域保持约简为a2,a3},广义决策保持约 用整数进行替换,所有数据集的预处理均在Weka 简为{a2,a3},分布保持约简为{a2,a3}。 3.6下进行。实验环境如下:Windows7旗舰版32位 因此,当a=B=1时,可得:Y(1)={(0,1)}, 操作系统,intel Pentium G640C处理器,主频 Y(42)={(1,1)},Y(4)=⑦, 2.8GHz,内存6.0GB,所有算法均采用MATLAB Y(u)=0。 R2010h编写实现。 据此构造广义分布差别矩阵,如表4所示。 表5UCI数据集信息 表4广义分布差别矩阵 Table 5 Information of UCI data sets Table 4 Generalized distribution discernibility matrix 数据集 IUI ATI DI Mu. 42 Haberman's Survival 306 3 2 AT {a2} {a2,a3 {a2,a3 Blood Transfusion Service Center 748 2 {a2} AT {a3} {a3} Stone Flakes 79 3 us {a2,a3} {a3} AT AT Airfoil Self-Noise 1503 5 16 4 {a2,a3} {a} AT AT 注:BTSC为数据集Blood Transfusion Service Center的 由广义分布差别矩阵可得所有的广义分布保 缩写 持约简为{a2,a3},与正域约简一致。同理,a=B=0 实验分为两部分。第1部分验证置信度区间分 时的广义分布保持约简为a2,a3},与广义决策约简 别为[1.0,1.0]、[0.0,0.0]以及[0.0,1.0]时,广义分 一致;a=0,B=1时的广义分布保持约简为{a2, 布保持约简可分别退化为正域保持约简、广义决策 a3},与分布约简一致。 保持约简以及分布约简,同时,也可验证广义分布 由定理4~6可得如下结论。 保持约简算法的正确性:第2部分验证在较小的置 推论1设DT=(U,ATUD,V,f),置信度区间 信度区间下求得的广义分布保持约简是在较大的 为[a,B],VACAT,且A是置信度区间[a,B]下的 置信度区间下求得的广义分布保持约简的子集。例 2 表 1 所示决策表,论域 U = { u1 ,u2 ,u3 , u4 },AT = {a1 ,a2 ,a3 ,a4 }为条件属性集,D= {d}为决 策属性。 由 U/ AT = {E1 ,E2 ,E3 } E1 = {u1 } E2 = {u2 } E2 = {u3 ,u4 } U/ D= {D1 ,D2 ,D3 } D1 = {u1 } D2 = {u2 ,u4 } D3 = {u3 } POSAT(D)= {u1 ,u2 } δAT(u1 )= {0} δAT(u2 )= {1} δAT(u3 )= {1,2} δAT(u4 )= {1,2} μAT(u1 )= (1,0,0) μAT(u2 )= (0,1,0) μAT(u3 )= (0,0.5,0.5) μAT(u4 )= (0,0.5,0.5) 求得正域保持约简为{a2 ,a3 },广义决策保持约 简为{a2 ,a3 },分布保持约简为{a2 ,a3 }。 因此,当 α=β = 1 时,可得:Υ [1,1] AT (u1 )= {〈0,1〉}, Υ [1,1] AT ( u2 ) = {〈 1, 1 〉}, Υ [1,1] AT ( u3 ) = ⌀, Υ [1,1] AT (u4 )= ⌀。 据此构造广义分布差别矩阵,如表 4 所示。 表 4 广义分布差别矩阵 Table 4 Generalized distribution discernibility matrix M [1,1] u1 u2 u3 u4 u1 AT {a2 } {a2 ,a3 } {a2 ,a3 } u2 {a2 } AT {a3 } {a3 } u3 {a2 ,a3 } {a3 } AT AT u4 {a2 ,a3 } {a3 } AT AT 由广义分布差别矩阵可得所有的广义分布保 持约简为{a2 ,a3 },与正域约简一致。 同理,α = β = 0 时的广义分布保持约简为{a2 ,a3 },与广义决策约简 一致;α = 0, β = 1 时的广义分布保持约简为{ a2 , a3 },与分布约简一致。 由定理 4~6 可得如下结论。 推论 1 设 DT = (U,AT∪D,V,f ),置信度区间 为[α,β],∀A⊆AT,且 A 是置信度区间[α,β]下的 一个广义分布保持约简,进一步,若给定置信度区 间[α′,β′],且满足[α′,β′]⊆[α,β],则∃A′⊆A,使 得 A′是置信度区间[α′,β′]下的一个广义分布保持 约简,且满足 A′⊆A。 其中,α 和 β 满足(α = 0∧β∈ [0,1])或(α∈[0,1]∧β = 1)。 证明 由已知条件得,[α′,β′]⊆[α,β],∀u∈ U,有 Υ [α,β] A ( u) = Υ [α,β] AT ( u)。 则 ∀u ∈ U, 必然有 Υ [α′,β′] A (u)= Υ [α′,β′] AT ( u),故 A 是决策表在置信度区 间[α′,β′]下的一个广义分布协调集。 假设 A 是决 策表在置信度区间[α′,β′]下的一个广义分布约简, 则有 A′⊆A;反之,必然∃A′⊂A,使得 Υ [α′,β′] A′ ( u) = Υ [α′,β′] A (u),故∃A′⊆A,使得 A′⊆A 成立,证毕。 5 实验分析 本节采用 4 个 UCI 数据集进行实验,数据集信 息如表 5 所示,其中, U 表示数据集的样本数, AT 表示数据集的特征数, D 表示分类数。 对于 数据集的预处理,处理策略如下:缺失特征值通过 用该缺失特征值所对应特征下的多数特征值进行 填充,连续型特征进行等频离散化,名词性特征值 用整数进行替换,所有数据集的预处理均在 Weka 3.6下进行。 实验环境如下:Windows 7 旗舰版 32 位 操 作 系 统, Intel Pentium G640C 处 理 器, 主 频 2.8 GHz,内 存 6.0 GB, 所 有 算 法 均 采 用 MATLAB R2010b 编写实现。 表 5 UCI 数据集信息 Table 5 Information of UCI data sets 数据集 U AT D Haberman’s Survival 306 3 2 Blood Transfusion Service Center 748 4 2 Stone Flakes 79 7 3 Airfoil Self⁃Noise 1503 5 16 注:BTSC 为数据集 Blood Transfusion Service Center 的 缩写 实验分为两部分。 第 1 部分验证置信度区间分 别为[1.0,1.0]、[0.0,0.0]以及[0.0,1.0]时,广义分 布保持约简可分别退化为正域保持约简、广义决策 保持约简以及分布约简,同时,也可验证广义分布 保持约简算法的正确性;第 2 部分验证在较小的置 信度区间下求得的广义分布保持约简是在较大的 置信度区间下求得的广义分布保持约简的子集。 ·382· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有