xi(i = k+1, k+2,··· ,n_中国高校课件下载中心

正在加载图片...

·496· 智能系统学报第16卷对于任意对象xi=k+1,k+2,…,m)的相容类计算时间为OCIU川△UD,步骤6)中删除掉冗余和决策类D,G=1,2,·,m),其交集的更新模式为特征的时间复杂度为O(ACIU川△UD。因此，算法 IT)OD= IFS-CE-IDS总的时间复杂度为O(ICIUIAU+ IT-(x)nDl,1≤j≤q1 ICPIUI川I△UI+AIICIUI△U=O(CPIUI△UD。 IT()OD-IT()0Dl- IT(x)ODil+ITE(x)ODil. 91+1≤j≤m 3实验及分析通过分析不完备决策系统中相容类和决策类，以及其交集的动态更新模式，可得特征值发本文选取了9组UCI数据集进行性能测试，生修改时决策特征d关于任意条件特征子集P 数据集详细信息如表1所示。对于完备数据集的条件熵的增量计算机制为 Car和kr-vs-kp,随机删除原始数据集中5%的已 Hu(dlP)=Hu(dlP)+ 知特征值变为缺失值，使原始完备数据集变为不其中4的值如下所示：完备数据集。对含有数值型数据的数据集Hepat- 4=-22rn IT'()OD itis、Wisconsin、Dermatology和Ozone,将数值型特 UI log2 IT' 征进行了离散化处理。如数据集Hepatitis包含 22 IT(xODl 19个特征，其中6个为数值型特征；数据集Wis 101 IT-(x consin含有1个数值型特征；数据集Dermato- (ITF(ODA+IT()ODI logy包含1个数值型特征；数据集Ozone都是数 IUI 值型特征。实验环境配置为：Intel(R)Core(TM)i5- ITF(x)ODl+IT(x)OD+IT()nDil 4210MCPU2.60GHz,8GB内存，操作系统为 IU八 Windows1O,程序开发平台为ntelliJ IDEA,编程 log IT'P(x)ODI 语言为Java。 IT'() 表1数据集描述基于上述分析，算法1给出了不完备决策系 Table 1 Description of the datasets 统中特征值更新时基于条件熵的增量式特征选择数据集样本数特征数类别数算法来计算新的特征子集。 Hepatitis 155 20 2 算法1不完备决策系统中基于条件熵的增 Audiology 226 69 24 量式特征选择算法(FS-CE-DS) Cancer 286 9 2 输入不完备决策系统DS=(U,CU{d,Vf), Soybean 307 35 19 原始数据U上的特征子集RED∈C,以及数据中 Dermatology 366 34 6 发生修改对象的集合△U; Wisconsin 699 2 1728 4 输出特征选择后的特征子集A。 Car 6 Ozone 2534 72 2 1)初始化特征子集A=RED; kr-vs-kp 3196 36 2 2)根据特征值更新对象集合△U更新后U/d= {D,D3,…,Dm,U/T'(C)=(T(x,T(2,…,T(xl, 为验证本文所提出算法IFS-CE-IDS处理数 U/T'(A)={TA(x),T(,…,TA(x》,计算Tp(c)、据集特征值更新问题具有高效性和可行性，使用 T()、D、D: 传统批量式特征选择算法HFS-CE-IDS与算法 3)计算H(dC)和H(dA): FS-CE-IDS在9组UCI数据集上进行测试，从分 4)如果H(dC)≠H(dA)进入7)，否则进入5)：类精度、决策性能以及计算效率三方面对传统批 5)当H(dC)≠H(dA)时，对任意a∈C-A,计算量式特征选择算法HFS-CE-IDS和IFS-CE-IDS进 sig(a,AU{al,d),并且选择其中拥有最大sig(a,AU{a,d 行比较。的a,A=AU{ah 3.1分类精度分析 6)对任意特征a∈A计算sig(a,A,d),如果为比较算法HFS-CE-IDS与算法IFS-CE- sig(a,A.d)=0,A=A-la); DS所得特征子集的分类精度，对表1中9组数 7)返回A。据集选择其中50%对象，并且更新其特征值，然该算法中条件嫡的计算时间是O(CU川△U小，后分别运行传统批量式算法HFS-CE-IDS和增量在算法IFS-CE-DS中，步骤1)3)的计算时间是式算法FS-CE-IDS对特征值更新数据集进行特 OCU川△U),步骤5)的向特征集A中添加特征的征选择。使用决策树J48、Naive Bayes、SVMxi(i = k+1, k+2,··· ,n) D ′ j (j = 1,2,··· ,m) 对于任意对象的相容类和决策类，其交集的更新模式为 |T ′ P(xi)∩ D ′ j | =    |TP(xi)∩ Dj |, 1 ⩽ j ⩽ q1 |TP(xi)∩ Dj | − |T − P (xi)∩ Dj |− |TP(xi)∩ D − j |+|T − P (xi)∩ D − j |, q1 +1 ⩽ j ⩽ m d P 通过分析不完备决策系统中相容类和决策类，以及其交集的动态更新模式，可得特征值发生修改时决策特征关于任意条件特征子集的条件熵的增量计算机制为 H ′ U (d|P) = HU (d|P)+∆ 其中 ∆ 的值如下所示： ∆ = − ∑q i=p+1 ∑m j=1 |T ′ P(xi)∩ D ′ j | |U| log2 |T ′ P(xi)∩ D ′ j | |T ′ P(x ′ i)| + ∑n i=p+1 ∑m j=1 |TP(xi)∩ Dj | |U| log2 |TP(xi)∩ Dj | |TP(xi)| + ∑n i=q+1 ∑m j=q1+1 ( |T − P (xi)∩ Dj |+|TP(xi)∩ D − j | |U| − |T − P (xi)∩ D − j |+|TP(xi)∩ Dj |+|T + P (xi)∩ D + j | |U| ) · log2 |T ′ P(xi)∩ D ′ | |T ′ P(xi)| 基于上述分析，算法 1 给出了不完备决策系统中特征值更新时基于条件熵的增量式特征选择算法来计算新的特征子集。算法 1 不完备决策系统中基于条件熵的增量式特征选择算法 (IFS-CE-IDS) IDS = (U,C ∪ {d},V, f) U RED ∈ C ∆U 输入不完备决策系统，原始数据上的特征子集，以及数据中发生修改对象的集合；输出特征选择后的特征子集 A。 1) 初始化特征子集 A = RED ； ∆U U/d = {D ′ i ,D ′ 2 , ··· , D ′ m },U/T ′ (C) = {T ′ C (x1), T ′ C (x2), ··· , T ′ C (xn)} U/T ′ (A) = {T ′ A (x1),T ′ A (x2),··· ,T ′ A (xn)} T − P (xi) T + P (xi) D − j D + j 2) 根据特征值更新对象集合更新后，，计算、、、； H ′ U (d|C) H ′ U 3) 计算和 (d|A) ； H ′ U (d|C) , H ′ U 4) 如果 (d|A) 进入 7)，否则进入 5)； H ′ U (d|C) , H ′ U (d|A) a ∈ C − A sig(a,A∪ {a},d) sig(a,A∪ {a},d) a A = A∪ {a} 5) 当时，对任意，计算，并且选择其中拥有最大的，； a ∈ A sig(a,A,d) sig(a,A,d) = 0 A = A− {a} 6 ) 对任意特征计算 , 如果，则； 7) 返回 A。 O(|C||U||∆U|) O(|C||U||∆U|) 该算法中条件熵的计算时间是，在算法 IFS-CE-IDS 中，步骤 1)~3) 的计算时间是，步骤 5) 的向特征集 A 中添加特征的 O(|C| 2 |U||∆U|) O(|A||C||U||∆U|) O(|C||U||∆U|+ |C| 2 |U||∆U|+|A||C||U||∆U|) = O(|C| 2 |U||∆U|) 计算时间为，步骤 6) 中删除掉冗余特征的时间复杂度为。因此，算法 IFS-CE-ID S 总的时间复杂度为。 3 实验及分析本文选取了 9 组 UCI 数据集进行性能测试，数据集详细信息如表 1 所示。对于完备数据集 Car 和 kr-vs-kp，随机删除原始数据集中 5% 的已知特征值变为缺失值，使原始完备数据集变为不完备数据集。对含有数值型数据的数据集 Hepatitis、Wisconsin、Dermatology 和 Ozone，将数值型特征进行了离散化处理。如数据集 Hepatitis 包含 19 个特征，其中 6 个为数值型特征；数据集 Wisconsin 含有 1 个数值型特征；数据集 Dermatology 包含 1 个数值型特征；数据集 Ozone 都是数值型特征。实验环境配置为：Intel(R)Core(TM)i5- 4210M CPU 2.60 GHz，8 GB 内存，操作系统为 Windows 10，程序开发平台为 IntelliJ IDEA，编程语言为 Java。表 1 数据集描述 Table 1 Description of the datasets 数据集样本数特征数类别数 Hepatitis 155 20 2 Audiology 226 69 24 Cancer 286 9 2 Soybean 307 35 19 Dermatology 366 34 6 Wisconsin 699 10 2 Car 1728 6 4 Ozone 2534 72 2 kr-vs-kp 3196 36 2 为验证本文所提出算法 IFS-CE-IDS 处理数据集特征值更新问题具有高效性和可行性，使用传统批量式特征选择算法 HFS-CE-IDS 与算法 IFS-CE-IDS 在 9 组 UCI 数据集上进行测试，从分类精度、决策性能以及计算效率三方面对传统批量式特征选择算法 HFS-CE-IDS 和 IFS-CE-IDS 进行比较。 3.1 分类精度分析为比较算法 HFS-CE-IDS 与算法 IFS-CEIDS 所得特征子集的分类精度，对表 1 中 9 组数据集选择其中 50% 对象，并且更新其特征值，然后分别运行传统批量式算法 HFS-CE-IDS 和增量式算法 IFS-CE-IDS 对特征值更新数据集进行特征选择。使用决策树 J48、Naïve Bayes、SVM ·496· 智能系统学报第 16 卷

<<向上翻页向下翻页>>