ai ai 度具有单调性，即标记 D 在特征上的信息增益随单个标记在特

正在加载图片...

·932· 智能系统学报第14卷度具有单调性，即标记D在特征a,上的信息增益于每个标记的信息增益IG(U,la): 随单个标记在特征a:上的信息增益的增大而增 4)对于Ya∈A,执行操作：大，且标记与特征之间的相关程度越大。 ①计算标记集合下每个特征的重要度证明由性质1可得，若单个标记与特征a CSIG(Dla); 的相关性越大，则信息增益值越大，即IG,la)越 ②计算阈值6；大。由定义6可知，NIGS(Dla)=∑NIG(lai),因此 5)对于Ha∈A,执行操作：若CsIG(Dla)>6,则Red←RedU{al NIGL,a)越大，则NIGS(Da)的值越大，而特征代 6)输出特征子集Red,算法结束。价的值Cost(a,)是固定的，此时可得CSIG(Dla)= 4.2时间复杂度分析 NIGS(Dla)'-Cost(a)'越大，即标记D在特征a:上代价敏感数据的多标记特征选择算法中：步的信息增益随单个标记在特征a上的信息增益骤1)初始化一个变量存放特征选择后的特征子的增大而增大。由性质1可知，标记与特征之间集，其时间复杂度为O(1)；步骤2)中①需利用基信息增益越大，则其相关程度也越大。由此可数排序劉计算等价类，则整个条件特征集每个特得，标记集合D在特征a:上的信息增益具有单调性。征的信息嫡的时间复杂度为O4AIUD,步骤2)中性质3阈值6具有单调性，即阈值随标记 ②计算每个特征的条件信息嫡的时间复杂度为集合D在特征a:上的信息增益值的增大而增大。 O(U/AIUIIDD,可知步骤2)的时间复杂度最坏为证明由性质2和定义7可知，特征代价的 O(AIIUIIDD;步骤3)分别计算每个标记与每个特标准差Cost.o的值是固定的，CSIG(Da,)的值越征之间的信息增益，其时间复杂度为O4 IUIDD: 大，则上CSIG(Dla--Costo越大，即阀值6的值步骤4)中①计算标记集合下每个特征重要度，其 m 越大。时间复杂度为O(4IUID,步骤4)中②计算阈值的时间复杂度为O4IUD,因此步骤4)的时间复 4多标记特征选择算法杂度最坏为O(AIlUIDD::步骤5)根据阈值进行特征选择其时间复杂度为O4。因此本文算法的 4.1算法描述时间复杂度为O4IUD)。根据上述分析可知，在多标记学习算法中，一为了分析本文算法在计算复杂度上的优越个特征不仅与某一标记具有相关性，也可能同时性，将本文算法分别与CSMLPA9算法和MLDM 与多个标记具有相关性，因此需要计算单个特征算法进行比较。CSMLPA算法是基于文献2O]的正与标记集合之间的相关性。在此基础上，从代价区域模型设计的，并且考虑了测试代价的多标记敏感学习的视角，提出了一种基于测试代价的特特征选择算法，算法采用的是向前启发式搜索策征重要度；然后根据服从正态分布的特征重要度略，其计算复杂度主要消耗在计算加入单个特征到以及特征代价的标准差设计出一种合理的阈值选特征子集后的正域大小，时间复杂度为O(APIUIIDD。择方法；最后，通过计算的阈值删除冗余或不相 MLDM算法是基于文献[21]的差别矩阵方法改关的特征。进的多标记特征选择算法，该算法主要耗时在对本文提出的代价敏感数据的多标记特征选择实例进行两两比较，其时间复杂度为O(LAIIUPIDD。算法(CSMLFSIE)具体步骤如下：本文算法与CSMLPA算法和MLDM算法相比，时算法代价敏感数据的多标记特征选择算间复杂度由非线性OCAFIUIID)和O(AIIUPIDD降法(CSMLFSIE) 低至线性O(AIlUIIDD。由此可知，本文算法在计输入多标记决策表<U,AUD,Vf>; 算复杂度上具有显著的优越性。输出特征子集Red。 1)初始化Red←-o; 5实验结果与分析 2)对于Ha∈A,l,∈D,执行操作：为了验证本文的CSMLFSIE算法的性能，从 ①计算在特征集A下每个特征的信息增益 Mulan数据集中选取了Emotions、Birds和Yeast H(a); 这3个真实数据集进行实验测试和分析。实验将 ②每个特征相对于每个标记的条件信息熵算法CSMLFSIE与MLFSIE、CSMLPA、MLPA和 H(a); MLDM进行对比分析，其中，MLFSIE是一类基 3)对于Ya∈A,Yl,∈D分别计算每个特征相对于信息熵的多标记特征选择算法，CSMLPA算法ai ai 度具有单调性，即标记 D 在特征上的信息增益随单个标记在特征上的信息增益的增大而增大，且标记与特征之间的相关程度越大。 ai IG(lt |a) NIGS(D|a)= ∑k t=1 NIG(lt |ai) NIG(lt |ai) NIGS(D|a) Cost(ai) ∗ CSIG(D|ai) = NIGS(D|ai) ∗−Cost(ai) ∗ D ai ai D ai 证明由性质 1 可得，若单个标记与特征的相关性越大，则信息增益值越大，即越大。由定义 6 可知，，因此越大，则的值越大，而特征代价的值是固定的，此时可得越大，即标记在特征上的信息增益随单个标记在特征上的信息增益的增大而增大。由性质 1 可知，标记与特征之间信息增益越大，则其相关程度也越大。由此可得，标记集合在特征上的信息增益具有单调性。 δ D ai 性质 3 阈值具有单调性，即阈值随标记集合在特征上的信息增益值的增大而增大。 Cost.σ CSIG(D|ai) 1 m ∑m i=1 |CSIG(D|ai)|−Cost.σ δ 证明由性质 2 和定义 7 可知，特征代价的标准差的值是固定的，的值越大，则越大，即阈值的值越大。 4 多标记特征选择算法 4.1 算法描述根据上述分析可知，在多标记学习算法中，一个特征不仅与某一标记具有相关性，也可能同时与多个标记具有相关性，因此需要计算单个特征与标记集合之间的相关性。在此基础上，从代价敏感学习的视角，提出了一种基于测试代价的特征重要度；然后根据服从正态分布的特征重要度以及特征代价的标准差设计出一种合理的阈值选择方法；最后，通过计算的阈值删除冗余或不相关的特征。本文提出的代价敏感数据的多标记特征选择算法 (CSMLFSIE) 具体步骤如下：算法代价敏感数据的多标记特征选择算法 (CSMLFSIE) 输入多标记决策表 < U,A∪ D,V, f > ；输出特征子集 Red。 1) 初始化 Red ← ∅ ； ∀a ∈ A ∀l 2) 对于， t ∈ D ，执行操作： H(a) ①计算在特征集 A 下每个特征的信息增益； H(lt |a) ②每个特征相对于每个标记的条件信息熵； ∀a ∈ A ∀l 3) 对于， t ∈ D 分别计算每个特征相对 IG(lt 于每个标记的信息增益 |a) ； 4) 对于 ∀a ∈ A ，执行操作: CSIG(D|a) ①计算标记集合下每个特征的重要度； ②计算阈值 δ ； 5) 对于 ∀a ∈ A ，执行操作：若 CSIG(D|a) > δ ，则 Red ← Red∪{a} 6) 输出特征子集 Red，算法结束。 4.2 时间复杂度分析 O(1) O(|A||U|) O(|U/A||U||D|) O(|A||U||D|) O(|A||U||D|) O(|A||U||D|) O(|A||U|) O(|A||U||D|) O(|A|) O(|A||U||D|) 代价敏感数据的多标记特征选择算法中：步骤 1) 初始化一个变量存放特征选择后的特征子集，其时间复杂度为；步骤 2) 中①需利用基数排序[18] 计算等价类, 则整个条件特征集每个特征的信息熵的时间复杂度为，步骤 2) 中 ②计算每个特征的条件信息熵的时间复杂度为，可知步骤 2) 的时间复杂度最坏为；步骤 3) 分别计算每个标记与每个特征之间的信息增益，其时间复杂度为；步骤 4) 中①计算标记集合下每个特征重要度，其时间复杂度为，步骤 4) 中②计算阈值的时间复杂度为，因此步骤 4) 的时间复杂度最坏为；步骤 5) 根据阈值进行特征选择其时间复杂度为。因此本文算法的时间复杂度为。 O(|A| 2 |U||D|) O(|A||U| 2 |D|) O(|A| 2 |U||D|) O(|A||U| 2 |D|) O(|A||U||D|) 为了分析本文算法在计算复杂度上的优越性，将本文算法分别与 CSMLPA[19] 算法和 MLDM 算法进行比较。CSMLPA 算法是基于文献 [20] 的正区域模型设计的，并且考虑了测试代价的多标记特征选择算法，算法采用的是向前启发式搜索策略，其计算复杂度主要消耗在计算加入单个特征到特征子集后的正域大小，时间复杂度为。 MLDM 算法是基于文献 [21] 的差别矩阵方法改进的多标记特征选择算法，该算法主要耗时在对实例进行两两比较，其时间复杂度为。本文算法与 CSMLPA 算法和 MLDM算法相比，时间复杂度由非线性和降低至线性。由此可知，本文算法在计算复杂度上具有显著的优越性。 5 实验结果与分析为了验证本文的 CSMLFSIE 算法的性能，从 Mulan 数据集中选取了 Emotions、Birds 和 Yeast 这 3 个真实数据集进行实验测试和分析。实验将算法 CSMLFSIE 与 MLFSIE、CSMLPA、MLPA 和 MLDM 进行对比分析，其中，MLFSIE[16] 是一类基于信息熵的多标记特征选择算法，CSMLPA 算法 ·932· 智能系统学报第 14 卷

<<向上翻页向下翻页>>

点击下载：【人工智能基础】代价敏感数据的多标记特征选择算法