正在加载图片...
·930· 智能系统学报 第14卷 容知识的数学工具,近年来,该理论在机器学习 集,设计时间复杂度较低的特征选择算法,但其 和数据挖掘领域得到了广泛的应用6:”。属性约 没有给出和分析的信息熵阈值对特征子集的影 简,又称特征选择,是粗糙集理论的核心内容之 响。张振海等利用信息增益下的阈值选择设 一,其目的是在保持分类能力不变的条件下,删 计了一种多标记特征选择算法(MLFSIE)。综上 除不相关或冗余特征。与单标记学习一样,多标 所述,这些多标记特征选择算法并未考虑到特征 记学习也面临着“维数灾难”的挑战。高维数据不 的代价敏感问题。 仅影响算法的执行效率,也降低了分类器的分类 在许多实际应用领域中,获取和采集数据是 性能,而特征降维技术是解决维数灾难的有效方 需要花费代价的,因此从代价敏感的视角研究多 法。目前,针对单标记数据特征降维技术的研究 标记学习具有重要的意义。针对当前多标记特征 较为广泛,而针对多标记数据特征降维技术的研 选择算法的计算复杂度较大且未考虑特征代价的 究相对较少。因此,基于多标记学习特征选择的 研究具有重要的理论和应用意义。另外,在现实 问题,提出了一种面向代价敏感数据的多标记特 应用领域中,数据特征的获取往往需要花费一定 征选择算法。首先,该方法计算出特征与标记集 的代价,为此从代价敏感的视角研究多标记特征 合之间的信息增益,在此基础上重新定义了特征 选择问题显得尤为重要。 重要度的计算方法,并根据服从正态分布的特征 重要度与特征代价的标准差之间的差值,提出了 1相关工作 一种合理的阈值选择方法,从而实现对冗余或不 近年来,在多标记特征提取方面已经取得一 相关特征的剔除,同时能得到总代价较低的特征 些有意义的研究成果。如Sun等提出的多标记 子集。为了验证算法的有效性,利用Mulan平台 降维方法(LDA),其直接将单标记特征降维的方 上的真实多标记数据集进行实验比较和分析,通 法应用于多标记特征降维中,忽略了标记之间的 过实验结果进一步验证算法的有效性和可行性。 相关性。Zhang等采用核矩阵进行映射降维, 2基本知识 设计了一种最大化依赖度的多标记特征降维方 法(MDDM)。Yu等o提出了一种有监督的多标 2.1多标记学习 记潜在语义索引降维方法(MLSI)。多标记特征 在粒计算理论中,多标记数据可表示成一个 提取能够实现特征降维的效果,但由于其忽略了 多标记决策表MDT=(U,AUD,Vf),其中:U为样 标记之间的关联以及损失了原始特征的物理含 本集{x,2,·,x山,也称为论域;A为条件特征集 义,这对多标记学习问题的研究造成了较大的困难。 {a,a2,…,am:D为多标记决策特征{l1,2,…,lk,且 多标记特征选择通过设计特征度量准则从原 AnD=O;V为全特征集的值域,其中V=UVa, 始特征中别除冗余或不相关特征,得到一组相对 aeAUD,V.表示特征a的值域;f是U×(AUD)→V 最优的特征子集,从而可有效降低特征空间的维 的信息函数。 数,提升算法的分类性能。特征选择的结果能够 保持原始特征的物理含义,使得多标记学习的研 定义1给定多标记决策表MDT=(U,AU 究更容易理解。目前许多研究人员针对多标记特 D,Vf),对于Ya∈A,特征a的等价关系R。为 征选择开展研究,段洁等山重新定义了多标记邻 R=((xixj)EUxU,f(xi.a)=f(xj.a) 域粗糙集的下近似和依赖度的计算方法,在此基 定义2给定多标记决策表MDT=(U,AU 础上,设计了一种基于邻域粗糙集的特征选择算 D,Vf),对于l,∈D,标记l,的等价关系R,为 法(ARMLNRS)。王晨曦等从每个标记对样本 R.={,x)eU×U,fx,l)=fx,l)》 不同分组的角度出发,提出了基于信息粒化的多 2.2信息熵 标记特征选择算法(MFIG)。Lin等11在乐观、中 基于条件信息熵下的特征选择是研究者从信 立和悲观这3种不同的视角下,通过3种基于邻 息观视角对高维数据进行特征选择,该方法可有 域互信息准则进行特征选择。刘景华等通过 效地度量信息的不确定性程度。 引人局部子空间模型,构建了一种基于局部子空 定义3给定多标记决策表MDT=(U,AUD, 间的多标记特征选择算法(MFSLS)。上述算法的 V,f),对于任意特征子集B二A,根据特征子集B 计算复杂度相对较大。后来Lee等通过特征信 的等价关系Rs可得U/B=X,X2,…,Xg,则特征 息熵之差最大化和正向搜索的方法选择特征子 子集B的信息嫡为容知识的数学工具[5] ,近年来,该理论在机器学习 和数据挖掘领域得到了广泛的应用[6-7]。属性约 简,又称特征选择,是粗糙集理论的核心内容之 一,其目的是在保持分类能力不变的条件下,删 除不相关或冗余特征。与单标记学习一样,多标 记学习也面临着“维数灾难”的挑战。高维数据不 仅影响算法的执行效率,也降低了分类器的分类 性能,而特征降维技术是解决维数灾难的有效方 法。目前,针对单标记数据特征降维技术的研究 较为广泛,而针对多标记数据特征降维技术的研 究相对较少。因此,基于多标记学习特征选择的 研究具有重要的理论和应用意义。另外,在现实 应用领域中,数据特征的获取往往需要花费一定 的代价,为此从代价敏感的视角研究多标记特征 选择问题显得尤为重要。 1 相关工作 近年来,在多标记特征提取方面已经取得一 些有意义的研究成果。如 Sun 等 [8] 提出的多标记 降维方法 (LDA),其直接将单标记特征降维的方 法应用于多标记特征降维中,忽略了标记之间的 相关性。Zhang 等 [9] 采用核矩阵进行映射降维, 设计了一种最大化依赖度的多标记特征降维方 法 (MDDM)。Yu 等 [10] 提出了一种有监督的多标 记潜在语义索引降维方法 (MLSI)。多标记特征 提取能够实现特征降维的效果,但由于其忽略了 标记之间的关联以及损失了原始特征的物理含 义,这对多标记学习问题的研究造成了较大的困难。 多标记特征选择通过设计特征度量准则从原 始特征中剔除冗余或不相关特征,得到一组相对 最优的特征子集,从而可有效降低特征空间的维 数,提升算法的分类性能。特征选择的结果能够 保持原始特征的物理含义,使得多标记学习的研 究更容易理解。目前许多研究人员针对多标记特 征选择开展研究,段洁等[11] 重新定义了多标记邻 域粗糙集的下近似和依赖度的计算方法,在此基 础上,设计了一种基于邻域粗糙集的特征选择算 法 (ARMLNRS)。王晨曦等[12] 从每个标记对样本 不同分组的角度出发,提出了基于信息粒化的多 标记特征选择算法 (MFIG)。Lin 等 [13] 在乐观、中 立和悲观这 3 种不同的视角下,通过 3 种基于邻 域互信息准则进行特征选择。刘景华等[14] 通过 引入局部子空间模型,构建了一种基于局部子空 间的多标记特征选择算法 (MFSLS)。上述算法的 计算复杂度相对较大。后来 Lee 等 [15] 通过特征信 息熵之差最大化和正向搜索的方法选择特征子 集,设计时间复杂度较低的特征选择算法,但其 没有给出和分析的信息熵阈值对特征子集的影 响。张振海等[16] 利用信息增益下的阈值选择设 计了一种多标记特征选择算法 (MLFSIE)。综上 所述,这些多标记特征选择算法并未考虑到特征 的代价敏感问题。 在许多实际应用领域中,获取和采集数据是 需要花费代价的,因此从代价敏感的视角研究多 标记学习具有重要的意义。针对当前多标记特征 选择算法的计算复杂度较大且未考虑特征代价的 问题,提出了一种面向代价敏感数据的多标记特 征选择算法。首先,该方法计算出特征与标记集 合之间的信息增益,在此基础上重新定义了特征 重要度的计算方法,并根据服从正态分布的特征 重要度与特征代价的标准差之间的差值,提出了 一种合理的阈值选择方法,从而实现对冗余或不 相关特征的剔除,同时能得到总代价较低的特征 子集。为了验证算法的有效性,利用 Mulan 平台 上的真实多标记数据集进行实验比较和分析,通 过实验结果进一步验证算法的有效性和可行性。 2 基本知识 2.1 多标记学习 MDT = (U,A∪ D,V, f) U {x1, x2,··· , xn} A {a1,a2,··· ,am} D {l1,l2,··· ,lk} A∩ D = Ø V V = ∪Va a ∈ A∪ D Va a f U ×(A∪ D) → V 在粒计算理论中,多标记数据可表示成一个 多标记决策表 ,其中: 为样 本集 ,也称为论域; 为条件特征集 ; 为多标记决策特征 ,且 ; 为全特征集的值域,其中 , , 表示特征 的值域; 是 的信息函数。 MDT = (U,A∪ D,V, f) ∀a ∈ A a Ra 定 义 1 给定多标记决策表 ,对于 ,特征 的等价关系 为 Ra = {(xi , xj) ∈ U ×U, f(xi ,a) = f(xj ,a)} MDT = (U,A∪ D,V, f) ∀lt ∈ D lt Rlt 定 义 2 给定多标记决策表 ,对于 ,标记 的等价关系 为 Rlt = {(xi , xj) ∈ U ×U, f(xi ,lt) = f(xj ,lt)} 2.2 信息熵 基于条件信息熵下的特征选择是研究者从信 息观视角对高维数据进行特征选择,该方法可有 效地度量信息的不确定性程度。 MDT = (U,A∪ D, V, f) B ⊆ A B RB U/B = {X1,X2,··· ,Xq} B 定义 3 给定多标记决策表 ,对于任意特征子集 ,根据特征子集 的等价关系 可得 ,则特征 子集 的信息熵为 ·930· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有