第15卷第2期 智能系统学报 Vol.15 No.2 2020年3月 CAAI Transactions on Intelligent Systems Mar.2020 D0:10.11992/tis.201905046 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20200312.1147.002.html 基于模糊不一致对的多标记属性约简 高琪,李德玉2,王素格2 (1,山西大学计算机科学与信息技术学院,山西太原030006:2.山西大学计算智能与中文信息处理教育部重 点实验室,山西太原030006) 摘要:在实际生活当中,存在着大量的高维多标记数据,为解决维度灾难问题,通常需要约简属性集。针对目 前的多标记属性约简算法未考虑标记关系问题.本文提出了一种融合标记关系的模糊不一致对多标记属性约 简算法。利用相对嫡(KL散度)度量标记之间的关系,定义标记权重,结合标记权重,定义模糊不一致对,考虑 到属性对于模糊不一致对的区分性,定义属性重要性并进行属性约简。在8个数据集上的对比实验表明,所提 基于模糊不一致对的多标记属性约简算法优于当前的多标记属性约简算法。 关键词:多标记数据:属性约简:模糊不一致对:标记权重;KL散度:标记关系:模糊粗糙集;区分矩阵 中图分类号:TP391文献标志码:A 文章编号:1673-4785(2020)02-0374-12 中文引用格式:高琪,李德玉,王素格.基于模糊不一致对的多标记属性约简.智能系统学报,2020,15(2):374-385. 英文引用格式:GAO Qi,LI Deyu,WANG Suge..Multi-label attribute reduction based on fuzzy inconsistency pairsJ.CAAI trans- actions on intelligent systems,2020,15(2):374-385. Multi-label attribute reduction based on fuzzy inconsistency pairs GAO Qi',LI Deyu'2,WANG Suge2 (1.School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China;2.Key Laboratory of Computation- al Intelligence and Chinese Information Processing of Ministry of Education University,Shanxi University,Taiyuan 030006,China) Abstract:In real life,there is a large amount of multi-label data,and in multi-label data processing,attribute reduction is one of the important methods to solve the high-dimensional disaster of multi-label data.Because there is a relation- ship between labels,in this paper we firstly use the KL divergence metric to determine the relationship between labels, then define the label weight,and then combine the label weight to define the fuzzy inconsistency pairs.Finally,consid- ering the distingishing ability of attributes to the fuzzy inconsistency pairs,we propose a multi-label attribute reduction algorithm based on fuzzy inconsistency pairs.Extensive experiments carried out on eight publicly available data sets verify effectiveness of the proposed algorithm named MLAR-FL by comparing it with some state-of-the-art approaches. Keywords:multi-label data;attribute reduction;fuzzy inconsistency pairs;label weight;Kullback-Leibler divergence; the relationship of labels;fuzzy rough sets;distinguished matrix 传统的监督学习问题中,数据只有一个类别股票等几个主题;一个图片可以有蓝天、湖泊、树 标记变量,通常称为单标记学习问题。但是,在 木、绿地等多个语义标注。因此,对于多标记数 现实世界当中,每个数据对象可能同时具有多个 据的学习,成为近些年的机器学习领域关注重点 语义项。例如,一个新闻可以包含经济、体育、 之一。 收稿日期:2019-05-24.网络出版日期:2020-03-12. 在多标记学习当中,数据的高维性会严重影 基金项目:国家自然科学基金项目(61672331,61573231, 响多标记分类器的性能,因而降维是解决该问题 61432011,61802237):山西省重点研发计划项目 (201803D421024,201903D42I041):山西省高等学校 的重要手段。多标记的特征降维的方法主要有特 优秀成果培育项目(2019SK036):山西省高等学校青 年科研人员培育计划. 征提取和特征选择。特征提取是通过转换或者映 通信作者:李德玉.E-mail:Iidy@sxu.edu.cn 射的方法,将原始高维特征空间转换到一个新的
DOI: 10.11992/tis.201905046 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20200312.1147.002.html 基于模糊不一致对的多标记属性约简 高琪1 ,李德玉1,2,王素格1,2 (1. 山西大学 计算机科学与信息技术学院,山西 太原 030006; 2. 山西大学 计算智能与中文信息处理教育部重 点实验室,山西 太原 030006) 摘 要:在实际生活当中,存在着大量的高维多标记数据,为解决维度灾难问题,通常需要约简属性集。针对目 前的多标记属性约简算法未考虑标记关系问题,本文提出了一种融合标记关系的模糊不一致对多标记属性约 简算法。利用相对熵 (KL 散度) 度量标记之间的关系,定义标记权重,结合标记权重,定义模糊不一致对,考虑 到属性对于模糊不一致对的区分性,定义属性重要性并进行属性约简。在 8 个数据集上的对比实验表明,所提 基于模糊不一致对的多标记属性约简算法优于当前的多标记属性约简算法。 关键词:多标记数据;属性约简;模糊不一致对;标记权重;KL 散度;标记关系;模糊粗糙集;区分矩阵 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)02−0374−12 中文引用格式:高琪, 李德玉, 王素格. 基于模糊不一致对的多标记属性约简 [J]. 智能系统学报, 2020, 15(2): 374–385. 英文引用格式:GAO Qi, LI Deyu, WANG Suge. Multi-label attribute reduction based on fuzzy inconsistency pairs[J]. CAAI transactions on intelligent systems, 2020, 15(2): 374–385. Multi-label attribute reduction based on fuzzy inconsistency pairs GAO Qi1 ,LI Deyu1,2 ,WANG Suge1,2 (1. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China; 2. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education University, Shanxi University, Taiyuan 030006, China) Abstract: In real life, there is a large amount of multi-label data, and in multi-label data processing, attribute reduction is one of the important methods to solve the high-dimensional disaster of multi-label data. Because there is a relationship between labels, in this paper we firstly use the KL divergence metric to determine the relationship between labels, then define the label weight, and then combine the label weight to define the fuzzy inconsistency pairs. Finally, considering the distingishing ability of attributes to the fuzzy inconsistency pairs, we propose a multi-label attribute reduction algorithm based on fuzzy inconsistency pairs. Extensive experiments carried out on eight publicly available data sets verify effectiveness of the proposed algorithm named MLAR-FL by comparing it with some state-of-the-art approaches. Keywords: multi-label data; attribute reduction; fuzzy inconsistency pairs; label weight; Kullback-Leibler divergence; the relationship of labels; fuzzy rough sets; distinguished matrix 传统的监督学习问题中,数据只有一个类别 标记变量,通常称为单标记学习问题[1]。但是,在 现实世界当中,每个数据对象可能同时具有多个 语义项[2]。例如,一个新闻可以包含经济、体育、 股票等几个主题;一个图片可以有蓝天、湖泊、树 木、绿地等多个语义标注。因此,对于多标记数 据的学习,成为近些年的机器学习领域关注重点 之一。 在多标记学习当中,数据的高维性会严重影 响多标记分类器的性能,因而降维是解决该问题 的重要手段。多标记的特征降维的方法主要有特 征提取和特征选择。特征提取是通过转换或者映 射的方法,将原始高维特征空间转换到一个新的 收稿日期:2019−05−24. 网络出版日期:2020−03−12. 基金项目:国家自然科学基金项 目 (61672331, 61573231, 61432011, 61802237);山西省重点研发计划项目 (201803D421024, 201903D421041);山西省高等学校 优秀成果培育项目 (2019SK036);山西省高等学校青 年科研人员培育计划. 通信作者:李德玉. E-mail:lidy@sxu.edu.cn. 第 15 卷第 2 期 智 能 系 统 学 报 Vol.15 No.2 2020 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2020
第2期 高琪,等:基于模糊不一致对的多标记属性约简 ·375· 低维特征空间的过程。 设B是一个属性子集,相对于决策属性D,样 常见的特征提取方法包括线性判别分析 本x和y在B下的满意度(satisfiability)定义为 (LDA)I、特征抽取方法MDDM)和多标记潜在 minfug(x,y))max(1-ug.(x,y)), 语义搜索(MLSI)。特征提取方法虽然能够提高 SATRD(M'(x,y))= N(uR,(x,y)=1: 多标记分类器的分类性能,但该方法形成的新特 0,N(ugp(x,y))=0 征空间失去了原特征的语义。不同于特征提取的 总满意度(total satisfiability)定义为 方法,特征选择方法是根据一定的评价准则,从 原始的特征空间中选择一个(组)最优特征子集 sTMB。kE SAT(M'(x,y)) 的过程。常见的评价准则有依赖性度量、信息 SATD(M'(x.y)) 度量、距离度量以等。例如,Spolaor等基 性质113引 给定一个决策表, 于二元关系方法和标签幂集法,提出了基于多标 BCA是一个条件属性子集。若B满足以下条件: 记的特征选择方法(RF-BR、RF-LP、IG-BR、IG- 1)SAT(B)=SAT(A)=1: LP):Li等利用最大化信息增益来度量特征和标 2)YB'C B,SAT(B)的一个模糊粗糙 择算法IGML)等。 约简。 在模糊粗糙集模型中,使用模糊相似关系代 为表述方便,在下文中,对a∈A,记 替经典粗糙集模型中的等价关系,进而衡量两个 sima(x,y)=ug(x.y) 对象之间的不可区分性。在模糊粗糙集理论中, disa(x,y)=N(uR(x,y) 模糊区分矩阵概念被提出B,Chen等提出了 定义21给定一个决策表,模糊 ~种基于区分矩阵中的最小元素集的属性约简方 区分矩阵中每一项对应于样本对(xy),则该样本 法,提高了属性约简的计算效率。Dai等6提出 对对应的最大模糊区分属性定义为 种基于模糊粗糙集合的最大区分对的属性约简 [aldis(x,y)=max dis(y),aA) 算法。 MDAAD(x,y)= 4e(x,y)=0 在多标记学习中,每个样本可能同时隶属于 Φ, 4R(c,y)=1 多个标记,标记之间也可能存在着某种关系,因 对于Va∈A,其对应的最大模糊区分对定义为 而本文针对多标记学习问题,利用KL散度度量 MDP.D(Uの={x,y)la E MDAD(x,y),(x,y)∈U×U) 标记间的关系,并定义标记权重。考虑权重情 由于MDA D(x,y)的对称性,则上式可定 况,定义模糊不一致对,提出一种基于模糊不一 义为 致对的多标记属性约简方法(MLAR-FL),并通过 MDP。D(U)={(,xla∈MDAAD(x,x, 实验验证了本文算法的有效性。 Yx,x∈U,i,若 1基本概念 B为一个属性子集,则有 MDP D(U)=U MDP D(U) 给定一个决策表,其中U={x1, VaER x2,“,xm}为非空有限样本集合,称其为论域, 性质31%给定一个决策表,若属 A={a,a2,…,ap}为非空有限的条件属性集,D为 性子集B满足: 一个决策属性。设B为一个条件属性子集,R。为 1)MDP D(U)=MDP D(U月 由属性a所决定的U上的模糊二元关系,Ro为由 2)VB'C B,MDP D(U)C MDP D(U). 决策属性D决定的U上的二元关系,4(xy为由 则B为决策表的一个约简。 R。导出的U上的某个二元关系,称为样本x,y在 2多标记属性约简方法 属性a下的模糊不可区分度。N(u(xy)Fl-R(xy) 表示样本xy在属性下的模糊可区分度。 给定一个多标记决策表S=,其中 定义11给定一个决策表,决定 U={x,x2,,xn}为样本集,A={a,a,,a}为条 一个模糊区分矩阵M,其中的项定义为 件属性集,L={l,12,,1}为标记集。若样本x拥 M'(x,y)={aMa.ela∈A,Yx,y∈U 有标记1,则(x)=1,否则x=0。 值得注意的是,上述区分矩阵每个项中的元 定义3 181 KL散度(Kullback-Leibler diver- 是一个带有模糊可区分度值的条件属性集。 gence)。设p和q是概率空间2下的两个概率分布
低维特征空间的过程。 常见的特征提取方法包括线性判别分 析 (LDA)[3] 、特征抽取方法 (MDDM)[4] 和多标记潜在 语义搜索 (MLSI)[5]。特征提取方法虽然能够提高 多标记分类器的分类性能,但该方法形成的新特 征空间失去了原特征的语义。不同于特征提取的 方法,特征选择方法是根据一定的评价准则,从 原始的特征空间中选择一个 (组) 最优特征子集 的过程。常见的评价准则有依赖性度量[6] 、信息 度量[7-8] 、距离度量[9-12] 等。例如,Spolaôr 等 [12] 基 于二元关系方法和标签幂集法,提出了基于多标 记的特征选择方法 (RF-BR、RF-LP、IG-BR、IGLP);Li 等 [8] 利用最大化信息增益来度量特征和标 记的相关性,提出基于信息增益的多标记特征选 择算法 (IGML) 等。 在模糊粗糙集模型中,使用模糊相似关系代 替经典粗糙集模型中的等价关系,进而衡量两个 对象之间的不可区分性。在模糊粗糙集理论中, 模糊区分矩阵概念被提出[13-14] ,Chen 等 [15] 提出了 一种基于区分矩阵中的最小元素集的属性约简方 法,提高了属性约简的计算效率。Dai 等 [16] 提出 一种基于模糊粗糙集合的最大区分对的属性约简 算法。 在多标记学习中,每个样本可能同时隶属于 多个标记,标记之间也可能存在着某种关系,因 而本文针对多标记学习问题,利用 KL 散度度量 标记间的关系,并定义标记权重。考虑权重情 况,定义模糊不一致对,提出一种基于模糊不一 致对的多标记属性约简方法 (MLAR-FL),并通过 实验验证了本文算法的有效性。 1 基本概念 给定一个决策表,其中 U={x 1, x 2, ···, x n }为非空有限样本集合,称其为论域, A={a1,a2,···,ap}为非空有限的条件属性集,D 为 一个决策属性。设 B 为一个条件属性子集,Ra 为 由属性 a 所决定的 U 上的模糊二元关系,RD 为由 决策属性 D 决定的 U 上的二元关系,uRa(x,y) 为由 Ra 导出的 U 上的某个二元关系,称为样本 x,y 在 属性 a 下的模糊不可区分度。N(uRa(x,y))=1−uRa(x,y) 表示样本 x,y 在属性下的模糊可区分度。 定义 1 [13] 给定一个决策表,决定 一个模糊区分矩阵 M′,其中的项定义为 M′ (x, y) = {aN(uRa (x,y))|a ∈ A,∀x, y ∈ U} 值得注意的是,上述区分矩阵每个项中的元 是一个带有模糊可区分度值的条件属性集。 设 B 是一个属性子集,相对于决策属性 D,样 本 x 和 y 在 B 下的满意度 (satisfiability) 定义为[17] SATB,D(M′ (x, y)) = min a∈B {uRa (x, y)} = max a∈B {1−uRa (x, y)}, N(uRD (x, y)) = 1; 0, N(uRD (x, y)) = 0 总满意度 (total satisfiability) 定义为 SAT(B) = ∑ x,y∈U,x,y SATB,D(M′ (x, y)) ∑ x,y∈U,x,y SATA,D(M′ (x, y)) ⊂ 性 质 1 [ 1 3 ] 给定一个决策表 , B A 是一个条件属性子集。若 B 满足以下条件: 1) SAT(B) = SAT(A) = 1; ∀B ′ ⊂ B,SAT(B ′ 2) ) 的一个模糊粗糙 约简。 为表述方便,在下文中,对 a∈A,记 sima(x, y) = uRa (x, y) disa(x, y) = N(uRa (x, y)) 定义 2 [15] 给定一个决策表,模糊 区分矩阵中每一项对应于样本对 (x,y),则该样本 对对应的最大模糊区分属性定义为 MDAAD(x, y) = {a|disA(x, y) = max a∈A disa(x, y),a ∈ A} uRD (x, y) = 0 Φ, uRD (x, y) = 1 对于∀a∈A,其对应的最大模糊区分对定义为 MDPaD(U) = {(x, y)|a ∈ MDAAD(x, y),(x, y) ∈ U ×U} 由于 MDAA D(x,y) 的对称性,则上式可定 义为 MDP′ aD(U) = {(xi , xj)|a ∈ MDAAD(xi , xj), ∀xi , xj ∈ U,i ,若 B 为一个属性子集,则有 MDP′ BD(U) = ∪ ∀a∈B MDP′ aD(U) 性质 3 [16] 给定一个决策表,若属 性子集 B 满足: MDP′ BD(U) = MDP′ 1) AD(U); ∀B ′ ⊂ B,MDP′ B′D(U) ⊂ MDP′ 2) BD(U)。 则 B 为决策表的一个约简。 2 多标记属性约简方法 给定一个多标记决策表 S=,其中 U={x1,x2,···,xn}为样本集,A={a1,a2,···,ad}为条 件属性集,L={l1,l2,···,lq}为标记集。若样本 x 拥 有标记 li,则 li (x)=1,否则 li (x)=0。 Ω 定义 3 [18] KL 散度 (Kullback-Leibler divergence)。设 p 和 q 是概率空间 下的两个概率分布。 第 2 期 高琪,等:基于模糊不一致对的多标记属性约简 ·375·
·376· 智能系统学报 第15卷 Dx(plk)=∑()og因 3 (1) q(x) 式中Dk(pq)称为分布p关于分布q的KL散度。 W1 2=0.2847 KL散度常被用来度量两个随机变量的差 之∑D,H 异。其值越小表明用p拟合g差异越小。 给定一个多标记决策表S=,对于 DHIH) j=1 廿1,∈L,将其看做{0,1}上的随机变量,对应的概 w2=1- 2=0.4136 率分布记为H,对廿l.I∈L,则l相对于1,的KL ∑∑D,HA 散度定义为 11 3 D,HIH)=∑H(内ogH Hi(k (2) 20 k0.1 w3=1- 2=0.3017 对一个多标记决策表S=,标记空间 ∑∑DHH) L中的标记的重要性各不相同。为此,可以利用 KL散度,定义这些标记的权重。 定义5给定一个多标记决策表S=,对应的标记权重集W={w,w2,…,wg,定义决 A,L>,对廿l,∈L,定义其在决策表上的权重为 策表上的模糊不一致样本对集合为 FPaD={(x,yl3∈L,l4()≠ly),xy∈U (4) 模糊一致样本对集合为 w:=1- q-1 1,则对于每一个属于模糊度量矩阵的样本对而 0.3 0.2 0.1 0 0 1 言,区分样本的最大模糊不相似属性集定义为 -0 0 0 0 (aldisa(x,y)=max dis(x,y),aA), 0 MDAAD(x,y)= 0.2 DIS(x,y)≠0 -0 0 DIS(x,y)=0 Xs 0.7 0.4 0.3 0 0 (8) 性质4对于最大模糊不相似属性集有 由表1可得标记变量的概率分布:p(1)=35, MDA D(x.y)=MDAAD(y,x) (9) pP(0=2/5;P(1)=2/5,p2(0=3/5;p:(1)=1/5,p(0)=4/5: 证明由于模糊区分矩阵具有对称性。根据 根据定义3可得标记之间KL散度为 定义6,性质4可得证。 Da=Pa(0)log P2() 定义7给定一个多标记决策表S=,则对于a∈A,可定义在该属性上的最大模 Das=P:(O)log P2() P3(O +PI)log(四 糊不相似样本对为 p3(1) MDFIPD(U)=((x.y)la E MDA D(x,y). 同理可得D21、D1、D3、D23;根据定义4,可得 (x,y)∈FPAD (10) 标记权重: 定义8给定一个多标记决策表S=<U,A
DKL(p||q) = ∑ x∈Ω p(x)log p(x) q(x) (1) 式中 DKL(p||q) 称为分布 p 关于分布 q 的 KL 散度。 KL 散度常被用来度量两个随机变量的差 异。其值越小表明用 p 拟合 q 差异越小。 给定一个多标记决策表 S=,对于 ∀li∈L,将其看做{0,1}上的随机变量,对应的概 率分布记为 Hi,对∀li, lj∈L,则 lj 相对于 li 的 KL 散度定义为 Di j(Hi ||Hj) = ∑ k∈{0,1} Hi(k)log Hi(k) Hj(k) (2) 对一个多标记决策表 S=,标记空间 L 中的标记的重要性各不相同。为此,可以利用 KL 散度,定义这些标记的权重。 定 义 4 给定一个多标记决策 表 S = ,对∀li∈L,定义其在决策表上的权重为 wi = 1− ∑q j=1 Di j(Hi ||Hj) ∑q i=1 ∑q j=1 Di j(Hi ||Hj) · 1 q−1 , 1 ,U={x1,x2,x3,x4,x5},A={a1,a2,a3},L={l1,l2,l3}。 表 1 一个多标记决策表 Table 1 A multi-label decision table U a1 a2 a3 l1 l2 l3 x1 0.2 0.3 −0.2 1 1 0 x2 0.3 0.2 0.1 0 0 1 x3 −0.1 0 0 1 1 0 x4 −0.2 −0.1 0 1 0 0 x5 0.7 0.4 0.3 0 0 0 由表 1 可得标记变量的概率分布:p1 (1)=3/5, p1 (0)=2/5;p2 (1)=2/5,p2 (0)=3/5;p3 (1)=1/5,p3 (0)=4/5; 根据定义 3 可得标记之间 KL 散度为 D21 = p2(0)log p2(0) p1(0) + p2(1)log p2(1) p1(1) D23 = p2(0)log p2(0) p3(0) + p2(1)log p2(1) p3(1) 同理可得 D21、D31、D13、D23;根据定义 4,可得 标记权重: w1 = 1− ∑3 j=1 D1 j(H1 ||Hj) ∑3 i=1 ∑3 j=1 Di j(Hi ||Hj) · 1 2 = 0.284 7 w2 = 1− ∑3 j=1 D1 j(H1 ||Hj) ∑3 i=1 ∑3 j=1 Di j(Hi ||Hj) · 1 2 = 0.413 6 w3 = 1− ∑3 j=1 D1 j(H1||Hj) ∑3 i=1 ∑3 j=1 Di j(Hi ||Hj) · 1 2 = 0.301 7 定义 5 给定一个多标记决策表 S=,对应的标记权重集 W={w1,w2,···,wq},定义决 策表上的模糊不一致样本对集合为 FIPAD = {(x, y)|∃lk ∈ L,lk(x) , lk(y), x,y ∈ U} (4) 模糊一致样本对集合为 FCPAD = {(x,y)|∀lk ∈ L,lk(x) = lk(y), x,y ∈ U} (5) 对于每一个模糊不一致样本对,定义 LL(x, y) = {i|li(x) , li(y),1 ⩽ i ⩽ q,(x, y) ∈ FIPAD} (6) 为模糊不一致样本对包含的不一致的标签集 合。同时定义: DIS(x, y) = ∑ k∈LL(x,y) wk , (x, y) ∈ FIPAD 0, (x, y) ∈ FCPAD (7) 为模糊不一致样本对的模糊度量矩阵,若 DIS(x,y) 为 0,则表示 x,y 在标签集合上为一致的, 若 DIS(x,y) 不为 0,则表示 x,y 在标签集合上为不 一致的,且值越大,则表示样本之间的不一致程 度越大。 定义 6 给定一个多标记决策表 S=,则对于每一个属于模糊度量矩阵的样本对而 言,区分样本的最大模糊不相似属性集定义为 MDAAD(x, y) = {a|disA(x, y) = max a∈A disa(x, y),a ∈ A}, DIS(x, y) , 0 φ, DIS(x, y) = 0 (8) 性质 4 对于最大模糊不相似属性集有 MDAAD(x, y) = MDAAD(y, x) (9) 证明 由于模糊区分矩阵具有对称性。根据 定义 6,性质 4 可得证。 定义 7 给定一个多标记决策表 S=,则对于∀a∈A,可定义在该属性上的最大模 糊不相似样本对为 MDFIPaD(U) = {(x, y)|a ∈ MDAAD(x, y), (x, y) ∈ FIPAD} (10) 定义 8 给定一个多标记决策表 S=<U,A, ·376· 智 能 系 统 学 报 第 15 卷
第2期 高琪,等:基于模糊不一致对的多标记属性约简 ·377 L>,VB二A,定义: SAT(B)=SAT(A)台 MDFIPD(U)=MDFIP,D(U) (11) max(1-ug(x.y)), DIS(x,y)≠0 VaeB E.yEll.xty 0, DIS(x,y)=0 性质5给定一个多标记决策表S=,对于属性子集B,则 DIS(x.y)=0 MDFIP D(U)C MDFIP D(U),VBCA (12) disa(x,y),Va∈MDABD= 证明根据定义8,性质5可得证。 性质6给定一个多标记决策表S=,VBCBEA,MDFIPD(U)EMDFIP D(U) MDFIP D(U)=MDFIPAD(U) 证明由于B二B,所以假设B'={a1,a2,a}, 同理可得: B={a,a2,,a4},则由定义8可得: SAT(B),廿a∈A,简化后的最大模糊相似对定义为 MDFIPD(U)UMDFIPD(U)= MDFIPD(U)UJMDFIPD(U) MDFIP D(U)=[(xi,x)la E MDAAD(xi,x), (15) Hx,xj∈U,ij} 由上述性质可得,MDFIP&D(U)在属性子集 定义10给定一个多标记决策表S=,对于一个属性子集B二A,则其对应的约简后 性质7给定一个多标记决策表S=,对于VB'二B,VaeC-B,则 MDFIP,D(U)=JMDFIP,D(U) (17) MDFIP D(U),MDFIPD(U)=MDFIPD(U),当且仅当 L>,VBCBEA,MDFIP'D(U)E MDFIP'D(U). MDFIPD(U)-MDFIP D(U)l 证明根据定义10,显然,寸a∈B, 证明根据性质5中式(12),可得MDFIP&: MDFIP'gD(U)是由MDFIP'D(U)组成的,因而可 D(U)=MDFIP,D(U)台MDFIP&·D(UI=IMD- 得,MDFIP'aD(U)MDFIP'DU),VBSB,即证。 FIPD(U儿 性质11给定一个多标记决策表S=,MDFIP'BDU)=MDFIP'D(U),当且仅当IMD- L>,若属性子集B满足条件: FIP'D(U)=MDFIP'D(U) 1)MDFIPD(U)=MDFIPD(U) 证明根据定义10和性质7,性质11可得证。 2)VB'C B.MDFIP D(U)C MDFIP D(U) 性质12给定一个多标记决策表S=,属性子集B是满足条件: 证明 1)MDFTPD(U)=MDFTP D(U) SAT(B)= 2)VB C B,MDFTP D(U)C MDFTP D(U) ∑SATs(M',W 则B是该决策表的一个约简。 证明根据定义10和性质7,性质12可得证。 SATL(M'(x,y)) 定义11给定一个多标记决策表S=,BSA,Va∈A-B,在条件属性子集B的基础 上,属性a相对于标签集L的重要度定义为 te中 0 DIS(x,y)=0 max(1-uga(x,y), DIS(x,y)0 sig(a,B,D=∑DIS(x.(k)∈MDFIP,D(U(19) 0, DIS(x,y)=0 根据前文所述,本文所设计的基于模糊不一 若B为一个约简,则相当于 致对的属性约简算法如下所示
L>,∀B⊆A,定义: MDFIPBD(U) = ∪ ∀a∈B MDFIPaD(U) (11) 性质 5 给定一个多标记决策表 S=,对于属性子集 B,则 MDFIPBD(U) ⊆ MDFIPAD(U),∀B ⊆ A (12) 证明 根据定义 8,性质 5 可得证。 性质 6 给定一个多标记决策表 S=,∀B'⊆B⊆A,MDFIPB'D(U)⊆MDFIPBD(U)。 证明 由于 B′⊆B,所以假设 B′={a1,a2,a3}, B={a1,a2,a3,a4},则由定义 8 可得: MDFIPB′D(U) = MDFIPa1D(U) ∪ MDFIPa2D(U) ∪ MDFIPa3D(U) MDFIPBD(U) = MDFIPa1D(U) ∪ MDFIPa2D(U) ∪ MDFIPa3D(U) ∪ MDFIPa4D(U) = MDFIPB′D(U) ∪ MDFIPa4D(U) MDFIPB′D(U) ∪ MDFIPa4 D(U) ⊇ MDFIPB′D(U) 由并运算的性质可得, ,则性质 6 可证。 由上述性质可得,|MDFIPBD(U)|在属性子集 B 上,满足单调性。 性质 7 给定一个多标记决策表 S=,对于∀B′⊆B,∀a∈C–B′,则 |MDFIPB′D(U)| ⩽ |MDFIPBD(U)| (13) |MDFIPCB′D(U)| ⩽ MDFIPB′∪{a}D(U) (14) 性质 8 给定一个多标记决策表 S=, MDFIP B 'D(U)=MDFIP AD(U),当且仅当 |MDFIPB'D(U)|=|MDFIPAD(U)|。 ⇔ 证明 根据性质 5 中式 (12),可得 MDFIPB ′ D(U)=MDFIP AD(U) |MDFIP B ′ D(U)|=|MD– FIPAD(U)|, 性质 9 给定一个多标记决策表 S=,若属性子集 B 满足条件: 1) MDFIPBD(U) = MDFIPAD(U) ∀B ′ 2) ⊂ B,MDFIPB′D(U) ⊂ MDFIPBD(U) 则 B 为该决策表的一个约简。 证明 ∑ SAT(B) = x,y∈U,x,y SATB,L(M′ (x, y)) ∑ x,y∈U,x,y SATA,L(M′ (x, y)) = ∑ x,y∈U,x,y max a∈B {1−uRa(x, y)}, DIS(x, y) , 0 0, DIS(x, y) = 0 ∑ x,y∈U,x,y max a∈A {1−uRa(x, y)}, DIS(x, y) , 0 0, DIS(x, y) = 0 若 B 为一个约简,则相当于 SAT(B) = SAT(A) ⇔ ∑ x,y∈U,x,y max a∈B {1−uRa(x, y)}, DIS(x, y) , 0 0, DIS(x, y) = 0 = ∑ x,y∈U,x,y max a∈A {1−uRa(x, y)}, DIS(x, y) , 0 0, DIS(x, y) = 0 ⇔ ∑ x,y∈U,x,y disa(x, y),∀a ∈ MDABD = ∑ x,y∈U,x,y disa(x, y),∀a ∈ MDAAD ⇔ MDFIPBD(U) = MDFIPAD(U) 同理可得: SAT(B ′ ) ,∀a∈A,简化后的最大模糊相似对定义为 MDFIP′ aD(U) = {(xi , xj)|a ∈ MDAAD(xi , xj), ∀xi , xj ∈ U,i j} (16) 定义 10 给定一个多标记决策表 S=,对于一个属性子集 B⊆A,则其对应的约简后 的最大模糊相似对定义为 MDFIP′ BD(U) = ∪ a∈B MDFIP′ aD(U) (17) MDFIP∗ BD(U) = ∪ a∈B MDFIP∗ aD(U) (18) 性质 10 给定一个多标记决策表 S=,∀B'⊆B⊆A,MDFIP'B'D(U)⊆MDFIP'BD(U)。 证 明 根据定 义 1 0 ,显然, ∀ a ∈ B , MDFIP′BD(U) 是由 MDFIP′aD(U) 组成的,因而可 得,MDFIP′B′D(U)⊆MDFIP′BD(U),∀B′⊆B,即证。 性质 11 给定一个多标记决策表 S=,MDFIP′BD(U)=MDFIP′AD(U),当且仅当|MDFIP′BD(U)|=|MDFIP′AD(U)| 证明 根据定义 10 和性质 7,性质 11 可得证。 性质 12 给定一个多标记决策表 S=,属性子集 B 是满足条件: MDFTP′ BD(U) = MDFTP′ 1) AD(U) ∀B ′ ⊂ B,MDFTP′ B′D(U) ⊂ MDFTP′ 2) BD(U) 则 B 是该决策表的一个约简。 证明 根据定义 10 和性质 7,性质 12 可得证。 定义 11 给定一个多标记决策表 S=,B⊆A,∀a∈A−B,在条件属性子集 B 的基础 上,属性 a 相对于标签集 L 的重要度定义为 sig(a,B,L) = ∑ x,y∈U,x,y DIS(x, y),(x, y) ∈ MDFIP′ aD(U) (19) 根据前文所述,本文所设计的基于模糊不一 致对的属性约简算法如下所示。 第 2 期 高琪,等:基于模糊不一致对的多标记属性约简 ·377·
·378· 智能系统学报 第15卷 算法1基于模糊不一致对的属性约简算法 15)else (MLAR-FL) 16)2=0: 输入决策表; 17)end if 输出约简后的属性子集。 18)end while 1)red=0;R=4;=1; 在实验中,对于数值型数据的属性α,样本 2)for lEL x,y之间的模糊二元关系的度量为 3)根据式(3)计算标记的权重; 4)end for ux.(xy)=max(min(f.y)-f()+ 5)初始化:DIS,MDFIPA'D(U) f(a,x)+a-f(a,y ),0) 6)while z=1 对于符号型数据的属性a,样本x,y之间的模 7)B=red; 糊二元关系的度量为 8)for Va∈R 9)根据式(19)计算属性的重要性; 0, f(a,y)≠f(a,x) ug.(x.y)= 1, f(a,y)=f(a,x) 10)end for 11)取最大属性重要性的的属性值y,对应属 3 实验及结果分析 性为k 12)ify>0 3.1 实验设置 13)red=red+k;R=R-k; 采用8个Mulan数据集进行实验,数据集描 14)DIS(xy)=0,(xy)E MDFIP,'D(U); 述如表2所示。 表2数据集描述 Table 2 Description of datasets 数据集 实例数 属性数 标签数 数据类型 训练样本数 测试样本数 arts 5000 462 26 数值型 2000 3000 business 5000 438 30 数值型 2000 3000 computer 5000 681 33 数值型 2000 3000 education 5000 550 33 数值型 2000 3000 health 5000 612 32 数值型 2000 3000 recreation 5000 606 22 数值型 2000 3000 reference 5000 793 33 数值型 2000 3000 science 5000 743 40 数值型 2000 3000 本文采用十折交叉验证,将提出的方法基于 3.2评价指标 模糊不一致对的属性约简算法(MLAR-FL)与下 在多标签分类当中,我们常使用6种指标来 列算法进行对比实验。基于标记关系的模糊粗糙 评价分类学习算法的好坏,即Average Precision 模型提出的属性约简算法(FRMFS)劉;基于模糊 (AP)、Ranking Loss(RL)、Hamming Loss(HL)、Cov- 粗糙集的多标签属性约简算法(MLFRS)I,ML- eraget(CV)、One-eror(OE)、Micro-Fl(Fl)9。 FRS算法对标记不同的样本进行抽样,重新定义 令测试集为Z={(:,Y)1CR×(+1,-1P,根据 上下近似,从而得到新的特征选择的模型;基于 预测函数w可定义排序函数ank化,)∈{1,2,,q}。 标记权重的多标签属性约简算法(LWMF)20:基 Average Precision(AP):用于考察所有样本的预 于Relieff的多标签属性约简算法(RF-ML)P,其 测标记排序中位置排在该样本标记前面的标记仍 利用分类间隔赋予特征权重,再利用特征对于标 属于该样本标记的概率的平均,数值越大,说明 记的区分行进行特征选择。将5种属性约简方法 算法的性能越好,定义为 在多标签分类的评价指标上进行比较。由于LW avgPre(f)= MF算法和RF-ML算法为排序算法,最后分类器 11 (krank((x,)≤rank(x,),k∈Rl 选择特征的个数由MLFRS最后得到的特征个数 n台R成 rank(xi,1) 决定。 Ranking Loss(RL):用来考察所有样本的不相
算法 1 基于模糊不一致对的属性约简算法 (MLAR-FL) 输入 决策表; 输出 约简后的属性子集。 1) red=Ø;R=A;z=1; 2) for l∈L 3) 根据式 (3) 计算标记的权重; 4) end for 5) 初始化:DIS,MDFIPA′D(U) 6) while z=1 7) B=red; 8) for ∀a∈R 9) 根据式 (19) 计算属性的重要性; 10) end for 11) 取最大属性重要性的的属性值 yk,对应属 性为 k; 12) if yk>0 13) red=red+k;R=R−k; 14) DIS(x,y)=0,(x,y)∈MDFIPk ′D(U); 15) else 16) z=0; 17) end if 18) end while 在实验中,对于数值型数据的属性 a,样本 x,y 之间的模糊二元关系的度量为 uRa (x, y) = max(min( f(a, y)− f(a, x)+σa σa , f(a, x)+σa − f(a, y) σa ),0) 对于符号型数据的属性 a,样本 x,y 之间的模 糊二元关系的度量为 uRa (x, y) = { 0, f(a, y) , f(a, x) 1, f(a, y) = f(a, x) 3 实验及结果分析 3.1 实验设置 采用 8 个 Mulan 数据集进行实验,数据集描 述如表 2 所示。 表 2 数据集描述 Table 2 Description of datasets 数据集 实例数 属性数 标签数 数据类型 训练样本数 测试样本数 arts 5 000 462 26 数值型 2 000 3 000 business 5 000 438 30 数值型 2 000 3 000 computer 5 000 681 33 数值型 2 000 3 000 education 5 000 550 33 数值型 2 000 3 000 health 5 000 612 32 数值型 2 000 3 000 recreation 5 000 606 22 数值型 2 000 3 000 reference 5 000 793 33 数值型 2 000 3 000 science 5 000 743 40 数值型 2 000 3 000 本文采用十折交叉验证,将提出的方法基于 模糊不一致对的属性约简算法 (MLAR-FL) 与下 列算法进行对比实验。基于标记关系的模糊粗糙 模型提出的属性约简算法 (FRMFS)[18] ;基于模糊 粗糙集的多标签属性约简算法 (MLFRS)[19] ,MLFRS 算法对标记不同的样本进行抽样,重新定义 上下近似,从而得到新的特征选择的模型;基于 标记权重的多标签属性约简算法 (LWMF)[20] ;基 于 ReliefF 的多标签属性约简算法 (RF-ML)[21] ,其 利用分类间隔赋予特征权重,再利用特征对于标 记的区分行进行特征选择。将 5 种属性约简方法 在多标签分类的评价指标上进行比较。由于 LWMF 算法和 RF-ML 算法为排序算法,最后分类器 选择特征的个数由 MLFRS 最后得到的特征个数 决定。 3.2 评价指标 在多标签分类当中,我们常使用 6 种指标来 评价分类学习算法的好坏,即 Average Precision (AP)、Ranking Loss(RL)、Hamming Loss(HL)、Coverage(CV)、One-error(OE)、Micro-F1(F1)[19]。 Z = {(xi ,Yi)} n i=1 ⊂ R d × {+1,−1} 令测试集为 q ,根据 预测函数 ft (x) 可定义排序函数 rankf (x,l)∈{1,2,···,q}。 Average Precision(AP):用于考察所有样本的预 测标记排序中位置排在该样本标记前面的标记仍 属于该样本标记的概率的平均,数值越大,说明 算法的性能越好,定义为 avgPre(f) = 1 n ∑n i=1 1 |Ri | ∑ l∈Ri {k|rankf(xi , k) ⩽ rankf(xi ,l), k ∈ Ri} rankf(xi ,l) Ranking Loss(RL):用来考察所有样本的不相 ·378· 智 能 系 统 学 报 第 15 卷
第2期 高琪,等:基于模糊不一致对的多标记属性约简 ·379· 关标记的排序在相关标记前面的概率的平均,数 法的性能越好,定义为 值越小,说明算法的性能越好,定义为 1" rLoss(f)=- i=l n台RR Micro-F1(FI):用于衡量在不同标签下的预测 情况,数值越大,说明算法的性能越好,定义为 IlL,k)ranky(,)≥rank((x,k),(亿,k)eR×Rl Hamming Loss(HL:用于度量样本在单个标记 2×∑IYn i=l 上的误分类的情况,数值越小,说明算法的性能 F1= 越好,定义为 hLoss()=1乃1 L 1 h()≠Ya 3.3实验结果与分析 本文采用MLKNN221分类器进行实验,设置 Coverage(CV):用于度量样本遍历所有与其相 K取10,平滑系数取1。 关的类别标记平均所需要的步数,数值越小,说 表3~8列出了在8个数据集上,MLAR-FL算 明算法的性能越好,定义为 法与其余4种算法在6种评价指标上面的实验结 1 coverae(=∑x(rank,-l 果。对于给定的评价指标,符号“1”表示该评价指 标的取值越小,分类性能越优;符号“↑”表示该评 Onc-error((OE):用于表示排名靠前的标签不在 价指标的取值越大,分类性能越优。当中,最优 正确的标签集中的样本比例,数值越小,说明算 结果使用加粗表示。 表3AP评价指标下各算法的性能比较(t) Table 3 Performance comparison of algorithms under AP evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 0.4245±0.0194 0.4630±0.0163 0.4606±0.0212 0.4355±0.0194 0.4993±0.0263 business 0.8604±0.0198 0.8612±0.0197 0.8603±0.0209 0.8621±0.0193 0.8704±0.0160 computer 0.5990±0.0170 0.6135±0.0174 0.6156±0.0229 0.6031±0.0193 0.6347±0.0184 education 0.4790±0.0301 0.5108±0.0291 0.5280±0.0299 0.4866±0.0247 0.5421±0.0291 health 0.6148±0.0188 0.6343±0.0119 0.6294±0.0255 0.6196±0.0166 0.6674±0.0165 recreation 0.3723±0.0149 0.4050±0.0173 0.3392±0.0136 0.3829±0.0189 0.4436±0.0151 reference 0.5636±0.0359 0.5835±0.0340 0.5836±0.0336 0.5663±0.0339 0.6092±0.0308 science 0.4005±0.0182 0.4106±0.0167 0.4039±0.0172 0.3969±0.0200 0.4469±0.0276 平均分类结果 0.5392 0.5602 0.5525 0.5441 0.5892 表4RL评价指标下各算法的性能比较() Table 4 Performance comparison of algorithms under RL evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 0.1811±0.0077 0.1698±0.0069 0.1692±0.0084 0.1802±0.0086 0.1555±0.0103 business 0.0491±0.0095 0.0487±0.0094 0.0497±0.0101 0.0480±0.0087 0.0423±0.0074 computer 0.1045±0.0064 0.0991±0.0065 0.0998±0.0082 0.1038±0.0071 0.0904±0.0054 education 0.1097±0.0093 0.0999±0.0099 0.0965±0.0106 0.1075±0.0081 0.0915±0.0111 health 0.0812±0.0062 0.0752±0.0049 0.0791±0.0058 0.0810±0.0059 0.0660±0.0048 recreation 0.2241±0.0083 0.2086±0.0070 0.2149±0.0083 0.2189H0.0122 0.1952±0.0076 reference 0.1064±0.0108 0.0991±0.0096 0.1009±0.0100 0.1053±0.0100 0.0886±0.0090 science 0.1545±0.0102 0.1512±0.0098 0.1508±0.0087 0.1527±0.0100 0.1426±0.0107 平均分类结果 0.1263 0.1189 0.1201 0.1246 0.1090
关标记的排序在相关标记前面的概率的平均,数 值越小,说明算法的性能越好,定义为 rLoss(f) = 1 n ∑n i=1 1 |Ri | − Ri · |{(l, k)|rankf(xi ,l) ⩾ rankf(xi , k),(l, k) ∈ Ri × − Ri}| Hamming Loss(HL):用于度量样本在单个标记 上的误分类的情况,数值越小,说明算法的性能 越好,定义为 hLoss(h) = 1 n ∑n i=1 1 L ∑L l=1 [hl(xi) , Yil] Coverage(CV):用于度量样本遍历所有与其相 关的类别标记平均所需要的步数,数值越小,说 明算法的性能越好,定义为 coverage(f) = 1 n ∑n i=1 max l∈Ri (rankf(xi ,l))−1 One-error(OE):用于表示排名靠前的标签不在 正确的标签集中的样本比例,数值越小,说明算 法的性能越好,定义为 OE = 1 n ∑n i=1 [ (argmaxyi∈L f(xi , yi)) < Y ′ i ] Micro-F1(F1):用于衡量在不同标签下的预测 情况,数值越大,说明算法的性能越好,定义为 F1 = 2× ∑n i=1 Y ′ i ∩yi 1 ∑n i=1 ∥yi∥1 + ∑n i=1 Y ′ i 1 3.3 实验结果与分析 本文采用 MLKNN[22] 分类器进行实验,设置 K 取 10,平滑系数取 1。 表 3~8 列出了在 8 个数据集上,MLAR-FL 算 法与其余 4 种算法在 6 种评价指标上面的实验结 果。对于给定的评价指标,符号“↓”表示该评价指 标的取值越小,分类性能越优;符号“↑”表示该评 价指标的取值越大,分类性能越优。当中,最优 结果使用加粗表示。 表 3 AP 评价指标下各算法的性能比较 (↑) Table 3 Performance comparison of algorithms under AP evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 0.424 5±0.019 4 0.463 0±0.016 3 0.460 6±0.021 2 0.435 5±0.019 4 0.499 3±0.026 3 business 0.860 4±0.019 8 0.861 2±0.019 7 0.860 3±0.020 9 0.862 1±0.019 3 0.870 4±0.016 0 computer 0.599 0±0.017 0 0.613 5±0.017 4 0.615 6±0.022 9 0.603 1±0.019 3 0.634 7±0.018 4 education 0.479 0±0.030 1 0.510 8±0.029 1 0.528 0±0.029 9 0.486 6±0.024 7 0.542 1±0.029 1 health 0.614 8±0.018 8 0.634 3±0.011 9 0.629 4±0.025 5 0.619 6±0.016 6 0.667 4±0.016 5 recreation 0.372 3±0.014 9 0.405 0±0.017 3 0.339 2±0.013 6 0.382 9±0.018 9 0.443 6±0.015 1 reference 0.563 6±0.035 9 0.583 5±0.034 0 0.583 6±0.033 6 0.566 3±0.033 9 0.609 2±0.030 8 science 0.400 5±0.018 2 0.410 6±0.016 7 0.403 9±0.017 2 0.396 9±0.020 0 0.446 9±0.027 6 平均分类结果 0.539 2 0.560 2 0.552 5 0.544 1 0.589 2 表 4 RL 评价指标下各算法的性能比较 (↓) Table 4 Performance comparison of algorithms under RL evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 0.181 1±0.007 7 0.169 8±0.006 9 0.169 2±0.008 4 0.180 2±0.008 6 0.155 5±0.010 3 business 0.049 1±0.009 5 0.048 7±0.009 4 0.049 7±0.010 1 0.048 0±0.008 7 0.042 3±0.007 4 computer 0.104 5±0.006 4 0.099 1±0.006 5 0.099 8±0.008 2 0.103 8±0.007 1 0.090 4±0.005 4 education 0.109 7±0.009 3 0.099 9±0.009 9 0.096 5±0.010 6 0.107 5±0.008 1 0.091 5±0.011 1 health 0.081 2±0.006 2 0.075 2±0.004 9 0.079 1±0.005 8 0.081 0±0.005 9 0.066 0±0.004 8 recreation 0.224 1±0.008 3 0.208 6±0.007 0 0.214 9±0.008 3 0.218 9±0.012 2 0.195 2±0.007 6 reference 0.106 4±0.010 8 0.099 1±0.009 6 0.100 9±0.010 0 0.105 3±0.010 0 0.088 6±0.009 0 science 0.154 5±0.010 2 0.151 2±0.009 8 0.150 8±0.008 7 0.152 7±0.010 0 0.142 6±0.010 7 平均分类结果 0.126 3 0.118 9 0.120 1 0.124 6 0.109 0 第 2 期 高琪,等:基于模糊不一致对的多标记属性约简 ·379·
·380· 智能系统学报 第15卷 表5HL评价指标下各算法的性能比较() Table 5 Performance comparison of algorithms under HL evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 0.0627±0.0008 0.0612±0.0010 0.0620±0.0010 0.0621±0.0008 0.0601±0.0014 business 0.0287±0.0030 0.0287±0.0029 0.0287±0.0029 0.0285±0.0030 0.0281±0.0028 computer 0.0442±0.0024 0.0418±0.0021 0.0426±0.0029 0.0441±0.0025 0.0396±0.0024 education 0.0442±0.0012 0.0436±0.0014 0.0426±0.0011 0.0442±0.0012 0.0418±0.0016 health 0.0508±0.0011 0.0478±0.0015 0.0488±0.0019 0.0504±0.0012 0.0443±0.0016 recreation 0.0653±0.0025 0.0647±0.0024 0.0641±0.0025 0.0649±0.0026 0.0638±0.0023 reference 0.0363±0.0013 0.0334±0.0015 0.0356±0.0018 0.0357±0.0010 0.0306±0.0014 science 0.0357±0.0009 0.0356±0.0009 0.0357±0.0009 0.0356±0.0009 0.0350±0.0008 平均分类结果 0.0459 0.0446 0.0450 0.0812 0.0429 表6CV评价指标下各算法的性能比较() Table 6 Performance comparison of algorithms under CV evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 6.2317±0.2406 5.9370±0.2130 5.93070.2981 6.2080±0.2736 5.5417±0.3173 business 2.6280±0.4424 2.6173±0.4151 2.6383±0.4500 2.5830±0.4075 2.3687±0.3709 computer 4.9087±0.3428 4.6763±0.2873 4.7343±0.4204 4.8917±0.3466 4.3413±0.2797 education 4.5160±0.3539 4.1507±0.3673 4.1060±0.3763 4.4720±0.3210 3.8937±0.4090 health 4.0327±0.2694 3.8343±0.2305 3.9533±0.2451 3.9933±0.2656 3.4877±0.2280 recreation 5.7377±0.2754 5.3987±0.2473 5.5707±0.2826 5.6557±0.3558 5.1323±0.2700 reference 4.0147±0.3606 3.7793±0.3347 3.8350±0.3462 3.9730±0.3395 3.4233±0.3446 science 7.6263±0.4820 7.5030±0.4508 7.4943±0.3829 7.5277±0.4514 7.1590±0.4871 平均分类结果 4.9619 4.7370 4.7828 4.9130 4.4184 表7OE评价指标下各算法的性能比较() Table 7 Performance comparison of algorithms under OE evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 0.7617±0.289 0.6920±0.0322 0.7027±0.0298 0.7403±0.0270 0.6373±0.0329 business 0.1363±0.0264 0.1367±0.0260 0.1363±0.0264 0.1353±0.0253 0.1320±0.0218 computer 0.4797±0.0220 0.4633±0.0275 0.4607±0.0321 0.4740±0.0271 0.4397±0.0252 education 0.6810±0.0381 0.6433±0.0382 0.6217±0.0391 0.6733±0.0313 0.6080±0.0309 health 0.4960±0.0241 0.4637±0.0209 0.4723±0.0437 0.4883±0.0192 0.4257±0.0204 recreation 0.8103±0.0259 0.7713±0.0314 0.7783±0.0259 0.7970±0.0321 0.7203±0.0294 reference 0.5307±0.0487 0.5143±0.0495 0.5150±0.0456 0.5303±0.0469 0.4930±0.0397 science 0.7557±0.0220 0.7367±0.0198 0.7490±0.0286 0.7610±0.0241 0.6870±0.0431 平均分类结果 0.5814 0.5526 0.5545 0.5749 0.5178
表 5 HL 评价指标下各算法的性能比较 (↓) Table 5 Performance comparison of algorithms under HL evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 0.062 7±0.000 8 0.061 2±0.001 0 0.062 0±0.001 0 0.062 1±0.000 8 0.060 1±0.001 4 business 0.028 7±0.003 0 0.028 7±0.002 9 0.028 7±0.002 9 0.028 5±0.003 0 0.028 1±0.002 8 computer 0.044 2±0.002 4 0.041 8±0.002 1 0.042 6±0.002 9 0.044 1±0.002 5 0.039 6±0.002 4 education 0.044 2±0.001 2 0.043 6±0.001 4 0.042 6±0.001 1 0.044 2±0.001 2 0.041 8±0.001 6 health 0.050 8±0.001 1 0.047 8±0.001 5 0.048 8±0.001 9 0.050 4±0.001 2 0.044 3±0.001 6 recreation 0.065 3±0.002 5 0.064 7±0.002 4 0.064 1±0.002 5 0.064 9±0.002 6 0.063 8±0.002 3 reference 0.036 3±0.001 3 0.033 4±0.001 5 0.035 6±0.001 8 0.035 7±0.001 0 0.030 6±0.001 4 science 0.035 7±0.000 9 0.035 6±0.000 9 0.035 7±0.000 9 0.035 6±0.000 9 0.035 0±0.000 8 平均分类结果 0.045 9 0.044 6 0.045 0 0.081 2 0.042 9 表 6 CV 评价指标下各算法的性能比较 (↓) Table 6 Performance comparison of algorithms under CV evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 6.231 7±0.240 6 5.937 0±0.213 0 5.930 7±0.298 1 6.208 0±0.273 6 5.541 7±0.317 3 business 2.628 0±0.442 4 2.617 3±0.415 1 2.638 3±0.450 0 2.583 0±0.407 5 2.368 7±0.370 9 computer 4.908 7±0.342 8 4.676 3±0.287 3 4.734 3±0.420 4 4.891 7±0.346 6 4.341 3±0.279 7 education 4.516 0±0.353 9 4.150 7±0.367 3 4.106 0±0.376 3 4.472 0±0.321 0 3.893 7±0.409 0 health 4.032 7±0.269 4 3.834 3±0.230 5 3.953 3±0.245 1 3.993 3±0.265 6 3.487 7±0.228 0 recreation 5.737 7±0.275 4 5.398 7±0.247 3 5.570 7±0.282 6 5.655 7±0.355 8 5.132 3±0.270 0 reference 4.014 7±0.360 6 3.779 3±0.334 7 3.835 0±0.346 2 3.973 0±0.339 5 3.423 3±0.344 6 science 7.626 3±0.482 0 7.503 0±0.450 8 7.494 3±0.382 9 7.527 7±0.451 4 7.159 0±0.487 1 平均分类结果 4.961 9 4.737 0 4.782 8 4.913 0 4.418 4 表 7 OE 评价指标下各算法的性能比较 (↓) Table 7 Performance comparison of algorithms under OE evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 0.761 7±0.289 0.692 0±0.032 2 0.702 7±0.029 8 0.740 3±0.027 0 0.637 3±0.032 9 business 0.136 3±0.026 4 0.136 7±0.026 0 0.136 3±0.026 4 0.135 3±0.025 3 0.132 0±0.021 8 computer 0.479 7±0.022 0 0.463 3±0.027 5 0.460 7±0.032 1 0.474 0±0.027 1 0.439 7±0.025 2 education 0.681 0±0.038 1 0.643 3±0.038 2 0.621 7±0.039 1 0.673 3±0.031 3 0.608 0±0.030 9 health 0.496 0±0.024 1 0.463 7±0.020 9 0.472 3±0.043 7 0.488 3±0.019 2 0.425 7±0.020 4 recreation 0.810 3±0.025 9 0.771 3±0.031 4 0.778 3±0.025 9 0.797 0±0.032 1 0.720 3±0.029 4 reference 0.530 7±0.048 7 0.514 3±0.049 5 0.515 0±0.045 6 0.530 3±0.046 9 0.493 0±0.039 7 science 0.755 7±0.022 0 0.736 7±0.019 8 0.749 0±0.028 6 0.761 0±0.024 1 0.687 0±0.043 1 平均分类结果 0.581 4 0.552 6 0.554 5 0.574 9 0.517 8 ·380· 智 能 系 统 学 报 第 15 卷
第2期 高琪,等:基于模糊不一致对的多标记属性约简 ·381· 表8F1评价指标下各算法的性能比较() Table 8 Performance comparison of algorithms under F1 evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 0.0040H0.0008 0.0471±0.0070 0.0388±0.0141 0.0264±0.0030 0.0869±0.0147 business 0.7334±0.0277 0.7325±0.0270 0.7333±0.0275 0.7350±0.0274 0.7377±0.0278 computer 0.3793±0.0295 0.2452±0.0536 0.3302±0.0373 0.4119±0.0234 0.3340±0.0361 education 0.0007±0.0012 0.0331±0.0093 0.0674±0.0062 0.0082±0.0054 0.0863±0.0143 health 0.2973±0.0328 0.2515±0.0287 0.3181±0.0432 0.4067±0.0181 0.3304±0.0205 recreation 0.0010H0.0018 0.0138±0.0047 0.0353±0.0091 0.0065±0.0044 0.0537±0.0054 reference 0.0684±0.0978 0.1535±0.0449 0.2651±0.0742 0.0048±0.0047 0.2311±0.0280 science 0.0013±0.0023 0.0222±0.0078 0.0129±0.0080 0.0010±0.0022 0.0645±0.0172 平均分类结果 0.1580 0.1873 0.2251 0.2000 0.2405 根据表3~8可以得出以下结论: 总之,在8个数据集上,MLAR-FL的分类性 I)对于AP、RL、HL、CV、OE指标上MLAR 能比其余4种算法的分类性能好。但是即使得到 FL算法在8个数据集合上得到的分类精度都高 的特征子集的分类性能好,也不能从整体上了解 于其余4种算法;对于F1指标,computer、health、 算法的分类性能在特征数目变化时的变化情况。 reference数据集上,MALR-FL算法低于其余算 为了能够从整体上直观地对比各个算法的分 法。因而,对于6个评价指标而言,MLAR-FL在 类性能随着特征数目的变化情况,图1~3分别给 前5个评价指标上的表现很好,在F1指标上,得 出了在数据集business、reference、science上面 到的结果并非最好。 6种性能评价指标AP、HL、RL、OE、CV、F1下, 2)从统计的8个数据集合,6个评价指标, 分类性能随着特征数目的变化趋势。由于FRMFS 总共48个对比结果可以看出,MLAR-FL的胜率 约简时得到的属性子集数目较少,因而比较分类 为93.75%,总体而言,MLAR-FL的分类情况 特征随属性数目的变化趋势时,只考虑MLFRS 较好。 LWMF、RF-ML、MLAR-FL4种算法。 0.0290 0.052 0.0288 0.050 0.048 0.0286 0.046 0.0284 0.044 0.0282 0.042 0.0280 0.040 0 100 200300 400 100 200300 400 属性个数 属性个数 (a)汉明损失(HL) (b)排序损失(RL) 0.139 2.7 0.137 2.6 0.135 2.5 0.133 0.131 2.3 R.FI -MFRS 0.129 2.2 0 100 200300 400 100 200 300 400 属性个数 属性个数 (c)1-错误率(OE) (d覆盖率(CV)
表 8 F1 评价指标下各算法的性能比较 (↑) Table 8 Performance comparison of algorithms under F1 evaluation index 数据集 FRMFS MLFRS LWMF RF-ML MLAR-FL arts 0.004 0±0.000 8 0.047 1±0.007 0 0.038 8±0.014 1 0.026 4±0.003 0 0.086 9±0.014 7 business 0.733 4±0.027 7 0.732 5±0.027 0 0.733 3±0.027 5 0.735 0±0.027 4 0.737 7±0.027 8 computer 0.379 3±0.029 5 0.245 2±0.053 6 0.330 2±0.037 3 0.411 9±0.023 4 0.334 0±0.036 1 education 0.000 7±0.001 2 0.033 1±0.009 3 0.067 4±0.006 2 0.008 2±0.005 4 0.086 3±0.014 3 health 0.297 3±0.032 8 0.251 5±0.028 7 0.318 1±0.043 2 0.406 7±0.018 1 0.330 4±0.020 5 recreation 0.001 0±0.001 8 0.013 8±0.004 7 0.035 3±0.009 1 0.006 5±0.004 4 0.053 7±0.005 4 reference 0.068 4±0.097 8 0.153 5±0.044 9 0.265 1±0.074 2 0.004 8±0.004 7 0.231 1±0.028 0 science 0.001 3±0.002 3 0.022 2±0.007 8 0.012 9±0.008 0 0.001 0±0.002 2 0.064 5±0.017 2 平均分类结果 0.158 0 0.187 3 0.225 1 0.200 0 0.240 5 根据表 3~8 可以得出以下结论: 1) 对于 AP、RL、HL、CV、OE 指标上 MLARFL 算法在 8 个数据集合上得到的分类精度都高 于其余 4 种算法;对于 F1 指标,computer、health、 reference 数据集上,MALR-FL 算法低于其余算 法。因而,对于 6 个评价指标而言,MLAR-FL 在 前 5 个评价指标上的表现很好,在 F1 指标上,得 到的结果并非最好。 2) 从统计的 8 个数据集合,6 个评价指标, 总共 48 个对比结果可以看出,MLAR-FL 的胜率 为 93.75%,总体而言,MLAR-FL 的分类情况 较好。 总之,在 8 个数据集上,MLAR-FL 的分类性 能比其余 4 种算法的分类性能好。但是即使得到 的特征子集的分类性能好,也不能从整体上了解 算法的分类性能在特征数目变化时的变化情况。 为了能够从整体上直观地对比各个算法的分 类性能随着特征数目的变化情况,图 1~3 分别给 出了在数据集 business、reference、science 上面 6 种性能评价指标 AP、HL、RL、OE、CV、F1 下, 分类性能随着特征数目的变化趋势。由于 FRMFS 约简时得到的属性子集数目较少,因而比较分类 特征随属性数目的变化趋势时,只考虑 MLFRS、 LWMF、RF-ML、MLAR-FL 4 种算法。 0.029 0 0.028 8 0.028 6 0.028 4 0.028 2 0.028 0 0 100 200 300 400 HL 属性个数 0.052 0.050 0.048 0.046 0.044 0.042 0.040 0 100 200 300 400 RL 属性个数 0.139 0.137 0.135 0.133 0.131 0.129 0 100 200 300 400 OE 属性个数 2.7 2.6 2.5 2.4 2.3 2.2 0 100 200 300 400 CV 属性个数 RF-ML LWMF MLAR-FL MLFRS RF-ML LWMF MLAR-FL MLFRS RF-ML LWMF MLAR-FL MLFRS RF-ML LWMF MLAR-FL MLFRS (a) 汉明损失(HL) (b) 排序损失(RL) (c) 1-错误率(OE) (d) 覆盖率(CV) 第 2 期 高琪,等:基于模糊不一致对的多标记属性约简 ·381·
·382· 智能系统学报 第15卷 0.8751 0.742r 0.872 0.740 0.738 0.869 三0.736 0.866 0.734 0.863 0.732 0.860 0.730 100 200300 400 0 100 200 300 400 属性个数 属性个数 (e)平均精度(AP) ()Micro-F1微平均FI) 图1数据集business上6种评价指标下各算法的分类性能的变化情况 Fig.1 Changes in classification performance of each algorithm under six evaluation indicators on the business data set 0.037 0.110 0.036 0.105 0.035 0.034 0.100 主0.033 0.032 0.095 0.031 0.090 0.030 0.029 0.085 0 100200300400500600700800 0 100200300400500600700800 属性个数 属性个数 (a)汉明损失(HL) (b)排序损失(RL) 4.1 0.540 0.535 4.0 0.530 3.9 0.525 0.520 38 0.515 83.7 己0.510 0505 3.6 0.500 0495 3.5 0.490 0485 340 0.482 100200300400500600700800 0 100200300400500600700800 属性个数 属性个数 (c)1-错误率(OE) (d覆盖率(CV) 0.62 0.40 0.61 0.35 0.60 0.30 20.59 0.25 0.20 0.58 0.15 0.57 0.10 0.56 0.05 0.55 0100200300400500600700800 100200300400500600700800 属性个数 属性个数 (e)平均精度(AP) ()Micro-F1微平均(F1) 图2数据集reference上6种评价指标下各算法的分类性能的变化情况 Fig.2 Changes in classification performance of each algorithm under six evaluation indicators on the reference data set
0 100 200 300 400 AP 属性个数 0.742 0.740 0.738 0.736 0.734 0.732 0.730 0 100 200 300 400 F1 属性个数 0.875 0.872 0.869 0.866 0.863 0.860 RF-ML LWMF MLAR-FL MLFRS RF-ML LWMF MLAR-FL MLFRS (e) 平均精度(AP) (f) Micro-F1微平均(F1) 图 1 数据集 business 上 6 种评价指标下各算法的分类性能的变化情况 Fig. 1 Changes in classification performance of each algorithm under six evaluation indicators on the business data set 0.037 0.036 0.035 0.034 0.033 0.032 0.031 0.030 0.029 0 100 200 300 400 500 600 700 800 HL 属性个数 RF-ML LWMF MLAR-FL MLFRS RL 0.110 0.105 0.100 0.095 0.090 0.085 0 100 200 300 400 500 600 700 800 属性个数 RF-ML LWMF MLAR-FL MLFRS 4.1 4.0 3.9 3.8 3.7 3.6 3.5 3.5 3.4 0 100 200 300 400 500 600 700 800 属性个数 RF-ML LWMF MLAR-FL MLFRS 0.540 0.535 0.530 0.525 0.520 0.515 0.510 0.505 0.500 0.495 0.490 0.485 0.482 0 100 200 300 400 500 600 700 800 属性个数 RF-ML LWMF MLAR-FL MLFRS 0.62 0.61 0.60 0.59 0.58 0.57 0.56 0.55 0 100 200 300 400 500 600 700 800 属性个数 RF-ML LWMF MLAR-FL MLFRS 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0 100 200 300 400 500 600 700 800 属性个数 RF-ML LWMF MLAR-FL MLFRS (a) 汉明损失(HL) (b) 排序损失(RL) (c) 1-错误率(OE) (d) 覆盖率(CV) (e) 平均精度(AP) (f) Micro-F1微平均(F1) OE CV AP F1 图 2 数据集 reference 上 6 种评价指标下各算法的分类性能的变化情况 Fig. 2 Changes in classification performance of each algorithm under six evaluation indicators on the reference data set ·382· 智 能 系 统 学 报 第 15 卷
第2期 高琪,等:基于模糊不一致对的多标记属性约简 ·383 0.0362 0.155 0.0359 0.0356 0.150 0.0353 0.145 0.0350 0.03470100200300400500600700800 0.140 0100200300400500600700800 属性个数 属性个数 (a)汉明损失(HL) (b)排序损失(RL) 0.77 7.7r 0.76 ◆MLAR-FL 7.6 0.75 --MLFRS 0.74 7.5 0.73 7.4 号0.72 0.71 7.3 0.70 72 0.69 0.68 1 0.67 0100200300400500600700800 7.001002003004050060070080 属性个数 属性个数 (C)1-错误率(OE) (d覆盖率(CV) 0.08 0.46 0.07 0.45 0.06 0.44 0.05 0.43 0.04 0.42 0.03 0.41 0.02 0.40 0.01 0.39 0100200300400500600700800 0 100200300400500600700800 属性个数 属性个数 (e)平均精度(AP) (⑤Micro-F1微平均FI) 图3 science数据集上6种评价指标下各算法的分类性能的变化情况 Fig.3 Changes in classification performance of each algorithm under six evaluation indicators on the science data set 对于这3个数据集,针对各种评价指标,由 法,与LWMF和MLFRS算法的分类性能比较接 图13可以发现: 近,但仍在很小程度上优于这两种算法,对于 1)在science数据集上,对于6种评价指标而 F1评价指标而言,LWMF的分类性能与MLAR- 言,MLAR-FL的分类性能比其余3种算法的分类 L的分类性能比较接近,且在小于300个属性 性能好,并且在很大程度上优于其余算法;在 个数的情况下,LWMF的分类性能优于这两种 business数据集上,MLAR-FL的分类性能在AP、 算法。 RL、CV3种评价指标上,在小于225个属性个数 2)对于不同的数据集,得到的约简的属性个 的情况下,分类情况较大程度上优于其余3种算 数不同,但是可以发现,在小于250个属性个数 法,在OE、HL、F13种评价指标上,分类性能存 的情况下,MLARF-FL的分类性能普遍优于其余 在波动,但是仍然在小于225个属性个数的情况3种算法,同时,随着属性个数的增加,分类性能 下,优于其余3种算法:在reference数据集合上, 越来越优,而在达到最高值后,会趋于平稳或者 对于AP、CV、OE、RL、HL5种评价指标而言, 变差,因为越来越多的属性加入到特征空间当 MLAR-HL的分类性能很明显地优于RF-ML算 中,可能会与原先的属性之间存在一定的影响
0.036 2 0.035 9 0.035 6 0.035 3 0.035 0 0.034 7 0 100 200 300 400 500 600 700 800 HL 属性个数 RF-ML LWMF MLAR-FL MLFRS RL 0.155 0.150 0.145 0.140 0 100 200 300 400 500 600 700 800 属性个数 RF-ML LWMF MLAR-FL MLFRS 0.77 0.76 0.75 0.74 0.73 0.72 0.71 0.70 0.69 0.68 0.67 0 100 200 300 400 500 600 700 800 属性个数 RF-ML LWMF MLAR-FL MLFRS 7.7 7.6 7.5 7.4 7.3 7.2 7.1 7.0 0 100 200 300 400 500 600 700 800 属性个数 RF-ML LWMF MLAR-FL MLFRS 0.46 0.45 0.44 0.43 0.42 0.41 0.40 0.39 0 100 200 300 400 500 600 700 800 属性个数 RF-ML LWMF MLAR-FL MLFRS 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 100 200 300 400 500 600 700 800 属性个数 RF-ML LWMF MLAR-FL MLFRS (a) 汉明损失(HL) (b) 排序损失(RL) (c) 1-错误率(OE) (d) 覆盖率(CV) (e) 平均精度(AP) (f) Micro-F1微平均(F1) OE CV AP F1 图 3 science 数据集上 6 种评价指标下各算法的分类性能的变化情况 Fig. 3 Changes in classification performance of each algorithm under six evaluation indicators on the science data set 对于这 3 个数据集,针对各种评价指标,由 图 1~3 可以发现: 1) 在 science 数据集上,对于 6 种评价指标而 言,MLAR-FL 的分类性能比其余 3 种算法的分类 性能好,并且在很大程度上优于其余算法;在 business 数据集上,MLAR-FL 的分类性能在 AP、 RL、CV 3 种评价指标上,在小于 225 个属性个数 的情况下,分类情况较大程度上优于其余 3 种算 法,在 OE、HL、F1 3 种评价指标上,分类性能存 在波动,但是仍然在小于 225 个属性个数的情况 下,优于其余 3 种算法;在 reference 数据集合上, 对于 AP、CV、OE、RL、HL 5 种评价指标而言, MLAR-HL 的分类性能很明显地优于 RF-ML 算 法,与 LWMF 和 MLFRS 算法的分类性能比较接 近,但仍在很小程度上优于这两种算法,对于 F1 评价指标而言,LWMF 的分类性能与 MLARFL 的分类性能比较接近,且在小于 300 个属性 个数的情况下,LWMF 的分类性能优于这两种 算法。 2) 对于不同的数据集,得到的约简的属性个 数不同,但是可以发现,在小于 250 个属性个数 的情况下,MLARF-FL 的分类性能普遍优于其余 3 种算法,同时,随着属性个数的增加,分类性能 越来越优,而在达到最高值后,会趋于平稳或者 变差,因为越来越多的属性加入到特征空间当 中,可能会与原先的属性之间存在一定的影响, 第 2 期 高琪,等:基于模糊不一致对的多标记属性约简 ·383·