正在加载图片...
第5期 黄琴,等:代价敏感数据的多标记特征选择算法 ·933 是基于文献[20]的正区域模型设计的考虑了测试 PC= Costg(D) 代价的多标记特征选择算法,MLPA是一种利用 Costa(D) 文献[20]中的正区域模型改进的多标记特征选择 2)平均分类精度(AP)是指在标记预测序列 算法,MLDM算法是基于文献[21]的差别矩阵方 中,排在相关标记之前的标记仍是相关标记的 法改进的多标记特征选择算法。最后通过IBLR- 比率: ML多标记分类器验证上述算法特征选择结果的 AP=1en)roM 分类性能。 m台四名 r() 实验过程中首先采用以上5种特征选择算法 3)汉明损失(L)是指预测出的标记与实际 分别对3个数据集进行特征降维,然后使用分类 标记的平均差异值: 算法对降维后的数据集采用10倍交叉验证法验 HL= YAZI 证算法的有效性。本实验的测试环境:CPU为 m台 M Inter(R)Core(TM)i5-4590s(3.0 GHz),8.0 GB, 其中4为Y、Z两个集合之间的对称差。 算法编程语言为Python和Java,使用的开发工具 4)覆盖率(Coverage)是指所有对象实际包含 分别是记事本和Eclipse4.7。 的所有标记所需最大的排序距离: 5.1数据集 1 Coverage=- 〉maxr(2)-1 实验中选取的3个真实数据集的相关信息如 e 表1所示,表中Yeast2四数据集描述的是酵母菌的 5)1错误率(OE)是指预测出的标记排序最靠 基因功能分类,Emotions2]数据集是来自于某音 前的标记不在实际对象中的比率: 乐学院的音频剪辑,Birds2数据集通过鸟叫声的 OE= 记录来区分鸟的种类。其中,Yeast数据集涉及的 了,6 (arg minr.》 m 是生物信息领域,而Emotions和Birds数据集涉 若argminr,()生Y:条件满足时,则6(arg minr.(☑尸 及的是音频信息领域。表1中对数据集中的实例 1,否则为0。 个数、特征数、标记数、标记基数和总代价进行了 6)排序损失(RL)是指预测出的标记中实际 描述,其中,标记基数用于统计训练集中实例的 不包含的标记比实际包含的标记排序高的比率: 平均标记个数,总代价是指利用正态分布函数为 数据集中的所有特征生成的代价总和。 RL 1 1 表1多标记数据集 m台阿× Table 1 Multi-label datasets I{0a,b):r(aa)>n(b)(亿a,s)∈Y×Y 平均分类精度越大说明分类性能越好,代价 数据集 实例数特征数标记数 标记基数 总代价 约简率、汉明损失、覆盖率、1错误率、排序损失 Yeast 2417 103 14 4.24 10033 越小说明分类性能越好。 Emotions 593 72 6 1.87 8013 5.3实验结果及比较 Birds 645 260 19 1.01 26390 5.3.1离散参数k的选择 由于本文所选择的3个多标记数据集的特征 5.2评价指标 值都包含连续型数据,但CSMLFSIE算法处理的 文中选用了代价约简率以及平均分类精度 是离散型特征变量,因此对于多标记数据集的处 (average precision,.AP)、汉明损失(Hamming loss, 理需要对特征值进行离散化处理。在实验过程中 HL)、覆盖率(Coverage)、1错误率(one error,OE)、 发现,k的步长取值为5时,降维后的特征子集的 排序损失(ranking loss,RL)这5种多标记评价性 分类性能差别较为明显。因此,本文将k以步长 能指标来评价算法性能。给定一组多标记对象集 5从5增加到50进行实验分析与比较。下面以 合(,Y),i=1,2,…,m,m表示对象大小,Y表示多 Emotions数据集为例,讨论离散化参数k的选择 标记分类器预测测试对象具有的标记集合,Y: 对多标记分类性能的影响,图1~5给出了Emo- 表示多标记分类器预测测试对象x具有的标记 tions数据集的5项评价指标随着离散化参数k的 集合,YSL,L={:j=1,2,…,9h,L表示所有标记 值增加的变化曲线。CSMLFSIE曲线、MLF- 集合,Z表示测试对象x实际的标记集合,了表 SIE曲线、CSMLPA曲线、MLPA曲线和 示Y:的补集,r()为标记A的排序。 MLDM曲线分别为这几种多标记特征选择算法 1)代价约简率是考虑特征代价的特征子集B 的性能。 的代价占全特征集A总代价的比率: 由图1~5可知,CSMLFSIE和MLFSIE算法是基于文献 [20] 的正区域模型设计的考虑了测试 代价的多标记特征选择算法,MLPA 是一种利用 文献 [20] 中的正区域模型改进的多标记特征选择 算法,MLDM 算法是基于文献 [21] 的差别矩阵方 法改进的多标记特征选择算法。最后通过 IBLR￾ML 多标记分类器验证上述算法特征选择结果的 分类性能。 实验过程中首先采用以上 5 种特征选择算法 分别对 3 个数据集进行特征降维,然后使用分类 算法对降维后的数据集采用 10 倍交叉验证法验 证算法的有效性。本实验的测试环境:CPU 为 Inter(R) Core(TM) i5-4590s (3.0 GHz),内存 8.0 GB, 算法编程语言为 Python 和 Java,使用的开发工具 分别是记事本和 Eclipse 4.7。 5.1 数据集 实验中选取的 3 个真实数据集的相关信息如 表 1 所示,表中 Yeast[22] 数据集描述的是酵母菌的 基因功能分类,Emotions[23] 数据集是来自于某音 乐学院的音频剪辑,Birds[24] 数据集通过鸟叫声的 记录来区分鸟的种类。其中,Yeast 数据集涉及的 是生物信息领域,而 Emotions 和 Birds 数据集涉 及的是音频信息领域。表 1 中对数据集中的实例 个数、特征数、标记数、标记基数和总代价进行了 描述,其中,标记基数用于统计训练集中实例的 平均标记个数,总代价是指利用正态分布函数为 数据集中的所有特征生成的代价总和。 表 1 多标记数据集 Table 1 Multi-label datasets 数据集 实例数 特征数 标记数 标记基数 总代价 Yeast 2 417 103 14 4.24 10 033 Emotions 593 72 6 1.87 8 013 Birds 645 260 19 1.01 26 390 5.2 评价指标 (xi ,Yi) i = 1,2,··· ,m m Yi xi Yi xi Yi ⊆ L L= { λj : j = 1,2,··· ,q } L Zi xi Yi Yi ri(λ) λ 文中选用了代价约简率以及平均分类精度 (average precision,AP)、汉明损失 (Hamming loss, HL)、覆盖率 (Coverage)、1 错误率 (one error,OE)、 排序损失 (ranking loss,RL) 这 5 种多标记评价性 能指标来评价算法性能。给定一组多标记对象集 合 , , 表示对象大小, 表示多 标记分类器预测测试对象 具有的标记集合, 表示多标记分类器预测测试对象 具有的标记 集合, , , 表示所有标记 集合, 表示测试对象 实际的标记集合, 表 示 的补集, 为标记 的排序。 B A 1) 代价约简率是考虑特征代价的特征子集 的代价占全特征集 总代价的比率: PC = CostB(D) CostA (D) 2) 平均分类精度 (AP) 是指在标记预测序列 中,排在相关标记之前的标记仍是相关标记的 比率: AP= 1 m ∑m i=1 1 |Yi | ∑ λ∈Yi |{λ′ ∈ Yi : ri(λ′) ⩽ ri(λ)}| ri(λ) 3) 汉明损失 (HL) 是指预测出的标记与实际 标记的平均差异值: HL = 1 m ∑m i=1 |Yi∆Zi | M 其中 ∆ 为 Yi、Zi 两个集合之间的对称差。 4) 覆盖率 (Coverage) 是指所有对象实际包含 的所有标记所需最大的排序距离: Coverage= 1 m ∑m i=1 max λ∈Yi ri(λ)−1 5) 1 错误率 (OE) 是指预测出的标记排序最靠 前的标记不在实际对象中的比率: OE= 1 m ∑m i=1 δ(argmin λ∈Yi ri(λ)) arg λ∈Yi minri(λ) < Yi δ(argmin λ∈Yi 若 条件满足时,则 ri(λ))= 1,否则为 0。 6) 排序损失 (RL) 是指预测出的标记中实际 不包含的标记比实际包含的标记排序高的比率: RL = 1 m ∑m i=1 1 ∥Yi∥ Yi × |{(λa, λb) : ri(λa) > ri(λb) (λa, λb) ∈ Yi ×Yi}| 平均分类精度越大说明分类性能越好,代价 约简率、汉明损失、覆盖率、1 错误率、排序损失 越小说明分类性能越好。 5.3 实验结果及比较 5.3.1 离散参数 k 的选择 k k k k 由于本文所选择的 3 个多标记数据集的特征 值都包含连续型数据,但 CSMLFSIE 算法处理的 是离散型特征变量,因此对于多标记数据集的处 理需要对特征值进行离散化处理。在实验过程中 发现, 的步长取值为 5 时,降维后的特征子集的 分类性能差别较为明显。因此,本文将 以步长 5 从 5 增加到 50 进行实验分析与比较。下面以 Emotions 数据集为例,讨论离散化参数 的选择 对多标记分类性能的影响,图 1~5 给出了 Emo￾tions 数据集的 5 项评价指标随着离散化参数 的 值增加的变化曲线。CSMLFSIE 曲线、 MLF￾S I E 曲线、 CSMLP A 曲线、 MLP A 曲 线 和 MLDM 曲线分别为这几种多标记特征选择算法 的性能。 由图 1~5 可知,CSMLFSIE 和 MLFSIE 算法 第 5 期 黄琴,等:代价敏感数据的多标记特征选择算法 ·933·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有