是基于文献 [20] 的正区域模型设计的考虑了测试代价的多标记特征选择算

正在加载图片...

第5期黄琴，等：代价敏感数据的多标记特征选择算法 ·933 是基于文献[20]的正区域模型设计的考虑了测试 PC= Costg(D) 代价的多标记特征选择算法，MLPA是一种利用 Costa(D) 文献[20]中的正区域模型改进的多标记特征选择 2)平均分类精度(AP)是指在标记预测序列算法，MLDM算法是基于文献[21]的差别矩阵方中，排在相关标记之前的标记仍是相关标记的法改进的多标记特征选择算法。最后通过IBLR- 比率： ML多标记分类器验证上述算法特征选择结果的 AP=1en)roM 分类性能。 m台四名 r() 实验过程中首先采用以上5种特征选择算法 3)汉明损失(L)是指预测出的标记与实际分别对3个数据集进行特征降维，然后使用分类标记的平均差异值：算法对降维后的数据集采用10倍交叉验证法验 HL= YAZI 证算法的有效性。本实验的测试环境：CPU为 m台 M Inter(R)Core(TM)i5-4590s(3.0 GHz),8.0 GB, 其中4为Y、Z两个集合之间的对称差。算法编程语言为Python和Java,使用的开发工具 4)覆盖率(Coverage)是指所有对象实际包含分别是记事本和Eclipse4.7。的所有标记所需最大的排序距离： 5.1数据集 1 Coverage=- 〉maxr(2)-1 实验中选取的3个真实数据集的相关信息如 e 表1所示，表中Yeast2四数据集描述的是酵母菌的 5)1错误率(OE)是指预测出的标记排序最靠基因功能分类，Emotions2]数据集是来自于某音前的标记不在实际对象中的比率：乐学院的音频剪辑，Birds2数据集通过鸟叫声的 OE= 记录来区分鸟的种类。其中，Yeast数据集涉及的了，6 (arg minr.》 m 是生物信息领域，而Emotions和Birds数据集涉若argminr,()生Y:条件满足时，则6(arg minr.(☑尸及的是音频信息领域。表1中对数据集中的实例 1,否则为0。个数、特征数、标记数、标记基数和总代价进行了 6)排序损失(RL)是指预测出的标记中实际描述，其中，标记基数用于统计训练集中实例的不包含的标记比实际包含的标记排序高的比率：平均标记个数，总代价是指利用正态分布函数为数据集中的所有特征生成的代价总和。 RL 1 1 表1多标记数据集 m台阿× Table 1 Multi-label datasets I{0a,b):r(aa)>n(b)(亿a,s)∈Y×Y 平均分类精度越大说明分类性能越好，代价数据集实例数特征数标记数标记基数总代价约简率、汉明损失、覆盖率、1错误率、排序损失 Yeast 2417 103 14 4.24 10033 越小说明分类性能越好。 Emotions 593 72 6 1.87 8013 5.3实验结果及比较 Birds 645 260 19 1.01 26390 5.3.1离散参数k的选择由于本文所选择的3个多标记数据集的特征 5.2评价指标值都包含连续型数据，但CSMLFSIE算法处理的文中选用了代价约简率以及平均分类精度是离散型特征变量，因此对于多标记数据集的处 (average precision,.AP)、汉明损失(Hamming loss, 理需要对特征值进行离散化处理。在实验过程中 HL)、覆盖率(Coverage)、1错误率(one error,OE)、发现，k的步长取值为5时，降维后的特征子集的排序损失(ranking loss,RL)这5种多标记评价性分类性能差别较为明显。因此，本文将k以步长能指标来评价算法性能。给定一组多标记对象集 5从5增加到50进行实验分析与比较。下面以合(，Y),i=1,2,…,m,m表示对象大小，Y表示多 Emotions数据集为例，讨论离散化参数k的选择标记分类器预测测试对象具有的标记集合，Y: 对多标记分类性能的影响，图1~5给出了Emo- 表示多标记分类器预测测试对象x具有的标记 tions数据集的5项评价指标随着离散化参数k的集合，YSL,L={:j=1,2,…,9h,L表示所有标记值增加的变化曲线。CSMLFSIE曲线、MLF- 集合，Z表示测试对象x实际的标记集合，了表 SIE曲线、CSMLPA曲线、MLPA曲线和示Y:的补集，r()为标记A的排序。 MLDM曲线分别为这几种多标记特征选择算法 1)代价约简率是考虑特征代价的特征子集B 的性能。的代价占全特征集A总代价的比率：由图1~5可知，CSMLFSIE和MLFSIE算法是基于文献 [20] 的正区域模型设计的考虑了测试代价的多标记特征选择算法，MLPA 是一种利用文献 [20] 中的正区域模型改进的多标记特征选择算法，MLDM 算法是基于文献 [21] 的差别矩阵方法改进的多标记特征选择算法。最后通过 IBLRML 多标记分类器验证上述算法特征选择结果的分类性能。实验过程中首先采用以上 5 种特征选择算法分别对 3 个数据集进行特征降维，然后使用分类算法对降维后的数据集采用 10 倍交叉验证法验证算法的有效性。本实验的测试环境：CPU 为 Inter(R) Core(TM) i5-4590s (3.0 GHz)，内存 8.0 GB，算法编程语言为 Python 和 Java，使用的开发工具分别是记事本和 Eclipse 4.7。 5.1 数据集实验中选取的 3 个真实数据集的相关信息如表 1 所示，表中 Yeast[22] 数据集描述的是酵母菌的基因功能分类，Emotions[23] 数据集是来自于某音乐学院的音频剪辑，Birds[24] 数据集通过鸟叫声的记录来区分鸟的种类。其中，Yeast 数据集涉及的是生物信息领域，而 Emotions 和 Birds 数据集涉及的是音频信息领域。表 1 中对数据集中的实例个数、特征数、标记数、标记基数和总代价进行了描述，其中，标记基数用于统计训练集中实例的平均标记个数，总代价是指利用正态分布函数为数据集中的所有特征生成的代价总和。表 1 多标记数据集 Table 1 Multi-label datasets 数据集实例数特征数标记数标记基数总代价 Yeast 2 417 103 14 4.24 10 033 Emotions 593 72 6 1.87 8 013 Birds 645 260 19 1.01 26 390 5.2 评价指标 (xi ,Yi) i = 1,2,··· ,m m Yi xi Yi xi Yi ⊆ L L= { λj : j = 1,2,··· ,q } L Zi xi Yi Yi ri(λ) λ 文中选用了代价约简率以及平均分类精度 (average precision，AP)、汉明损失 (Hamming loss， HL)、覆盖率 (Coverage)、1 错误率 (one error，OE)、排序损失 (ranking loss，RL) 这 5 种多标记评价性能指标来评价算法性能。给定一组多标记对象集合，，表示对象大小，表示多标记分类器预测测试对象具有的标记集合，表示多标记分类器预测测试对象具有的标记集合，，，表示所有标记集合，表示测试对象实际的标记集合，表示的补集，为标记的排序。 B A 1) 代价约简率是考虑特征代价的特征子集的代价占全特征集总代价的比率： PC = CostB(D) CostA (D) 2) 平均分类精度 (AP) 是指在标记预测序列中，排在相关标记之前的标记仍是相关标记的比率： AP= 1 m ∑m i=1 1 |Yi | ∑ λ∈Yi |{λ′ ∈ Yi : ri(λ′) ⩽ ri(λ)}| ri(λ) 3) 汉明损失 (HL) 是指预测出的标记与实际标记的平均差异值： HL = 1 m ∑m i=1 |Yi∆Zi | M 其中 ∆ 为 Yi、Zi 两个集合之间的对称差。 4) 覆盖率 (Coverage) 是指所有对象实际包含的所有标记所需最大的排序距离： Coverage= 1 m ∑m i=1 max λ∈Yi ri(λ)−1 5) 1 错误率 (OE) 是指预测出的标记排序最靠前的标记不在实际对象中的比率： OE= 1 m ∑m i=1 δ(argmin λ∈Yi ri(λ)) arg λ∈Yi minri(λ) < Yi δ(argmin λ∈Yi 若条件满足时，则 ri(λ))= 1，否则为 0。 6) 排序损失 (RL) 是指预测出的标记中实际不包含的标记比实际包含的标记排序高的比率： RL = 1 m ∑m i=1 1 ∥Yi∥ Yi × |{(λa, λb) : ri(λa) > ri(λb) (λa, λb) ∈ Yi ×Yi}| 平均分类精度越大说明分类性能越好，代价约简率、汉明损失、覆盖率、1 错误率、排序损失越小说明分类性能越好。 5.3 实验结果及比较 5.3.1 离散参数 k 的选择 k k k k 由于本文所选择的 3 个多标记数据集的特征值都包含连续型数据，但 CSMLFSIE 算法处理的是离散型特征变量，因此对于多标记数据集的处理需要对特征值进行离散化处理。在实验过程中发现，的步长取值为 5 时，降维后的特征子集的分类性能差别较为明显。因此，本文将以步长 5 从 5 增加到 50 进行实验分析与比较。下面以 Emotions 数据集为例，讨论离散化参数的选择对多标记分类性能的影响，图 1～5 给出了 Emotions 数据集的 5 项评价指标随着离散化参数的值增加的变化曲线。CSMLFSIE 曲线、 MLFS I E 曲线、 CSMLP A 曲线、 MLP A 曲线和 MLDM 曲线分别为这几种多标记特征选择算法的性能。由图 1～5 可知，CSMLFSIE 和 MLFSIE 算法第 5 期黄琴，等：代价敏感数据的多标记特征选择算法 ·933·

<<向上翻页向下翻页>>

点击下载：【人工智能基础】代价敏感数据的多标记特征选择算法