正在加载图片...
·936· 智能系统学报 第14卷 中的Yeast数据集可知,由本文CSMLFSIE算法 较优。 降维后的特征子集的分类性能较优,其降维后的 另外,由表2~4可知,针对CSMLPA算法, 特征子集PC的值与MLFSIE、CSMLPA、 3个数据集的离散化参数k取值为5时,其降维后 MLPA和MLDM算法相比,分别减少了0.92%、 特征子集的分类性能最优;针对CSMLFSIE算法 14%、13.47%和12.68%;同时,AP分别提高了 进行离散化处理时,参数值为45时,Yeast数据集 0.13%、2.54%、2.54%和3.26%.且0E、C0ver- 和Bids数据集降维后的特征子集的分类效果较 age和RL值相对较优。另一方面,CSMLFSIE算 佳,而对于Emotions数据集来说,离散化参数取 法降维之后的特征子集与原始数据集相比,P℃的 25较优;针对MLFSIE算法和MLPA算法,在 值为2.34%,比原始数据集减少了97.66%,且其 3个数据集降维后的特征子集的分类性能最优 他5项分类性能评价指标的值更优,其中,AP的 时,所对应的离散化参数的取值也不同;针对 值提高了0.37%,HL、OE、Coverage、RL值分别降 MLDM算法,对于Yeast数据集和Emotions数据 低了0.02%、0.66%、3.6%和0.16%。 集,离散化参数取5时,降维后的特征子集的分类 针对Emotions数据集,由本文CSMLFSIE算 性能较优,在Birds数据集中,离散化参数取值为 法选择的特征子集的分类性能总体较优,根据 25较好。由此可知,各个算法的分类性能与离散 表3中各项性能指标的结果可知,除HL和OE性 化参数k的取值相关,降维后的特征子集影响着 能指标之外,其他3项多标记分类性能指标的值 分类器的分类性能。 最优,且总测试代价PC的值最小。CSMLFSIE算 综上所述,原始数据集中存在大量冗余和不 法与MLPA算法相比,PC的值同为6.47%,但 相关特征,且这些特征直接影响了分类器的分类 AP的值却提高了6.26%,同时,HL、OE、Cover- 性能,综合各项性能评价指标可知,CSMLFSIE算 age和RL的值都显著降低。由此可知,CSMLF- 法总体优于其他4种算法,达到了较好的特征降 SIE算法要优于MLPA算法。CSMLFSIE算法与 维的效果。 MLFSIE算法相比,PC的值减少了12.49%,另外, 6结束语 Coverage、RL和AP这3项性能指标相对更优,因 此CSMLFSIE算法总体优于MLFSIE算法。此 传统的基于多标记的特征选择算法往往忽略 外,CSMLFSIE算法与CSMLPA和MLDM算法相 了每个特征获取和采集所需花费的代价问题,为 比,PC的值分别减少了15.36%和10.61%,其 此,本文提出了一种代价敏感数据的多标记特征 HL、OE、Coverage、RL和AP这5项性能指标的 选择算法,该算法利用信息熵分析特征与标记之 值更优。 间的相关性,利用均匀分布函数和正态分布函数 从表4中的Birds数据集可以看出,CSMLF- 为特征生成测试代价,从代价敏感的研究视角· SIE算法选择后的特征子集的分类性能与Raw 构建一种新特征重要度准则。然后,根据服从正 Data相比,除HL这项性能指标之外,其他4项性 态分布的特征重要度和特征代价的标准差设置阈 能指标的值都更优,P℃的值也减少了88.65%,因 值,通过阈值别除冗余和不相关特征。通过对 此CSMLFSIE算法选择后的特征子集的分类性能 3个真实数据集实验结果的分析与比较,验证了 总体优于Raw Data。CSMLFSIE算法与MLF- 本文算法的有效性和高效性。但是,该算法并未 SIE算法相比,Coverage、RL和AP的值较优, 充分考虑标记之间的相关性以及误分类代价的问 PC的值减少了35.89%。CSMLFSIE算法与 题,这也是我们下一步的研究工作。 CSMLPA算法相比,PC的值减少了10.18%,AP 参考文献: 的值由59.05%提高至61.71%,HL、OE、Coverage 和RL的值分别降低了0.08%、2.18%、21.21%和 [1]ZHANG Minling,ZHOU Zhihua.A review on multi-label learning algorithms[J].IEEE transactions on knowledge 0.79%。CSMLFSIE算法与MLPA算法和MLDM and data engineering,2014,26(8):1819-1837. 算法相比,AP的值分别提高了4.25%、4.37%, [2]TSOUMAKAS G,KATAKIS I,VLAHAVAS I.Random- HL、OE、Coverage和RL的值有所下降,但PC的 Labelsets for multilabel classification[J].IEEE transac- 值分别增加了8.88%、8.7%。由此可知,由 tions on knowledge and data engineering,2011,23(7): CSMLFSIE算法选择的特征子集的分类性能总体 1079-1089中的 Yeast 数据集可知,由本文 CSMLFSIE 算法 降维后的特征子集的分类性能较优,其降维后的 特征子 集 P C 的 值 与 MLFSIE 、 CSMLPA 、 MLPA 和 MLDM 算法相比,分别减少了 0.92%、 14%、13.47% 和 12.68%;同时,AP 分别提高了 0.13%、2.54%、2.54% 和 3.26%,且 OE、Cover￾age 和 RL 值相对较优。另一方面,CSMLFSIE 算 法降维之后的特征子集与原始数据集相比,PC 的 值为 2.34%,比原始数据集减少了 97.66%,且其 他 5 项分类性能评价指标的值更优,其中,AP 的 值提高了 0.37%,HL、OE、Coverage、RL 值分别降 低了 0.02%、0.66%、3.6% 和 0.16%。 针对 Emotions 数据集,由本文 CSMLFSIE 算 法选择的特征子集的分类性能总体较优,根据 表 3 中各项性能指标的结果可知,除 HL 和 OE 性 能指标之外,其他 3 项多标记分类性能指标的值 最优,且总测试代价 PC 的值最小。CSMLFSIE 算 法与 MLPA 算法相比,PC 的值同为 6.47%,但 AP 的值却提高了 6.26%,同时,HL、OE、Cover￾age 和 RL 的值都显著降低。由此可知,CSMLF￾SIE 算法要优于 MLPA 算法。CSMLFSIE 算法与 MLFSIE 算法相比,PC 的值减少了 12.49%,另外, Coverage、RL 和 AP 这 3 项性能指标相对更优,因 此 CSMLFSIE 算法总体优于 MLFSIE 算法。此 外,CSMLFSIE 算法与 CSMLPA 和 MLDM 算法相 比 ,PC 的值分别减少了 15.36% 和 10.61%,其 HL、OE、Coverage、RL 和 AP 这 5 项性能指标的 值更优。 从表 4 中的 Birds 数据集可以看出,CSMLF￾SIE 算法选择后的特征子集的分类性能与 Raw Data 相比,除 HL 这项性能指标之外,其他 4 项性 能指标的值都更优,PC 的值也减少了 88.65%,因 此 CSMLFSIE 算法选择后的特征子集的分类性能 总体优于 Raw Data。CSMLFSIE 算法与 MLF￾SIE 算法相比,Coverage、RL 和 AP 的值较优, PC 的值减少了 35.89%。CSMLFSIE 算法与 CSMLPA 算法相比,PC 的值减少了 10.18%,AP 的值由 59.05% 提高至 61.71%,HL、OE、Coverage 和 RL 的值分别降低了 0.08%、2.18%、21.21% 和 0.79%。CSMLFSIE 算法与 MLPA 算法和 MLDM 算法相比,AP 的值分别提高了 4.25%、4.37%, HL、OE、Coverage 和 RL 的值有所下降,但 PC 的 值分别增加 了 8.88% 、 8.7%。由此可知, 由 CSMLFSIE 算法选择的特征子集的分类性能总体 较优。 另外,由表 2~4 可知,针对 CSMLPA 算法, 3 个数据集的离散化参数 k 取值为 5 时,其降维后 特征子集的分类性能最优;针对 CSMLFSIE 算法 进行离散化处理时,参数值为 45 时,Yeast 数据集 和 Birds 数据集降维后的特征子集的分类效果较 佳,而对于 Emotions 数据集来说,离散化参数取 25 较优;针对 MLFSIE 算法和 MLPA 算法,在 3 个数据集降维后的特征子集的分类性能最优 时,所对应的离散化参数的取值也不同;针对 MLDM 算法,对于 Yeast 数据集和 Emotions 数据 集,离散化参数取 5 时,降维后的特征子集的分类 性能较优,在 Birds 数据集中,离散化参数取值为 25 较好。由此可知,各个算法的分类性能与离散 化参数 k 的取值相关,降维后的特征子集影响着 分类器的分类性能。 综上所述,原始数据集中存在大量冗余和不 相关特征,且这些特征直接影响了分类器的分类 性能,综合各项性能评价指标可知,CSMLFSIE 算 法总体优于其他 4 种算法,达到了较好的特征降 维的效果。 6 结束语 传统的基于多标记的特征选择算法往往忽略 了每个特征获取和采集所需花费的代价问题,为 此,本文提出了一种代价敏感数据的多标记特征 选择算法,该算法利用信息熵分析特征与标记之 间的相关性,利用均匀分布函数和正态分布函数 为特征生成测试代价,从代价敏感的研究视角, 构建一种新特征重要度准则。然后,根据服从正 态分布的特征重要度和特征代价的标准差设置阈 值,通过阈值剔除冗余和不相关特征。通过对 3 个真实数据集实验结果的分析与比较,验证了 本文算法的有效性和高效性。但是,该算法并未 充分考虑标记之间的相关性以及误分类代价的问 题,这也是我们下一步的研究工作。 参考文献: ZHANG Minling, ZHOU Zhihua. A review on multi-label learning algorithms[J]. IEEE transactions on knowledge and data engineering, 2014, 26(8): 1819–1837. [1] TSOUMAKAS G, KATAKIS I, VLAHAVAS I. Random - Labelsets for multilabel classification[J]. IEEE transac￾tions on knowledge and data engineering, 2011, 23(7): 1079–1089. [2] ·936· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有