第3期 邵东恒,等:应用k-neans算法实现标记分布学习 ·331· 0.50 origin 0.15 -origin 0.45 。Kmean ●-Kmean 0.40 -Bayes Bayes -BP 0.35 平BP 0.10 -IIS -0-IS 0.30 0.25 始 0.05 0.15 0.10形 0.05 6 81012141618 1.01.52.02.53.03.54.04.55.0 标记数 标记数 (e)Human-Gene数据集上的预测结果 (f)Movie数据集上的预测结果 图24种标记分布算法在6个公开数据集上预测结果 Fig.2 The prediction distribution of four LDL algorithms on six datasets classification:an overview[J].International journal of data 4 结束语 warehousing and mining,2007,3(3):1-13 本文提出的基于k-means标记分布学习算法, [4]READ J,PFAHRINGER B,HOLMES G.et al.Classifier 是在标记分布框架下,利用标记分布和样本集所具 chains for multi-label classification[J].Machine learning, 有的联系,通过求得一个权重矩阵来得到预测标记 2011,85(3):333-359 [5]READ J,PFAHRINGER B,HOLMES G.Multi-label 分布,而不是与现有的算法一样,通过求每一个标 classification using ensembles of pruned sets [C]// 记的条件概率来得到预测标记分布。LDLKM主要 Proceedings of Eighth IEEE International Conference on 通过将训练集的样本作为k-means聚类的样本,获 Data Mining,Pisa,Italy,2008.Washington,USA:IEEE 得每个簇的均值向量。然后将求得的测试集样本 Computer Society,2008:995-1000. 与均值向量的距离矩阵,作为预测标记分布与训练 [6]EISEN M B,SPELLMAN P T,BROWN P O,et al.Cluster 集对应的标记分布间的关系,直接求得所需的预测 analysis and display of genome-wide expression patterns[J]. 标记分布。本算法充分利用了特征和标记之间的 Proceedings of the national academy of sciences of the 分布关系,又通过softmax函数减小了与测试样本距 united states of America,1998,95(25):14863-14868. 离较远的均值向量的影响,同时本算法相对于现有 [7]Geng X.Label distribution learning[J].IEEE transactions 的专门化的算法在较大的数据集上花费的时间更 on knowledge and data engineering,2014,28 (7): 少。在公开的6个数据集上进行的实验所得的结果 1734-1748. [8]季荣姿.标记分布学习及其应用[D].南京:东南大 说明,本文提出的基于k-means的标记分布学习算 学,2014. 法是有效的。在以后的工作中,我们将对算法进一 JI Rongzi.Label distribution learning and its application 步优化,还可以引入集成学习来强化聚类效果,或 [D].Nanjing:Southeast University,2014. 采用一种改进的聚类算法[2],或针对标记分布学习 [9]ZHANG Z,WANG M,GENG X.Crowd counting in public 的特性来专门设计一个聚类算法。 video surveillance by label distribution learning [J]. 参考文献: Neurocomputing,2015,166(C):151-163. [10]GENG X,WANG Q,XIA Y.Facial age estimation by [1]ZHANG M L.ZHOU Z H.A review on multi-label learning adaptive label distribution learning[C]//Proceedings of algorithms[J].IEEE transactions on knowledge and data IEEE International Conference on Pattern Recognition, engineering,2014,26(8):1819-1837. Stockholm,Sweden,2014.Washington,USA:IEEE [2]WEI Yunchao,XIA Wei,HUANG Junshi,et al.CNN: Computer Society,2014:4465-4470. Single-label to multi-label[J].Computer science,2014,11: [11]GENG X,XIA Y.Head pose estimation based on 26-56. multivariate label distribution C//Proceedings of IEEE [3]TSOUMAKAS G,KATAKIS I,TANIAR D.Multi-label International Conference on Computer Vision and Pattern(e)Human⁃Gene 数据集上的预测结果 (f)Movie 数据集上的预测结果 图 2 4 种标记分布算法在 6 个公开数据集上预测结果 Fig.2 The prediction distribution of four LDL algorithms on six datasets 4 结束语 本文提出的基于 k⁃means 标记分布学习算法, 是在标记分布框架下,利用标记分布和样本集所具 有的联系,通过求得一个权重矩阵来得到预测标记 分布,而不是与现有的算法一样,通过求每一个标 记的条件概率来得到预测标记分布。 LDLKM 主要 通过将训练集的样本作为 k⁃means 聚类的样本,获 得每个簇的均值向量。 然后将求得的测试集样本 与均值向量的距离矩阵,作为预测标记分布与训练 集对应的标记分布间的关系,直接求得所需的预测 标记分布。 本算法充分利用了特征和标记之间的 分布关系,又通过 softmax 函数减小了与测试样本距 离较远的均值向量的影响,同时本算法相对于现有 的专门化的算法在较大的数据集上花费的时间更 少。 在公开的 6 个数据集上进行的实验所得的结果 说明,本文提出的基于 k⁃means 的标记分布学习算 法是有效的。 在以后的工作中,我们将对算法进一 步优化,还可以引入集成学习来强化聚类效果,或 采用一种改进的聚类算法[25] ,或针对标记分布学习 的特性来专门设计一个聚类算法。 参考文献: [1]ZHANG M L, ZHOU Z H. A review on multi⁃label learning algorithms[ J]. IEEE transactions on knowledge and data engineering, 2014, 26(8): 1819-1837. [2] WEI Yunchao, XIA Wei, HUANG Junshi, et al. CNN: Single⁃label to multi⁃label[J]. Computer science, 2014,11: 26-56. [ 3] TSOUMAKAS G, KATAKIS I, TANIAR D. Multi⁃label classification: an overview[ J]. International journal of data warehousing and mining, 2007, 3(3): 1-13. [4]READ J, PFAHRINGER B, HOLMES G, et al. Classifier chains for multi-label classification[ J]. Machine learning, 2011, 85(3): 333-359. [ 5 ] READ J, PFAHRINGER B, HOLMES G. Multi⁃label classification using ensembles of pruned sets [ C ] / / Proceedings of Eighth IEEE International Conference on Data Mining, Pisa, Italy, 2008. Washington, USA: IEEE Computer Society, 2008: 995-1000. [6]EISEN M B, SPELLMAN P T, BROWN P O, et al. Cluster analysis and display of genome⁃wide expression patterns[J]. Proceedings of the national academy of sciences of the united states of America, 1998, 95(25): 14863-14868. [7]Geng X. Label distribution learning[ J]. IEEE transactions on knowledge and data engineering, 2014, 28 ( 7 ): 1734-1748. [8] 季荣姿. 标记分布学习及其应用[ D]. 南京:东南大 学, 2014. JI Rongzi. Label distribution learning and its application [D].Nanjing: Southeast University, 2014. [9]ZHANG Z, WANG M, GENG X. Crowd counting in public video surveillance by label distribution learning [ J ]. Neurocomputing, 2015, 166(C): 151-163. [10] GENG X, WANG Q, XIA Y. Facial age estimation by adaptive label distribution learning[ C] / / Proceedings of IEEE International Conference on Pattern Recognition, Stockholm, Sweden, 2014. Washington, USA: IEEE Computer Society, 2014: 4465-4470. [ 11 ] GENG X, XIA Y. Head pose estimation based on multivariate label distribution [ C] / / Proceedings of IEEE International Conference on Computer Vision and Pattern 第 3 期 邵东恒,等:应用 k⁃means 算法实现标记分布学习 ·331·