第１２卷第３期智能系统学报Ｖｏｌ．１２ №．３２０

正在加载图片...

第12卷第3期智能系统学报 Vol.12 No.3 2017年6月 CAAI Transactions on Intelligent Systems Jun.2017 D0I:10.11992/is.201704024 网络出版地址：http:/kns.cmki.net/kcms/detail/23.1538.TP.20170704.0925.002.html 应用k-means算法实现标记分布学习邵东恒，杨文元，赵红 (闯南师范大学粒计算重点实验室，福建漳州363000) 摘要：标记分布学习是近年来提出的一种新的机器学习范式，它能很好地解决某些标记多义性的问题。现有的标记分布学习算法均利用条件概率建立参数模型，但未能充分利用特征和标记间的联系。本文考虑到特征相似的样本所对应的标记分布也应当相似，利用原型聚类的k均值算法(k-meas),将训练集的样本进行聚类，提出基于 means算法的标记分布学习(label distribution learning based on-means algorithm,LDLKM)。首先通过聚类算法k: meas求得每一个簇的均值向量，然后分别求得对应标记分布的均值向量。最后将测试集和训练集的均值向量间的距离作为权重，应用到对测试集标记分布的预测上。在6个公开的数据集上进行实验，并与3种已有的标记分布学习算法在5种评价指标上进行比较，实验结果表明提出的LDLKM算法是有效的。关键词：标记分布：聚类：k-means;闵可夫斯基距离；多标记：权重矩阵；均值向量；softmax函数中图分类号：TP181文献标志码：A文章编号：1673-4785(2017)03-0325-08 中文引用格式：邵东恒，杨文元，赵红.应用k-meas算法实现标记分布学习[J].智能系统学报，2017,12(3)：325-332 英文引用格式：SHAO Dongheng,YANG Wenyuan,ZHAO Hong.Label distribution learning based on k-means algorithm[J]. CAAI transactions on intelligent systems,2017,12(3):325-332. Label distribution learning based on k-means algorithm SHAO Dongheng,YANG Wenyuan,ZHAO Hong (1.Lab of Granular Computing,Minnan Normal University,Zhangzhou 363000,China) Abstract:Label distribution learning is a new type of machine learning paradigm that has emerged in recent years. It can solve the problem wherein different relevant labels have different importance.Existing label distribution learning algorithms adopt the parameter model with conditional probability,but they do not adequately exploit the relation between features and labels.In this study,the k-means clustering algorithm,a type of prototype-based clustering,was used to cluster the training set instance since samples having similar features have similar label distribution.Hence,a new algorithm known as label distribution learning based on k-means algorithm (LDLKM) was proposed.It firstly calculated each cluster's mean vector using the k-means algorithm.Then,it got the mean vector of the label distribution corresponding to the training set.Finally,the distance between the mean vectors of the test set and the training set was applied to predict label distribution of the test set as a weight.Experiments were conducted on six public data sets and then compared with three existing label distribution learning algorithms for five types of evaluation measures.The experimental results demonstrate the effectiveness of the proposed KM-LDL algorithm Keywords:label distribution;clustering;k-means;Minkowski distance;multi-label;weight matrix;mean vector; softmax function 近年来，标记多义性问题是机器学习和数据挖记的多标记学习(muli-label learning)[。多标记学掘领域的热门问题。目前已有的两种比较成熟的习是对单标记学习的拓展[)。通常多标记学习能学习范式是对每个实例分配单个标记的单标记学处理一个实例属于多个标记的分歧情况。通过大习(single-label learning)和对一个实例分配多个标量的研究和实验3表明，多标记学习是一种有效且应用范围较广的学习范式。收稿日期：2017-04-19.网络出版日期：2017-07-04. 基金项目：国家自然科学基金项目(61379049,61379089) 多标记学习虽然对于一个实例允许标上多个通信作者：杨文元.E-mail:yang叮y@xmu.cdu.cm第１２卷第３期智能系统学报Ｖｏｌ．１２ №．３２０１７年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０４０２４网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０７０４．０９２５．００２．ｈｔｍｌ应用ｋ⁃ｍｅａｎｓ算法实现标记分布学习邵东恒，杨文元，赵红（闽南师范大学粒计算重点实验室，福建漳州３６３０００）摘要：标记分布学习是近年来提出的一种新的机器学习范式，它能很好地解决某些标记多义性的问题。现有的标记分布学习算法均利用条件概率建立参数模型，但未能充分利用特征和标记间的联系。本文考虑到特征相似的样本所对应的标记分布也应当相似，利用原型聚类的ｋ均值算法（ｋ⁃ｍｅａｎｓ），将训练集的样本进行聚类，提出基于ｋ⁃ ｍｅａｎｓ算法的标记分布学习（ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ，ＬＤＬＫＭ）。首先通过聚类算法ｋ⁃ ｍｅａｎｓ求得每一个簇的均值向量，然后分别求得对应标记分布的均值向量。最后将测试集和训练集的均值向量间的距离作为权重，应用到对测试集标记分布的预测上。在６个公开的数据集上进行实验，并与３种已有的标记分布学习算法在５种评价指标上进行比较，实验结果表明提出的ＬＤＬＫＭ算法是有效的。关键词：标记分布；聚类；ｋ－ｍｅａｎｓ；闵可夫斯基距离；多标记；权重矩阵；均值向量；ｓｏｆｔｍａｘ函数中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０３－０３２５－０８中文引用格式：邵东恒，杨文元，赵红．应用ｋ⁃ｍｅａｎｓ算法实现标记分布学习［Ｊ］．智能系统学报，２０１７，１２（３）：３２５－３３２．英文引用格式：ＳＨＡＯＤｏｎｇｈｅｎｇ，ＹＡＮＧＷｅｎｙｕａｎ，ＺＨＡＯＨｏｎｇ．Ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（３）：３２５－３３２．Ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍＳＨＡＯＤｏｎｇｈｅｎｇ，ＹＡＮＧＷｅｎｙｕａｎ，ＺＨＡＯＨｏｎｇ（１．ＬａｂｏｆＧｒａｎｕｌａｒＣｏｍｐｕｔｉｎｇ，ＭｉｎｎａｎＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｚｈａｎｇｚｈｏｕ３６３０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｉｓａｎｅｗｔｙｐｅｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｐａｒａｄｉｇｍｔｈａｔｈａｓｅｍｅｒｇｅｄｉｎｒｅｃｅｎｔｙｅａｒｓ．Ｉｔｃａｎｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｗｈｅｒｅｉｎｄｉｆｆｅｒｅｎｔｒｅｌｅｖａｎｔｌａｂｅｌｓｈａｖｅｄｉｆｆｅｒｅｎｔｉｍｐｏｒｔａｎｃｅ．Ｅｘｉｓｔｉｎｇｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓａｄｏｐｔｔｈｅｐａｒａｍｅｔｅｒｍｏｄｅｌｗｉｔｈｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙ，ｂｕｔｔｈｅｙｄｏｎｏｔａｄｅｑｕａｔｅｌｙｅｘｐｌｏｉｔｔｈｅｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｆｅａｔｕｒｅｓａｎｄｌａｂｅｌｓ．Ｉｎｔｈｉｓｓｔｕｄｙ，ｔｈｅｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ，ａｔｙｐｅｏｆｐｒｏｔｏｔｙｐｅ⁃ｂａｓｅｄｃｌｕｓｔｅｒｉｎｇ，ｗａｓｕｓｅｄｔｏｃｌｕｓｔｅｒｔｈｅｔｒａｉｎｉｎｇｓｅｔｉｎｓｔａｎｃｅｓｉｎｃｅｓａｍｐｌｅｓｈａｖｉｎｇｓｉｍｉｌａｒｆｅａｔｕｒｅｓｈａｖｅｓｉｍｉｌａｒｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎ．Ｈｅｎｃｅ，ａｎｅｗａｌｇｏｒｉｔｈｍｋｎｏｗｎａｓｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ（ＬＤＬＫＭ）ｗａｓｐｒｏｐｏｓｅｄ．Ｉｔｆｉｒｓｔｌｙｃａｌｃｕｌａｔｅｄｅａｃｈｃｌｕｓｔｅｒ􀆳ｓｍｅａｎｖｅｃｔｏｒｕｓｉｎｇｔｈｅｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ．Ｔｈｅｎ，ｉｔｇｏｔｔｈｅｍｅａｎｖｅｃｔｏｒｏｆｔｈｅｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｃｏｒｒｅｓｐｏｎｄｉｎｇｔｏｔｈｅｔｒａｉｎｉｎｇｓｅｔ．Ｆｉｎａｌｌｙ，ｔｈｅｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｔｈｅｍｅａｎｖｅｃｔｏｒｓｏｆｔｈｅｔｅｓｔｓｅｔａｎｄｔｈｅｔｒａｉｎｉｎｇｓｅｔｗａｓａｐｐｌｉｅｄｔｏｐｒｅｄｉｃｔｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｏｆｔｈｅｔｅｓｔｓｅｔａｓａｗｅｉｇｈｔ．Ｅｘｐｅｒｉｍｅｎｔｓｗｅｒｅｃｏｎｄｕｃｔｅｄｏｎｓｉｘｐｕｂｌｉｃｄａｔａｓｅｔｓａｎｄｔｈｅｎｃｏｍｐａｒｅｄｗｉｔｈｔｈｒｅｅｅｘｉｓｔｉｎｇｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓｆｏｒｆｉｖｅｔｙｐｅｓｏｆｅｖａｌｕａｔｉｏｎｍｅａｓｕｒｅｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｐｒｏｐｏｓｅｄＫＭ⁃ＬＤＬａｌｇｏｒｉｔｈｍ．Ｋｅｙｗｏｒｄｓ：ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎ；ｃｌｕｓｔｅｒｉｎｇ；ｋ⁃ｍｅａｎｓ；Ｍｉｎｋｏｗｓｋｉｄｉｓｔａｎｃｅ；ｍｕｌｔｉ⁃ｌａｂｅｌ；ｗｅｉｇｈｔｍａｔｒｉｘ；ｍｅａｎｖｅｃｔｏｒ；ｓｏｆｔｍａｘｆｕｎｃｔｉｏｎ收稿日期：２０１７－０４－１９．网络出版日期：２０１７－０７－０４．基金项目：国家自然科学基金项目（６１３７９０４９，６１３７９０８９）．通信作者：杨文元．Ｅ⁃ｍａｉｌ：ｙａｎｇｗｙ＠ｘｍｕ．ｅｄｕ．ｃｎ．近年来，标记多义性问题是机器学习和数据挖掘领域的热门问题。目前已有的两种比较成熟的学习范式是对每个实例分配单个标记的单标记学习（ｓｉｎｇｌｅ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ）和对一个实例分配多个标记的多标记学习（ｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ）［１］。多标记学习是对单标记学习的拓展［２］。通常多标记学习能处理一个实例属于多个标记的分歧情况。通过大量的研究和实验［３－５］表明，多标记学习是一种有效且应用范围较广的学习范式。多标记学习虽然对于一个实例允许标上多个

向下翻页>>

点击下载：【智能系统】应用iki-means算法实现标记分布学习