【智能系统】应用iki-means算法实现标记分布学习

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.76MB

第12卷第3期智能系统学报 Vol.12 No.3 2017年6月 CAAI Transactions on Intelligent Systems Jun.2017 D0I:10.11992/is.201704024 网络出版地址：http:/kns.cmki.net/kcms/detail/23.1538.TP.20170704.0925.002.html 应用k-means算法实现标记分布学习邵东恒，杨文元，赵红 (闯南师范大学粒计算重点实验室，福建漳州363000) 摘要：标记分布学习是近年来提出的一种新的机器学习范式，它能很好地解决某些标记多义性的问题。现有的标记分布学习算法均利用条件概率建立参数模型，但未能充分利用特征和标记间的联系。本文考虑到特征相似的样本所对应的标记分布也应当相似，利用原型聚类的k均值算法(k-meas),将训练集的样本进行聚类，提出基于 means算法的标记分布学习(label distribution learning based on-means algorithm,LDLKM)。首先通过聚类算法k: meas求得每一个簇的均值向量，然后分别求得对应标记分布的均值向量。最后将测试集和训练集的均值向量间的距离作为权重，应用到对测试集标记分布的预测上。在6个公开的数据集上进行实验，并与3种已有的标记分布学习算法在5种评价指标上进行比较，实验结果表明提出的LDLKM算法是有效的。关键词：标记分布：聚类：k-means;闵可夫斯基距离；多标记：权重矩阵；均值向量；softmax函数中图分类号：TP181文献标志码：A文章编号：1673-4785(2017)03-0325-08 中文引用格式：邵东恒，杨文元，赵红.应用k-meas算法实现标记分布学习[J].智能系统学报，2017,12(3)：325-332 英文引用格式：SHAO Dongheng,YANG Wenyuan,ZHAO Hong.Label distribution learning based on k-means algorithm[J]. CAAI transactions on intelligent systems,2017,12(3):325-332. Label distribution learning based on k-means algorithm SHAO Dongheng,YANG Wenyuan,ZHAO Hong (1.Lab of Granular Computing,Minnan Normal University,Zhangzhou 363000,China) Abstract:Label distribution learning is a new type of machine learning paradigm that has emerged in recent years. It can solve the problem wherein different relevant labels have different importance.Existing label distribution learning algorithms adopt the parameter model with conditional probability,but they do not adequately exploit the relation between features and labels.In this study,the k-means clustering algorithm,a type of prototype-based clustering,was used to cluster the training set instance since samples having similar features have similar label distribution.Hence,a new algorithm known as label distribution learning based on k-means algorithm (LDLKM) was proposed.It firstly calculated each cluster's mean vector using the k-means algorithm.Then,it got the mean vector of the label distribution corresponding to the training set.Finally,the distance between the mean vectors of the test set and the training set was applied to predict label distribution of the test set as a weight.Experiments were conducted on six public data sets and then compared with three existing label distribution learning algorithms for five types of evaluation measures.The experimental results demonstrate the effectiveness of the proposed KM-LDL algorithm Keywords:label distribution;clustering;k-means;Minkowski distance;multi-label;weight matrix;mean vector; softmax function 近年来，标记多义性问题是机器学习和数据挖记的多标记学习(muli-label learning)[。多标记学掘领域的热门问题。目前已有的两种比较成熟的习是对单标记学习的拓展[)。通常多标记学习能学习范式是对每个实例分配单个标记的单标记学处理一个实例属于多个标记的分歧情况。通过大习(single-label learning)和对一个实例分配多个标量的研究和实验3表明，多标记学习是一种有效且应用范围较广的学习范式。收稿日期：2017-04-19.网络出版日期：2017-07-04. 基金项目：国家自然科学基金项目(61379049,61379089) 多标记学习虽然对于一个实例允许标上多个通信作者：杨文元.E-mail:yang叮y@xmu.cdu.cm

第１２卷第３期智能系统学报Ｖｏｌ．１２ №．３２０１７年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０４０２４网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０７０４．０９２５．００２．ｈｔｍｌ应用ｋ⁃ｍｅａｎｓ算法实现标记分布学习邵东恒，杨文元，赵红（闽南师范大学粒计算重点实验室，福建漳州３６３０００）摘要：标记分布学习是近年来提出的一种新的机器学习范式，它能很好地解决某些标记多义性的问题。现有的标记分布学习算法均利用条件概率建立参数模型，但未能充分利用特征和标记间的联系。本文考虑到特征相似的样本所对应的标记分布也应当相似，利用原型聚类的ｋ均值算法（ｋ⁃ｍｅａｎｓ），将训练集的样本进行聚类，提出基于ｋ⁃ ｍｅａｎｓ算法的标记分布学习（ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ，ＬＤＬＫＭ）。首先通过聚类算法ｋ⁃ ｍｅａｎｓ求得每一个簇的均值向量，然后分别求得对应标记分布的均值向量。最后将测试集和训练集的均值向量间的距离作为权重，应用到对测试集标记分布的预测上。在６个公开的数据集上进行实验，并与３种已有的标记分布学习算法在５种评价指标上进行比较，实验结果表明提出的ＬＤＬＫＭ算法是有效的。关键词：标记分布；聚类；ｋ－ｍｅａｎｓ；闵可夫斯基距离；多标记；权重矩阵；均值向量；ｓｏｆｔｍａｘ函数中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０３－０３２５－０８中文引用格式：邵东恒，杨文元，赵红．应用ｋ⁃ｍｅａｎｓ算法实现标记分布学习［Ｊ］．智能系统学报，２０１７，１２（３）：３２５－３３２．英文引用格式：ＳＨＡＯＤｏｎｇｈｅｎｇ，ＹＡＮＧＷｅｎｙｕａｎ，ＺＨＡＯＨｏｎｇ．Ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（３）：３２５－３３２．Ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍＳＨＡＯＤｏｎｇｈｅｎｇ，ＹＡＮＧＷｅｎｙｕａｎ，ＺＨＡＯＨｏｎｇ（１．ＬａｂｏｆＧｒａｎｕｌａｒＣｏｍｐｕｔｉｎｇ，ＭｉｎｎａｎＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｚｈａｎｇｚｈｏｕ３６３０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｉｓａｎｅｗｔｙｐｅｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｐａｒａｄｉｇｍｔｈａｔｈａｓｅｍｅｒｇｅｄｉｎｒｅｃｅｎｔｙｅａｒｓ．Ｉｔｃａｎｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｗｈｅｒｅｉｎｄｉｆｆｅｒｅｎｔｒｅｌｅｖａｎｔｌａｂｅｌｓｈａｖｅｄｉｆｆｅｒｅｎｔｉｍｐｏｒｔａｎｃｅ．Ｅｘｉｓｔｉｎｇｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓａｄｏｐｔｔｈｅｐａｒａｍｅｔｅｒｍｏｄｅｌｗｉｔｈｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙ，ｂｕｔｔｈｅｙｄｏｎｏｔａｄｅｑｕａｔｅｌｙｅｘｐｌｏｉｔｔｈｅｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｆｅａｔｕｒｅｓａｎｄｌａｂｅｌｓ．Ｉｎｔｈｉｓｓｔｕｄｙ，ｔｈｅｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ，ａｔｙｐｅｏｆｐｒｏｔｏｔｙｐｅ⁃ｂａｓｅｄｃｌｕｓｔｅｒｉｎｇ，ｗａｓｕｓｅｄｔｏｃｌｕｓｔｅｒｔｈｅｔｒａｉｎｉｎｇｓｅｔｉｎｓｔａｎｃｅｓｉｎｃｅｓａｍｐｌｅｓｈａｖｉｎｇｓｉｍｉｌａｒｆｅａｔｕｒｅｓｈａｖｅｓｉｍｉｌａｒｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎ．Ｈｅｎｃｅ，ａｎｅｗａｌｇｏｒｉｔｈｍｋｎｏｗｎａｓｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇｂａｓｅｄｏｎｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ（ＬＤＬＫＭ）ｗａｓｐｒｏｐｏｓｅｄ．Ｉｔｆｉｒｓｔｌｙｃａｌｃｕｌａｔｅｄｅａｃｈｃｌｕｓｔｅｒ􀆳ｓｍｅａｎｖｅｃｔｏｒｕｓｉｎｇｔｈｅｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ．Ｔｈｅｎ，ｉｔｇｏｔｔｈｅｍｅａｎｖｅｃｔｏｒｏｆｔｈｅｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｃｏｒｒｅｓｐｏｎｄｉｎｇｔｏｔｈｅｔｒａｉｎｉｎｇｓｅｔ．Ｆｉｎａｌｌｙ，ｔｈｅｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｔｈｅｍｅａｎｖｅｃｔｏｒｓｏｆｔｈｅｔｅｓｔｓｅｔａｎｄｔｈｅｔｒａｉｎｉｎｇｓｅｔｗａｓａｐｐｌｉｅｄｔｏｐｒｅｄｉｃｔｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｏｆｔｈｅｔｅｓｔｓｅｔａｓａｗｅｉｇｈｔ．Ｅｘｐｅｒｉｍｅｎｔｓｗｅｒｅｃｏｎｄｕｃｔｅｄｏｎｓｉｘｐｕｂｌｉｃｄａｔａｓｅｔｓａｎｄｔｈｅｎｃｏｍｐａｒｅｄｗｉｔｈｔｈｒｅｅｅｘｉｓｔｉｎｇｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓｆｏｒｆｉｖｅｔｙｐｅｓｏｆｅｖａｌｕａｔｉｏｎｍｅａｓｕｒｅｓ．ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｐｒｏｐｏｓｅｄＫＭ⁃ＬＤＬａｌｇｏｒｉｔｈｍ．Ｋｅｙｗｏｒｄｓ：ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎ；ｃｌｕｓｔｅｒｉｎｇ；ｋ⁃ｍｅａｎｓ；Ｍｉｎｋｏｗｓｋｉｄｉｓｔａｎｃｅ；ｍｕｌｔｉ⁃ｌａｂｅｌ；ｗｅｉｇｈｔｍａｔｒｉｘ；ｍｅａｎｖｅｃｔｏｒ；ｓｏｆｔｍａｘｆｕｎｃｔｉｏｎ收稿日期：２０１７－０４－１９．网络出版日期：２０１７－０７－０４．基金项目：国家自然科学基金项目（６１３７９０４９，６１３７９０８９）．通信作者：杨文元．Ｅ⁃ｍａｉｌ：ｙａｎｇｗｙ＠ｘｍｕ．ｅｄｕ．ｃｎ．近年来，标记多义性问题是机器学习和数据挖掘领域的热门问题。目前已有的两种比较成熟的学习范式是对每个实例分配单个标记的单标记学习（ｓｉｎｇｌｅ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ）和对一个实例分配多个标记的多标记学习（ｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ）［１］。多标记学习是对单标记学习的拓展［２］。通常多标记学习能处理一个实例属于多个标记的分歧情况。通过大量的研究和实验［３－５］表明，多标记学习是一种有效且应用范围较广的学习范式。多标记学习虽然对于一个实例允许标上多个

·326 智能系统学报第12卷标记，拓展了单标记学习。但是仍有一些问题是不集时花费的时间较多。太适合用多标记学习解决的，例如，标记集中的每聚类4]是研究分类问题的一种统计分析方法，一个标记描述实例的准确度是多少。事实上，现实同时也是数据挖掘的一个重要算法，在研究过程中世界中有着比大多数人想象的多得多的关于每个也有许许多多的应用和改进)。聚类以相似性为标记的准确描述度的数据。在许多科学实验中[6 基础，试图将数据集中的样本划分为若干个不相交它们的输出结果不是单个值的，而是一系列的数值的子集，每个子集称为一个簇，同一簇中样本之间输出，例如，基因在不同时间点上的表达水平。这的相似性比不在同一簇中的更高。在聚类算法中些输出中的单个数值可能不是那么重要，真正重要常用的k-means算法[16]及改进算法[7)是原型聚类的是这一系列输出数值的分布情况。如果一个机的一种，它假设聚类结构能通过一组原型刻画。通器学习的任务是要预测一个数值分布，那么它很难常情况下，算法先对原型进行初始化，然后对原型放到多标记学习的框架中实现。因为在一个分布进行迭代更新求解，直到均值向量不再改变或达到中每一个数值输出的准确度是至关重要的，而且这最大迭代次数，此时就能得到每一个簇的均值向量。里也不再有相关标记与无关标记的区分了。因此，在同一个数据集中，特征相近的实例，它们的为了解决这类问题，Geng等)拓展了多标记学习，标记分布往往也相似，同时依据聚类的特性，本文提出了标记分布学习(label distribution learning, 提出一种新的标记分布算法：基于k-means的标记 LDL)范式。对于一个特定的实例，标记集合中所有分布学习算法(label distribution learning algorithm 标记的描述度构建一个类似于概率分布的数据形 based on k-means,LDLKM)。首先，利用k-means聚式，称之为标记分布⑧)，即每个训练实例与一个标类算法求得训练样本集中每个簇的均值向量，此时记分布相对应。与多标记学习输出一个标记集不与每一个训练样本对应的标记分布也相应被划分同，标记分布学习输出的是一个标记分布，分布中成簇。然后，求得标记分布的每个簇的均值向量。的每个分量表示对应标记对实例的描述程度。事其次，测试集的样本到各个簇的均值向量的距离矩实上，标记分布学习是一种适用场景更广的学习范阵可通过常用的求距离方式，闵可夫斯基距离式，能够解决更多的标记多义性问题。单标记学习 (Minkowski distance)Iu]求得。最后，将距离矩阵通和多标记学习都可以看成标记分布学习的特例，相过一个softmax函数变换得到一个权重矩阵。权重关的研究成果[，o]也说明了这一点。矩阵和训练样本集的标记分布的均值向量的积就目前，已有一些标记分布学习算法[7，川被提了是测试集样本的标记分布，即需要预测的标记分出来。这些算法的设计策略主要可以分为以下布。本文提出的LDLKM算法与现有的专用化的算 3类。法相比并未采用条件概率的方式建立模型，而是充 1)问题转换，即将标记分布学习问题转换成单分考虑了特征间的分布关系和特征与对应的标记标记学习问题后，再利用相应范式中已有的算法进分布之间的联系，利用k-means聚类和权重矩阵将行求解，例如：PT-SVM算法和PT-Bayes算法。特征和标记分布联系到一起。事实上，特征之间的 2)算法适应，即扩展现存的学习算法来处理标分布与对应标记之间的分布的关系是一种更加直签分布学习问题，例如：LDSVR[]算法和AA-BP 接和强烈的联系。而直接利用这种关系预测得到算法。的标记分布可以继续保持与对应特征的分布关系， 3)专用化的算法，即根据LDL的特点设计特殊从而得到一个较好的结果。LDLKM和现有的3种的算法，例如：SA-IS算法、CPNNU]和SA-BFGS LDL算法在6个公开数据集)上采用5种评价方式算法。进行实验比较，实验的结果表明本文提出的标记分在这3种策略中，第3种直接针对标记分布学布学习算法在使用的所有数据集上均取得较好的习设计专门算法的效果是最好的。事实上，专用化效果，在其中的5个数据集上所有评价方式的结果的算法是通过条件概率或逻辑回归方式训练模型，均为最优。然后以这个模型预测想要的标记分布。但是在这 1标记分布学习的形式化个过程中算法并未充分考虑训练实例与对应标记分布之间的关系，例如：特征与标记间的函数关系，在标记分布中，标记一个实例x的方式是为它特征与标记间的分布关系和标记分布数据内部的的每一个可能的标记y分配一个实数d,用来表示分布关系。同时，现有的专门算法在处理较大数据标记y对实例x的描述程度。不失一般性，假设实

标记，拓展了单标记学习。但是仍有一些问题是不太适合用多标记学习解决的，例如，标记集中的每一个标记描述实例的准确度是多少。事实上，现实世界中有着比大多数人想象的多得多的关于每个标记的准确描述度的数据。在许多科学实验中［６］，它们的输出结果不是单个值的，而是一系列的数值输出，例如，基因在不同时间点上的表达水平。这些输出中的单个数值可能不是那么重要，真正重要的是这一系列输出数值的分布情况。如果一个机器学习的任务是要预测一个数值分布，那么它很难放到多标记学习的框架中实现。因为在一个分布中每一个数值输出的准确度是至关重要的，而且这里也不再有相关标记与无关标记的区分了。因此，为了解决这类问题，Ｇｅｎｇ等［７］拓展了多标记学习，提出了标记分布学习（ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇ，ＬＤＬ）范式。对于一个特定的实例，标记集合中所有标记的描述度构建一个类似于概率分布的数据形式，称之为标记分布［８］，即每个训练实例与一个标记分布相对应。与多标记学习输出一个标记集不同，标记分布学习输出的是一个标记分布，分布中的每个分量表示对应标记对实例的描述程度。事实上，标记分布学习是一种适用场景更广的学习范式，能够解决更多的标记多义性问题。单标记学习和多标记学习都可以看成标记分布学习的特例，相关的研究成果［７，９－１０］也说明了这一点。目前，已有一些标记分布学习算法［７，１１］被提了出来。这些算法的设计策略主要可以分为以下３类。１）问题转换，即将标记分布学习问题转换成单标记学习问题后，再利用相应范式中已有的算法进行求解，例如：ＰＴ⁃ＳＶＭ算法和ＰＴ⁃Ｂａｙｅｓ算法。２）算法适应，即扩展现存的学习算法来处理标签分布学习问题，例如：ＬＤＳＶＲ［１２］算法和ＡＡ⁃ＢＰ算法。３）专用化的算法，即根据ＬＤＬ的特点设计特殊的算法，例如：ＳＡ⁃ＩＩＳ算法、ＣＰＮＮ［１３］和ＳＡ⁃ＢＦＧＳ算法。在这３种策略中，第３种直接针对标记分布学习设计专门算法的效果是最好的。事实上，专用化的算法是通过条件概率或逻辑回归方式训练模型，然后以这个模型预测想要的标记分布。但是在这个过程中算法并未充分考虑训练实例与对应标记分布之间的关系，例如：特征与标记间的函数关系，特征与标记间的分布关系和标记分布数据内部的分布关系。同时，现有的专门算法在处理较大数据集时花费的时间较多。聚类［１４］是研究分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法，在研究过程中也有许许多多的应用和改进［１５］。聚类以相似性为基础，试图将数据集中的样本划分为若干个不相交的子集，每个子集称为一个簇，同一簇中样本之间的相似性比不在同一簇中的更高。在聚类算法中常用的ｋ⁃ｍｅａｎｓ算法［１６］及改进算法［１７］是原型聚类的一种，它假设聚类结构能通过一组原型刻画。通常情况下，算法先对原型进行初始化，然后对原型进行迭代更新求解，直到均值向量不再改变或达到最大迭代次数，此时就能得到每一个簇的均值向量。在同一个数据集中，特征相近的实例，它们的标记分布往往也相似，同时依据聚类的特性，本文提出一种新的标记分布算法：基于ｋ⁃ｍｅａｎｓ的标记分布学习算法（ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｋ⁃ｍｅａｎｓ，ＬＤＬＫＭ）。首先，利用ｋ⁃ｍｅａｎｓ聚类算法求得训练样本集中每个簇的均值向量，此时与每一个训练样本对应的标记分布也相应被划分成簇。然后，求得标记分布的每个簇的均值向量。其次，测试集的样本到各个簇的均值向量的距离矩阵可通过常用的求距离方式，闵可夫斯基距离（Ｍｉｎｋｏｗｓｋｉｄｉｓｔａｎｃｅ）［１８］求得。最后，将距离矩阵通过一个ｓｏｆｔｍａｘ函数变换得到一个权重矩阵。权重矩阵和训练样本集的标记分布的均值向量的积就是测试集样本的标记分布，即需要预测的标记分布。本文提出的ＬＤＬＫＭ算法与现有的专用化的算法相比并未采用条件概率的方式建立模型，而是充分考虑了特征间的分布关系和特征与对应的标记分布之间的联系，利用ｋ⁃ｍｅａｎｓ聚类和权重矩阵将特征和标记分布联系到一起。事实上，特征之间的分布与对应标记之间的分布的关系是一种更加直接和强烈的联系。而直接利用这种关系预测得到的标记分布可以继续保持与对应特征的分布关系，从而得到一个较好的结果。ＬＤＬＫＭ和现有的３种ＬＤＬ算法在６个公开数据集［７］上采用５种评价方式进行实验比较，实验的结果表明本文提出的标记分布学习算法在使用的所有数据集上均取得较好的效果，在其中的５个数据集上所有评价方式的结果均为最优。１标记分布学习的形式化在标记分布中，标记一个实例ｘ的方式是为它的每一个可能的标记ｙ分配一个实数ｄｙｘ，用来表示标记ｙ对实例ｘ的描述程度。不失一般性，假设实 ·３２６· 智能系统学报第１２卷

第3期邵东恒，等：应用k-neans算法实现标记分布学习 ·327· 数d!∈[0,1]，进一步假设所有标记能够完整地描高。最小化式(2)并不容易，找到其最优解需考察述实例，则∑d=1。训练集H所有可能的簇划分，这是一个NP难20- 的问题。因此，k-means算法采用了贪心策略，通过标记分布学习是一种更为灵活复杂的标记学迭代优化来近似求解式(2)。习范式，然而学习中更好的灵活性通常意味着更大的输出空间。从单标记学习到多标记学习，再到首先，聚类过程中在H中随机选择k个样本作标记分布学习，学习过程的输出空间的维度变得越为初始均值向量{μ12，…“}，可以通过下式： da=lx-u:‖2 (3) 来越大。更为详细地，对于标记集合中有c个不同标记的学习问题，单标记学习的分类器有c个可能计算训练集样本x与各均值向量4：(i=1,2,…,k) 的距离。根据距离最近的均值向量确定x:的簇的输出，多标记学习的分类器有2-1个可能的输出。对标记分布学习的分类器来讲，只要在满足标记：入y=arg minie[1,2.…分 (4) d∈[0,1]和∑d心=1这两个约束条件的前提下，式中入，∈(1,2，…，k)表示样本的簇标记。将样它的输出空间的维度可能是无穷大的1] 本x划入相应的簇，即标记分布学习定义的实例矩阵为X= C=CU [x;] (5) [x1x2…xn],x∈R表示第i个实例，i=1,2,…,no 更新簇C,的均值向量。式(3)~式(5)这个过程不给定对应标记矩阵Y=[y1y2…y],y表示第j个断迭代直到当前均值向量保持不变或迭代次数达标记，j=1,2,…,c:给定样本的标记分布集是D= 到所规定的最大次数。 [D,D2…D.],D=[dd…d]表示实例x:的标其次，当迭代结束求出所要划分的聚类和对应记分布集，d表示标记y对实例x:的描述度。基于的均值向量后，便可以依据标记分布与训练样本集此，标记分布学习的一个训练集能够表示为的对应关系得到标记分布的簇划分和标记分布每 S={(x1,D1),(x2,D2),…,(xn,Dn)}。个簇的均值向量“。同时利用常用的距离计算公式目前的标记分布学习算法的输出模型是一个 “闵可夫斯基距离”公式，即最大嫡模型)： dist(x,s)=(∑lxn-xP） (6) pl:0)=zn(0,✉） (1) 求得测试集每个样本与各个簇的均值向量的距离式中：Z=∑exp(∑0wf(x)）是归一化因数；9。矩阵T。闵可夫斯基距离是欧式距离的推广，具有广泛的应用，当p=1时是曼哈顿距离，p=2就是欧是模型参数；f(x)是x的第j个特征。随着标记分布的发展逐渐提出许多基于式(1)的标记分布学习式距离，而当p趋于无穷大时就是切比雪夫距离。方法[7,9-o。这些算法先通过条件概率建立参数模本文中将距离矩阵T的每个元素求倒数再通过一个softmax函数进行处理转换，从而得到从训练集样型，再利用现有的模型求解参数日。本的标记分布的均值向量转化为预测标记分布的 2 基于k-means的标记分布学习算法权重矩阵。对矩阵T作以下处理，先对T中每个元素求导数： k-means算法是所有聚类算法中简单常用的一种算法[0。它假设聚类结构能被一组原型刻画，先 1 (7) 初始化一组原型，然后对原型进行迭代更新求解，然后，为了尽量减小与测试样本实例距离较远最终得到每一个簇的均值向量。给定训练集H= 的均值向量的影响和便于之后的计算，利用softmax [x1x2…xm],m为训练集样本数。k-means算法针对聚类所得簇划分G={C,C2,…,C},最小化平方 exp(x:) 函数Zk=softmax(xg)= 再作以下误差为 ∑ep() E=Σ∑Ix-:I 处理： (2 exp(T') W。= a=1,2,…,n (8) 人∑x是簇C,的均值向量。直观来式中：u:=C2 exp(T'au) 6=1 看，式(2)在一定程度上刻画了簇内样本围绕簇均式中：n是测试集样本实例数，W为最后预测标记分值向量的紧密程度，E值越小则簇内样本相似度越布所使用的权重矩阵

数ｄｙｘ∈ [０，１] ，进一步假设所有标记能够完整地描述实例，则 ∑ｙｄｙｘ＝１。标记分布学习是一种更为灵活复杂的标记学习范式，然而学习中更好的灵活性通常意味着更大的输出空间［１９］。从单标记学习到多标记学习，再到标记分布学习，学习过程的输出空间的维度变得越来越大。更为详细地，对于标记集合中有ｃ个不同标记的学习问题，单标记学习的分类器有ｃ个可能的输出，多标记学习的分类器有２ｃ－１个可能的输出。对标记分布学习的分类器来讲，只要在满足ｄｙｘ∈ [０，１] 和 ∑ｙｄｙｘ＝１这两个约束条件的前提下，它的输出空间的维度可能是无穷大的［１９］。标记分布学习定义的实例矩阵为Ｘ＝ｘ１ｘ２… ｘｎ [ ] ，ｘｉ∈Ｒｄ表示第ｉ个实例，ｉ＝１，２，…，ｎ。给定对应标记矩阵Ｙ＝ｙ１ｙ２… ｙｃ [ ] ，ｙｊ表示第ｊ个标记，ｊ＝１，２，…，ｃ；给定样本的标记分布集是Ｄ＝Ｄ１Ｄ２… Ｄｎ [ ] ，Ｄｉ＝ｄｙ１ｘｉｄｙ２ｘｉ … ｄｙｃｘｉ [ ] 表示实例ｘｉ的标记分布集，ｄｙｊｘｉ表示标记ｙｊ对实例ｘｉ的描述度。基于此，标记分布学习的一个训练集能够表示为Ｓ＝（ｘ１，Ｄ１），（ｘ２，Ｄ２），…，（ｘ { ｎ，Ｄｎ）} 。目前的标记分布学习算法的输出模型是一个最大熵模型［７］：ｐ（ｙｘ；θ）＝１Ｚｅｘｐ ∑ ｊ θｙ，ｊｆ ( ｊ（ｘ） ) （１）式中：Ｚ＝ ∑ｙｅｘｐ ∑ ｊ θｙ，ｊｆ ( ｊ（ｘ） ) 是归一化因数；θｙ，ｊ是模型参数；ｆｊ（ｘ）是ｘ的第ｊ个特征。随着标记分布的发展逐渐提出许多基于式（１）的标记分布学习方法［７，９－１０］。这些算法先通过条件概率建立参数模型，再利用现有的模型求解参数 θ。２基于ｋ⁃ｍｅａｎｓ的标记分布学习算法ｋ－ｍｅａｎｓ算法是所有聚类算法中简单常用的一种算法［２０］。它假设聚类结构能被一组原型刻画，先初始化一组原型，然后对原型进行迭代更新求解，最终得到每一个簇的均值向量。给定训练集Ｈ＝ｘ１ｘ２… ｘｍ [ ] ，ｍ为训练集样本数。ｋ⁃ｍｅａｎｓ算法针对聚类所得簇划分Ｇ＝Ｃ１，Ｃ２，…，Ｃｋ { } ，最小化平方误差为Ｅ＝ ∑ ｋｉ＝１ ∑ｘ∈Ｃｉ ‖ｘ－ μｉ‖２２（２）式中： μｉ＝１Ｃｉ ∑ｘ∈Ｃｉｘ是簇Ｃｉ的均值向量。直观来看，式（２）在一定程度上刻画了簇内样本围绕簇均值向量的紧密程度，Ｅ值越小则簇内样本相似度越高。最小化式（２）并不容易，找到其最优解需考察训练集Ｈ所有可能的簇划分，这是一个ＮＰ难［２０－２１］的问题。因此，ｋ⁃ｍｅａｎｓ算法采用了贪心策略，通过迭代优化来近似求解式（２）。首先，聚类过程中在Ｈ中随机选择ｋ个样本作为初始均值向量 μ１，μ２，…，μｋ { } ，可以通过下式：ｄｊｉ＝ ‖ｘｊ－ μｉ‖２（３）计算训练集样本ｘｊ与各均值向量 μｉ（ｉ＝１，２，…，ｋ）的距离。根据距离最近的均值向量确定ｘｊ的簇标记： λｊ＝ａｒｇｍｉｎｉ∈［１，２，…，ｋ］ｄｊｉ（４）式中 λｊ∈(１，２，…，ｋ) 表示样本ｘｊ的簇标记。将样本ｘｊ划入相应的簇，即Ｃλｊ＝Ｃλｊ ∪ ［ｘｊ］（５）更新簇Ｃλｊ的均值向量。式（３）～式（５）这个过程不断迭代直到当前均值向量保持不变或迭代次数达到所规定的最大次数。其次，当迭代结束求出所要划分的聚类和对应的均值向量后，便可以依据标记分布与训练样本集的对应关系得到标记分布的簇划分和标记分布每个簇的均值向量ｕ。同时利用常用的距离计算公式 “闵可夫斯基距离”公式，即ｄｉｓｔｍｋ（ｘｉ，ｘｊ）＝ ∑ ｎｕ＝１ｘｉｕ－ｘｊｕｐ ( ) １ｐ（６）求得测试集每个样本与各个簇的均值向量的距离矩阵Ｔ。闵可夫斯基距离是欧式距离的推广，具有广泛的应用，当ｐ＝１时是曼哈顿距离，ｐ＝２就是欧式距离，而当ｐ趋于无穷大时就是切比雪夫距离。本文中将距离矩阵Ｔ的每个元素求倒数再通过一个ｓｏｆｔｍａｘ函数进行处理转换，从而得到从训练集样本的标记分布的均值向量转化为预测标记分布的权重矩阵。对矩阵Ｔ作以下处理，先对Ｔ中每个元素求导数：Ｔ′ａｂ＝１Ｔａｂ（７）然后，为了尽量减小与测试样本实例距离较远的均值向量的影响和便于之后的计算，利用ｓｏｆｔｍａｘ函数Ｚｋ＝ｓｏｆｔｍａｘ（ｘｋ）＝ｅｘｐ（ｘｋ） ∑ ｋｉ＝１ｅｘｐ（ｘｉ）再作以下处理：Ｗａ＝ｅｘｐ（Ｔ′ａｂ） ∑ ｋｂ＝１ｅｘｐ（Ｔ′ａｂ），ａ＝１，２，…，ｎ（８）式中：ｎ是测试集样本实例数，Ｗ为最后预测标记分布所使用的权重矩阵。第３期邵东恒，等：应用ｋ⁃ｍｅａｎｓ算法实现标记分布学习 ·３２７·

·328 智能系统学报第12卷最后将W与训练集对应的标记分布的均值向 8)根据式(9)得出预测标记分布P。量矩阵U相乘，即实验与结果分析 P=WU (9) 式中：U=[u12…u,];P就是所需要求的预测标记在这部分，将通过实验来验证本文提出的基于分布。 k-means的标记分布学习算法。上述的算法过程可以通过图1的流程图来标记分布学习算法的输出是一个标记分布，与表示。单标记学习的单标记输出和多标记学习的标记集输入输出都不同。因此，标记分布学习算法的评价方式，应该与单标记学习和多标记学习算法不同。这 [选择初始均值向量种方式不是通过预测标记的准确度来评价算法优计算样本与均值向量的距离劣，而是通过测量预测结果和真实标记分布之间的划分样本筷距离或相似度来衡量算法效果。有很多测量概率分布之间的距离或相似度的方法)可以用来很好更新均值向量地测量标记分布之间的距离或相似度。例如，表1 <是否更新一 Y 中根据文献[7]和[22]选出的5种测量方式就能很 N 好地用来评价标记分布算法。评价标准距离名称样本到均值向量的距离矩阵之后的“↓”代表距离值越小越好，相似度名称之后预测标记分布权重矩阵的“↑”表示相似值越大越好。这5种评价方法分别是切比雪夫距离(Chebyshev)、克拉克距离 (输出预测标记分布○ (Clark)、堪培拉量度(Canberra)、弦系数(Cosine)以图1 LDLKM算法流程图及交叉相似性(Intersection),前3种以距离作为评 Fig.1 The flowchart of LDLKM 价，即越小越好，后两种以相似度作为评价，即越大本文提出的LDLKM算法具体步骤如下：越好。算法基于k-means算法的标记分布学习表1评价指标 (LDLKM)。 Table 1 Evaluation index 输入聚类的簇数k,聚类迭代的最大次数d,闵可评价标准计算形式夫斯基距离参数P,训练集S={(x1,D),(x2,D2),…, Chebyshev↓ (x,D) Dis,=maxdd 输出测试集的预测标记分布P。 1)从训练集样本H中随机选择k个样本作为 (d,-4,)月 Clark↓ Dis,= 初始向量{u1,u2,…,“}。 V(d.d) 2)迭代开始，令C,(1≤i≤k)为空，利用式(3)】计算样本x与各均值向量u:的距离。 Canberra↓ 3)依据式(4)，根据距离最近的均值向量确定 ,=刻 d,d x的簇标记入；将样本x,划入相应的簇。 4)更新均值向量，分别计算划分完簇后的新的 ∑4d Cosine Dis, 均简向量：，向三。 √G√∑话 5)若当前的均值向量均未更新或达到规定的 Intersection↑ Dis5=∑i.1min(d,d）最大迭代次数，继续下一步：否则，返回2)，重复3) 到5)直到所有测法样本划分完毕。 3.1实验设置 6)依据式(6)求得测试集每个样本与各个均值通过上述5种评价方式，本次实验在6个公开向量的距离矩阵T。的数据集上进行，它们分别是Yeast-.alpha、Yeast- 7)利用式(7)和式(8)求得预测标记分布的权 cdc、Yeast--elu、SJAFFE、Human Gene和Movie,详重矩阵W。细的信息如表2所示

最后将Ｗ与训练集对应的标记分布的均值向量矩阵Ｕ相乘，即Ｐ＝ＷＵ（９）式中：Ｕ＝［ｕ１ｕ２… ｕｂ］；Ｐ就是所需要求的预测标记分布。上述的算法过程可以通过图１的流程图来表示。图１ＬＤＬＫＭ算法流程图Ｆｉｇ．１ＴｈｅｆｌｏｗｃｈａｒｔｏｆＬＤＬＫＭ本文提出的ＬＤＬＫＭ算法具体步骤如下：算法基于ｋ⁃ｍｅａｎｓ算法的标记分布学习（ＬＤＬＫＭ）。输入聚类的簇数ｋ，聚类迭代的最大次数ｄ，闵可夫斯基距离参数ｐ，训练集Ｓ＝｛（ｘ１，Ｄ１），（ｘ２，Ｄ２），…，（ｘｎ，Ｄｎ）｝。输出测试集的预测标记分布Ｐ。１）从训练集样本Ｈ中随机选择ｋ个样本作为初始向量 μ１， μ２， …， μｋ { } 。２）迭代开始，令Ｃｉ（１≤ｉ≤ｋ）为空，利用式（３）计算样本ｘｊ与各均值向量 μｉ的距离。３）依据式（４），根据距离最近的均值向量确定ｘｊ的簇标记 λｊ；将样本ｘｊ划入相应的簇。４）更新均值向量，分别计算划分完簇后的新的均值向量： μｉ＝１Ｃｉ ∑ｘ∈Ｃｉｘ。５）若当前的均值向量均未更新或达到规定的最大迭代次数，继续下一步；否则，返回２），重复３）到５）直到所有测法样本划分完毕。６）依据式（６）求得测试集每个样本与各个均值向量的距离矩阵Ｔ。７）利用式（７）和式（８）求得预测标记分布的权重矩阵Ｗ。８）根据式（９）得出预测标记分布Ｐ。３实验与结果分析在这部分，将通过实验来验证本文提出的基于ｋ⁃ｍｅａｎｓ的标记分布学习算法。标记分布学习算法的输出是一个标记分布，与单标记学习的单标记输出和多标记学习的标记集输出都不同。因此，标记分布学习算法的评价方式，应该与单标记学习和多标记学习算法不同。这种方式不是通过预测标记的准确度来评价算法优劣，而是通过测量预测结果和真实标记分布之间的距离或相似度来衡量算法效果。有很多测量概率分布之间的距离或相似度的方法［７］可以用来很好地测量标记分布之间的距离或相似度。例如，表１中根据文献［７］和［２２］选出的５种测量方式就能很好地用来评价标记分布算法。评价标准距离名称之后的“↓”代表距离值越小越好，相似度名称之后的“↑”表示相似值越大越好。这５种评价方法分别是切比雪夫距离（Ｃｈｅｂｙｓｈｅｖ）、克拉克距离（Ｃｌａｒｋ）、堪培拉量度（Ｃａｎｂｅｒｒａ）、弦系数（Ｃｏｓｉｎｅ）以及交叉相似性（Ｉｎｔｅｒｓｅｃｔｉｏｎ），前３种以距离作为评价，即越小越好，后两种以相似度作为评价，即越大越好。表１评价指标Ｔａｂｌｅ１Ｅｖａｌｕａｔｉｏｎｉｎｄｅｘ评价标准计算形式Ｃｈｅｂｙｓｈｅｖ ↓ Ｄｉｓ１＝ｍａｘｌｄｌ－ｄ ∧ ｌＣｌａｒｋ ↓ Ｄｉｓ２＝ ∑ｃｌ＝１（ｄｌ－ｄ ∧ ｌ）２（ｄｌ，ｄ ∧ ｌ）２Ｃａｎｂｅｒｒａ ↓ Ｄｉｓ３＝ ∑ ｃｌ＝１ｄｌ－ｄｌ ∧ ｄｌ＋ｄｌ ∧ Ｃｏｓｉｎｅ ↑ Ｄｉｓ４＝ ∑ ｃｌ＝１ｄｌｄｌ ∧ ∑ ｃｌ＝１ｄ２ｌ ∑ ｃｌ＝１ｄ２ｌ ∧ Ｉｎｔｅｒｓｅｃｔｉｏｎ ↑ Ｄｉｓ５＝∑ｃｌ＝１ｍｉｎ（ｄｌ，ｄｌ ∧ ）３．１实验设置通过上述５种评价方式，本次实验在６个公开的数据集上进行，它们分别是Ｙｅａｓｔ⁃ａｌｐｈａ、Ｙｅａｓｔ⁃ ｃｄｃ、Ｙｅａｓｔ⁃ｅｌｕ、ＳＪＡＦＦＥ、ＨｕｍａｎＧｅｎｅ和Ｍｏｖｉｅ，详细的信息如表２所示。 ·３２８· 智能系统学报第１２卷

第3期邵东恒，等：应用k-means算法实现标记分布学习 ·329· 表2实验数据集描述 5个人类基因数据集完全优于和它对比的算法，第4 Table 2 Describe experimental data set 个和第6个数据集也优于其他两个对比算法，并在数据集样本特征标记总体上优于第3个对比算法。整体上来看，LDLKM Yeast-alpha 2465 24 18 在基因数据集上可以取得比在其他类型数据集上 Yeast-cde 2465 24 15 更好的效果，在非基因数据集SJAFFE和Movie上的效果略微差于在基因数据集上的效果，而在Human Yeast-elu 2465 24 14 Gene数据集上LDLKM的效果与SA-IIS较为接近， SJAFFE 213 243 6 提升效果不大。这说明不同类型的数据集对我们 Human Gene 30542 36 68 的算法有着一定的影响。同时，可以进一步看到， Movie 7755 1869 J 专用化的算法SA-IIS比算法PT-Bayes和AA-BP的第1个到第3个数据集（从Yeast-alpha到效果更好，处于第二的位置。 Yeast-elu)是从酿酒酵母6的4个生物实验上收集表3数据集Yeast--alpha的实验结果的真实数据集。每个数据集总共包括2465个酵母 Table 3 The experimental results of Yeast-alpha 基因，每个基因通过24个特征表示。标记对应于离评价标准PT-Bayes AA-BP SA-IIS LDLKM 散的时间点，标记分布是每个时间点的基因表达水平。第四个数据集拓展来自一个脸部表情图像数 Cheby 0.1010 0.0361 0.0202 0.0135 据集JAF℉E,它包括来自10个日本女性的213张灰 Clark 1.17280.7221 0.3034 0.2101 度图，并利用局部二值模式]从每张图像中采集 Canbe 4.1989 2.3831 1.0140 243个特征，每张图像由60个人在6种感情上打 0.6812 分。第5个数据集Human Gene是一个大规模的真 Cosine 0.8486 0.9485 0.9881 0.9946 实数据集，来自于人类基因和疾病的关系生物实验[24】。在数据集中总共包括30542个人类基因，每 Interse 0.7727 0.8759 0.9428 0.9624 一个都被一个基因序列的36个特征数值表示。68 表4数据集Yeast-.cdc的实验结果个标记对应于68种疾病，标记分布是基因在68种 Table 4 The experimental results of Yeast-cdc 疾病上的表达水平。第6个数据集Movie是关于电评价标准 PT-Bayes AA-BP SA-IIS LDLKM 影的用户评级。评级数据来源于Netflix,范围是15 级(5个标记)。标记分布描述了每个评级所占的比 Cheby 0.1124 0.0393 0.0233 0.0162 例。特征则提取自电影的元数据，一共有1869个 Clark 1.0758 0.6073 0.2926 0.2158 特征。为了能使实验结果更具说服力，采用了十折交 Canbe 3.5263 1.8298 0.8976 0.6467 叉的方式进行实验。聚类划分的簇的数目为5，最 Cosine 0.8491 0.95500.9870 0.9933 大迭代次数设置为20，闵可夫斯基距离参数p设置成5。在表2的数据集上进行实验，并采用表1中 Interse 0.77120.8851 0.9397 0.9575 的五种评价方式，分别与现有的3种标记分布学习表5数据集Yeast-.elu的实验结果算法进行比较。这3种比较算法分别是PT-Bayes、 Table 5 The experimental results of Yeast-elu AA-BP和SA-IIS。评价标准 PT-Bayes AA-BP SA-IIS LDLKM 3.2实验结果分析表3~8分别列出在6个不同的数据集上，4种 Cheby 0.1098 0.0388 0.0240 0.0163 算法对应不同评价标准的测量值。前3个评价指标 Clark 1.01490.5438 0.2756 0.1995 (Cheby、Clark和Canbe)值越小表示算法效果越好，后两个评价指标(Cosine和Interse)值越大表示算法 Canbe 3.2119 1.5841 0.8239 0.5855 效果越好。在每个表中最后一列是本文算法的结 Cosine 0.85720.9600 0.9876 0.9940 果。从表中可以看出本文提出的算法在5种评价标准下都有很好的效果。前3个酵母基因数据集和第 Interse 0.77760.89300.9406 0.9587

表２实验数据集描述Ｔａｂｌｅ２Ｄｅｓｃｒｉｂｅｅｘｐｅｒｉｍｅｎｔａｌｄａｔａｓｅｔ数据集样本特征标记Ｙｅａｓｔ⁃ａｌｐｈａ２４６５２４１８Ｙｅａｓｔ⁃ｃｄｃ２４６５２４１５Ｙｅａｓｔ⁃ｅｌｕ２４６５２４１４ＳＪＡＦＦＥ２１３２４３６ＨｕｍａｎＧｅｎｅ３０５４２３６６８Ｍｏｖｉｅ７７５５１８６９５第１个到第３个数据集（从Ｙｅａｓｔ⁃ａｌｐｈａ到Ｙｅａｓｔ⁃ｅｌｕ）是从酿酒酵母［６］的４个生物实验上收集的真实数据集。每个数据集总共包括２４６５个酵母基因，每个基因通过２４个特征表示。标记对应于离散的时间点，标记分布是每个时间点的基因表达水平。第四个数据集拓展来自一个脸部表情图像数据集ＪＡＦＦＥ，它包括来自１０个日本女性的２１３张灰度图，并利用局部二值模式［２３］从每张图像中采集２４３个特征，每张图像由６０个人在６种感情上打分。第５个数据集ＨｕｍａｎＧｅｎｅ是一个大规模的真实数据集，来自于人类基因和疾病的关系生物实验［２４］。在数据集中总共包括３０５４２个人类基因，每一个都被一个基因序列的３６个特征数值表示。６８个标记对应于６８种疾病，标记分布是基因在６８种疾病上的表达水平。第６个数据集Ｍｏｖｉｅ是关于电影的用户评级。评级数据来源于Ｎｅｔｆｌｉｘ，范围是１５级（５个标记）。标记分布描述了每个评级所占的比例。特征则提取自电影的元数据，一共有１８６９个特征。为了能使实验结果更具说服力，采用了十折交叉的方式进行实验。聚类划分的簇的数目为５，最大迭代次数设置为２０，闵可夫斯基距离参数ｐ设置成５。在表２的数据集上进行实验，并采用表１中的五种评价方式，分别与现有的３种标记分布学习算法进行比较。这３种比较算法分别是ＰＴ⁃Ｂａｙｅｓ、ＡＡ⁃ＢＰ和ＳＡ⁃ＩＩＳ。３．２实验结果分析表３～８分别列出在６个不同的数据集上，４种算法对应不同评价标准的测量值。前３个评价指标（Ｃｈｅｂｙ、Ｃｌａｒｋ和Ｃａｎｂｅ）值越小表示算法效果越好，后两个评价指标（Ｃｏｓｉｎｅ和Ｉｎｔｅｒｓｅ）值越大表示算法效果越好。在每个表中最后一列是本文算法的结果。从表中可以看出本文提出的算法在５种评价标准下都有很好的效果。前３个酵母基因数据集和第５个人类基因数据集完全优于和它对比的算法，第４个和第６个数据集也优于其他两个对比算法，并在总体上优于第３个对比算法。整体上来看，ＬＤＬＫＭ在基因数据集上可以取得比在其他类型数据集上更好的效果，在非基因数据集ＳＪＡＦＦＥ和Ｍｏｖｉｅ上的效果略微差于在基因数据集上的效果，而在ＨｕｍａｎＧｅｎｅ数据集上ＬＤＬＫＭ的效果与ＳＡ⁃ＩＩＳ较为接近，提升效果不大。这说明不同类型的数据集对我们的算法有着一定的影响。同时，可以进一步看到，专用化的算法ＳＡ⁃ＩＩＳ比算法ＰＴ⁃Ｂａｙｅｓ和ＡＡ⁃ＢＰ的效果更好，处于第二的位置。表３数据集Ｙｅａｓｔ－ａｌｐｈａ的实验结果Ｔａｂｌｅ３ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆＹｅａｓｔ⁃ａｌｐｈａ评价标准ＰＴ⁃ＢａｙｅｓＡＡ⁃ＢＰＳＡ⁃ＩＩＳＬＤＬＫＭＣｈｅｂｙ０．１０１００．０３６１０．０２０２０．０１３５Ｃｌａｒｋ１．１７２８０．７２２１０．３０３４０．２１０１Ｃａｎｂｅ４．１９８９２．３８３１１．０１４００．６８１２Ｃｏｓｉｎｅ０．８４８６０．９４８５０．９８８１０．９９４６Ｉｎｔｅｒｓｅ０．７７２７０．８７５９０．９４２８０．９６２４表４数据集Ｙｅａｓｔ⁃ｃｄｃ的实验结果Ｔａｂｌｅ４ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆＹｅａｓｔ⁃ｃｄｃ评价标准ＰＴ⁃ＢａｙｅｓＡＡ⁃ＢＰＳＡ⁃ＩＩＳＬＤＬＫＭＣｈｅｂｙ０．１１２４０．０３９３０．０２３３０．０１６２Ｃｌａｒｋ１．０７５８０．６０７３０．２９２６０．２１５８Ｃａｎｂｅ３．５２６３１．８２９８０．８９７６０．６４６７Ｃｏｓｉｎｅ０．８４９１０．９５５００．９８７００．９９３３Ｉｎｔｅｒｓｅ０．７７１２０．８８５１０．９３９７０．９５７５表５数据集Ｙｅａｓｔ⁃ｅｌｕ的实验结果Ｔａｂｌｅ５ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆＹｅａｓｔ⁃ｅｌｕ评价标准ＰＴ⁃ＢａｙｅｓＡＡ⁃ＢＰＳＡ⁃ＩＩＳＬＤＬＫＭＣｈｅｂｙ０．１０９８０．０３８８０．０２４００．０１６３Ｃｌａｒｋ１．０１４９０．５４３８０．２７５６０．１９９５Ｃａｎｂｅ３．２１１９１．５８４１０．８２３９０．５８５５Ｃｏｓｉｎｅ０．８５７２０．９６０００．９８７６０．９９４０Ｉｎｔｅｒｓｅ０．７７７６０．８９３００．９４０６０．９５８７第３期邵东恒，等：应用ｋ⁃ｍｅａｎｓ算法实现标记分布学习 ·３２９·

表６数据集ＪＡＦＦＥ的实验结果Ｔａｂｌｅ６ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆＪＡＦＦＥ评价标准ＰＴ⁃ＢａｙｅｓＡＡ⁃ＢＰＳＡ⁃ＩＩＳＬＤＬＫＭＣｈｅｂｙ０．１２０５０．１４０３０．１１９１０．１１７９Ｃｌａｒｋ０．４３９４０．５３５００．４２４６０．４１６４Ｃａｎｂｅ０．９００９１．１０２２０．８８６３０．８６６０Ｃｏｓｉｎｅ０．９３０３０．８９５００．９３１７０．９２８８Ｉｎｔｅｒｓｅ０．８４６５０．８４２６０．８４９００．８５０５表７数据集ＨｕｍａｎＧｅｎｅ的实验结果Ｔａｂｌｅ７ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆＨｕｍａｎＧｅｎｅ评价标准ＰＴ⁃ＢａｙｅｓＡＡ⁃ＢＰＳＡ⁃ＩＩＳＬＤＬＫＭＣｈｅｂｙ０．１８３４０．０６３００．０５３４０．０５３３Ｃｌａｒｋ４．６８０８３．６７８９２．１２７７２．１１３３Ｃａｎｂｅ３４．２１７８２５．２２９７１４．５７７８１４．４６４２Ｃｏｓｉｎｅ０．４５２８０．６９０００．８３２９０．８３４８Ｉｎｔｅｒｓｅ０．４６９６０．６３７７０．７８２４０．７８４４表８数据集Ｍｏｖｉｅ的实验结果Ｔａｂｌｅ８ＴｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｏｆＭｏｖｉｅ评价标准ＰＴ⁃ＢａｙｅｓＡＡ⁃ＢＰＳＡ⁃ＩＩＳＬＤＬＫＭＣｈｅｂｙ０．１９９２０．１３８５０．１４６７０．１２９３Ｃｌａｒｋ０．８００３０．６３８６０．５８０６０．５８７２Ｃａｎｂｅ１．５４９０１．２１９１１．１１５８１．１２３８Ｃｏｓｉｎｅ０．８５０６０．９０３５０．９０８８０．９１８３Ｉｎｔｅｒｓｅ０．７２４５０．７９８９０．８０４１０．８１２４４种标记分布算法在６个数据集上的预测结果如图２所示，内容是标记分布算法对数据集中某个实例的标记分布预测结果和实际标记分布的比较。从图２中可以看出，ＬＤＬＫＭ的预测结果与实际标记分布最为接近，曲线的形状最为相似，即预测效果最好。在实验过程中，由于ＬＤＬＫＭ直接利用了特征与标记之间的分布关系，训练模型的时间比现有的专用化的算法还要少。（ａ）Ｙｅａｓｔ⁃ａｌｐｈａ数据集上的预测结果（ｂ）Ｙｅａｓｔ⁃ｃｄｃ数据集上的预测结果（ｃ）Ｙｅａｓｔ⁃ｅｌｕ数据集上的预测结果（ｄ）ＪＡＦＦＥ数据集上的预测结果 ·３３０· 智能系统学报第１２卷

第3期邵东恒，等：应用k-neans算法实现标记分布学习 ·331· 0.50 origin 0.15 -origin 0.45 。Kmean ●-Kmean 0.40 -Bayes Bayes -BP 0.35 平BP 0.10 -IIS -0-IS 0.30 0.25 始 0.05 0.15 0.10形 0.05 6 81012141618 1.01.52.02.53.03.54.04.55.0 标记数标记数 (e)Human-Gene数据集上的预测结果 (f)Movie数据集上的预测结果图24种标记分布算法在6个公开数据集上预测结果 Fig.2 The prediction distribution of four LDL algorithms on six datasets classification:an overview[J].International journal of data 4 结束语 warehousing and mining,2007,3(3):1-13 本文提出的基于k-means标记分布学习算法， [4]READ J,PFAHRINGER B,HOLMES G.et al.Classifier 是在标记分布框架下，利用标记分布和样本集所具 chains for multi-label classification[J].Machine learning, 有的联系，通过求得一个权重矩阵来得到预测标记 2011,85(3):333-359 [5]READ J,PFAHRINGER B,HOLMES G.Multi-label 分布，而不是与现有的算法一样，通过求每一个标 classification using ensembles of pruned sets [C]// 记的条件概率来得到预测标记分布。LDLKM主要 Proceedings of Eighth IEEE International Conference on 通过将训练集的样本作为k-means聚类的样本，获 Data Mining,Pisa,Italy,2008.Washington,USA:IEEE 得每个簇的均值向量。然后将求得的测试集样本 Computer Society,2008:995-1000. 与均值向量的距离矩阵，作为预测标记分布与训练 [6]EISEN M B,SPELLMAN P T,BROWN P O,et al.Cluster 集对应的标记分布间的关系，直接求得所需的预测 analysis and display of genome-wide expression patterns[J]. 标记分布。本算法充分利用了特征和标记之间的 Proceedings of the national academy of sciences of the 分布关系，又通过softmax函数减小了与测试样本距 united states of America,1998,95(25):14863-14868. 离较远的均值向量的影响，同时本算法相对于现有 [7]Geng X.Label distribution learning[J].IEEE transactions 的专门化的算法在较大的数据集上花费的时间更 on knowledge and data engineering,2014,28 (7): 少。在公开的6个数据集上进行的实验所得的结果 1734-1748. [8]季荣姿.标记分布学习及其应用[D].南京：东南大说明，本文提出的基于k-means的标记分布学习算学，2014. 法是有效的。在以后的工作中，我们将对算法进一 JI Rongzi.Label distribution learning and its application 步优化，还可以引入集成学习来强化聚类效果，或 [D].Nanjing:Southeast University,2014. 采用一种改进的聚类算法[2]，或针对标记分布学习 [9]ZHANG Z,WANG M,GENG X.Crowd counting in public 的特性来专门设计一个聚类算法。 video surveillance by label distribution learning [J]. 参考文献： Neurocomputing,2015,166(C):151-163. [10]GENG X,WANG Q,XIA Y.Facial age estimation by [1]ZHANG M L.ZHOU Z H.A review on multi-label learning adaptive label distribution learning[C]//Proceedings of algorithms[J].IEEE transactions on knowledge and data IEEE International Conference on Pattern Recognition, engineering,2014,26(8):1819-1837. Stockholm,Sweden,2014.Washington,USA:IEEE [2]WEI Yunchao,XIA Wei,HUANG Junshi,et al.CNN: Computer Society,2014:4465-4470. Single-label to multi-label[J].Computer science,2014,11: [11]GENG X,XIA Y.Head pose estimation based on 26-56. multivariate label distribution C//Proceedings of IEEE [3]TSOUMAKAS G,KATAKIS I,TANIAR D.Multi-label International Conference on Computer Vision and Pattern

（ｅ）Ｈｕｍａｎ⁃Ｇｅｎｅ数据集上的预测结果（ｆ）Ｍｏｖｉｅ数据集上的预测结果图２４种标记分布算法在６个公开数据集上预测结果Ｆｉｇ．２ＴｈｅｐｒｅｄｉｃｔｉｏｎｄｉｓｔｒｉｂｕｔｉｏｎｏｆｆｏｕｒＬＤＬａｌｇｏｒｉｔｈｍｓｏｎｓｉｘｄａｔａｓｅｔｓ４结束语本文提出的基于ｋ⁃ｍｅａｎｓ标记分布学习算法，是在标记分布框架下，利用标记分布和样本集所具有的联系，通过求得一个权重矩阵来得到预测标记分布，而不是与现有的算法一样，通过求每一个标记的条件概率来得到预测标记分布。ＬＤＬＫＭ主要通过将训练集的样本作为ｋ⁃ｍｅａｎｓ聚类的样本，获得每个簇的均值向量。然后将求得的测试集样本与均值向量的距离矩阵，作为预测标记分布与训练集对应的标记分布间的关系，直接求得所需的预测标记分布。本算法充分利用了特征和标记之间的分布关系，又通过ｓｏｆｔｍａｘ函数减小了与测试样本距离较远的均值向量的影响，同时本算法相对于现有的专门化的算法在较大的数据集上花费的时间更少。在公开的６个数据集上进行的实验所得的结果说明，本文提出的基于ｋ⁃ｍｅａｎｓ的标记分布学习算法是有效的。在以后的工作中，我们将对算法进一步优化，还可以引入集成学习来强化聚类效果，或采用一种改进的聚类算法［２５］，或针对标记分布学习的特性来专门设计一个聚类算法。参考文献：［１］ＺＨＡＮＧＭＬ，ＺＨＯＵＺＨ．Ａｒｅｖｉｅｗｏｎｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｋｎｏｗｌｅｄｇｅａｎｄｄａｔａｅｎｇｉｎｅｅｒｉｎｇ，２０１４，２６（８）：１８１９－１８３７．［２］ＷＥＩＹｕｎｃｈａｏ，ＸＩＡＷｅｉ，ＨＵＡＮＧＪｕｎｓｈｉ，ｅｔａｌ．ＣＮＮ：Ｓｉｎｇｌｅ⁃ｌａｂｅｌｔｏｍｕｌｔｉ⁃ｌａｂｅｌ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２０１４，１１：２６－５６．［３］ＴＳＯＵＭＡＫＡＳＧ，ＫＡＴＡＫＩＳＩ，ＴＡＮＩＡＲＤ．Ｍｕｌｔｉ⁃ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ：ａｎｏｖｅｒｖｉｅｗ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆｄａｔａｗａｒｅｈｏｕｓｉｎｇａｎｄｍｉｎｉｎｇ，２００７，３（３）：１－１３．［４］ＲＥＡＤＪ，ＰＦＡＨＲＩＮＧＥＲＢ，ＨＯＬＭＥＳＧ，ｅｔａｌ．Ｃｌａｓｓｉｆｉｅｒｃｈａｉｎｓｆｏｒｍｕｌｔｉ－ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，２０１１，８５（３）：３３３－３５９．［５］ＲＥＡＤＪ，ＰＦＡＨＲＩＮＧＥＲＢ，ＨＯＬＭＥＳＧ．Ｍｕｌｔｉ⁃ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｅｎｓｅｍｂｌｅｓｏｆｐｒｕｎｅｄｓｅｔｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＥｉｇｈｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇ，Ｐｉｓａ，Ｉｔａｌｙ，２００８．Ｗａｓｈｉｎｇｔｏｎ，ＵＳＡ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２００８：９９５－１０００．［６］ＥＩＳＥＮＭＢ，ＳＰＥＬＬＭＡＮＰＴ，ＢＲＯＷＮＰＯ，ｅｔａｌ．Ｃｌｕｓｔｅｒａｎａｌｙｓｉｓａｎｄｄｉｓｐｌａｙｏｆｇｅｎｏｍｅ⁃ｗｉｄｅｅｘｐｒｅｓｓｉｏｎｐａｔｔｅｒｎｓ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｎａｔｉｏｎａｌａｃａｄｅｍｙｏｆｓｃｉｅｎｃｅｓｏｆｔｈｅｕｎｉｔｅｄｓｔａｔｅｓｏｆＡｍｅｒｉｃａ，１９９８，９５（２５）：１４８６３－１４８６８．［７］ＧｅｎｇＸ．Ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｋｎｏｗｌｅｄｇｅａｎｄｄａｔａｅｎｇｉｎｅｅｒｉｎｇ，２０１４，２８（７）：１７３４－１７４８．［８］季荣姿．标记分布学习及其应用［Ｄ］．南京：东南大学，２０１４．ＪＩＲｏｎｇｚｉ．Ｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎ［Ｄ］．Ｎａｎｊｉｎｇ：ＳｏｕｔｈｅａｓｔＵｎｉｖｅｒｓｉｔｙ，２０１４．［９］ＺＨＡＮＧＺ，ＷＡＮＧＭ，ＧＥＮＧＸ．Ｃｒｏｗｄｃｏｕｎｔｉｎｇｉｎｐｕｂｌｉｃｖｉｄｅｏｓｕｒｖｅｉｌｌａｎｃｅｂｙｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇ［Ｊ］．Ｎｅｕｒｏｃｏｍｐｕｔｉｎｇ，２０１５，１６６（Ｃ）：１５１－１６３．［１０］ＧＥＮＧＸ，ＷＡＮＧＱ，ＸＩＡＹ．Ｆａｃｉａｌａｇｅｅｓｔｉｍａｔｉｏｎｂｙａｄａｐｔｉｖｅｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，Ｓｔｏｃｋｈｏｌｍ，Ｓｗｅｄｅｎ，２０１４．Ｗａｓｈｉｎｇｔｏｎ，ＵＳＡ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２０１４：４４６５－４４７０．［１１］ＧＥＮＧＸ，ＸＩＡＹ．Ｈｅａｄｐｏｓｅｅｓｔｉｍａｔｉｏｎｂａｓｅｄｏｎｍｕｌｔｉｖａｒｉａｔｅｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎ第３期邵东恒，等：应用ｋ⁃ｍｅａｎｓ算法实现标记分布学习 ·３３１·

.332. 智能系统学报第12卷 Recognition,Columbus,USA,2014.Washington,USA: [22]CHA S H.Comprehensive survey on distance/similarity IEEE Computer Society,2014:1837-1842. measures between probability density functions [J.Intemational [12]GENG X,HOU P.Pre-release prediction of crowd opinion joumal of mathematical models and methods in applied sciences. on movies by label distribution learning[C]//Proceedings 2007.1(4):300-307. of the International Joint Conference on Artificial [23 AHONEN T,HADID A,PIETIKAINEN M.Face Intelligence,Buenos Aires,Argentina,2015.San description with local binary patterns:application to face Francisco,USA:Morgan Kaufmann,2015:3511-3517. recognition[J].IEEE trans pattern anal mach intell, [13]GENG X,YIN C,ZHOU Z H.Facial age estimation by 2006,28(12):2037-2041. learning from label distributions.[].IEEE transactions on [24]YU J F,JIANG D K,XIAO K,et al.Discriminate the falsely pattern analysis and machine intelligence,2013,35(10): predicted protein-coding genes in Aeropyrum Pemix KI 2401-2412. genome based on graphical representation [J].Match [14]JAIN A K.Data clustering:a review[J].ACM computing communications in mathematical and in computer chemistry, survey8,1999,31(3):264-323. 2012,67(3):845-866. [15]程肠，王士同.基于局部保留投影的多可选聚类发掘算 [25]周治平，王杰锋，朱书伟，等.一种改进的自适应快速法[J].智能系统学报，2016,11(5)：600-607. AF-DBSCAN聚类算法[J].智能系统学报，2016,11 CHENG Yang,WANG Shitong.A multiple alternative (1):93-98. clusterings mining algorithm using locality preserving ZHOU Zhiping,WANG Jiefeng,ZHU Shuwei,et al.An projections[].CAAI transactions on intelligent systems, improved adaptive and fast AF-DBSCAN clustering 2016,11(5):600-607. algorithm[J].CAAI transaction on intelligent systems, [16]HARTIGAN J A,WONG M A.A &-means clustering 2016,11(1):93-98. algorithm[J].Applied statistics,2013,28(1):100-108. 作者简介： [17]申彦，朱玉全.CMP上基于数据集划分的k-means多邵东恒，男，1992年生，硕士研究核优化算法[J].智能系统学报，2015(4)：607-614. 生，主要研究方向为标记分布学习。 SHEN Yan,ZHU Yuquan.An optimized algorithm of means based on data set partition on CMP systems[J]. CAAI transactions on intelligent systems,2015,10(4): 607-614. [18]GROENEN P J F,KAYMAK U,VAN Rosmalen J.Fuzzy 杨文元.男.1967年生，副教授，博 clustering with minkowski distance functions [J].Fuzzy 士，主要研究方向为机器学习、标记分 sets and systems,2001,120(2):227-237. 布学习。发表学术论文20余篇。 [19]赵权，耿新.标记分布学习中目标函数的选择[J].计算机科学与探索，2017,11(5)：1-12. ZHAO Quan,GENG Xin.Selection of target function in label distribution learning [J].Journal of frontiers of computer science and technology,2017,11(5):1-12. 赵红，女，1979年生，副教授，主要研究方向为粒计算、分层分类学习。发 [20]周志华.机器学习[M].北京：清华大学出版社，2016 表学术论文40余篇。 [21]ALOISE D,DESHPANDE A,HANSEN P,et al.NP- hardness of euclidean sum-of-squares clustering [J]. Machine learning,2009,75(2):245-248

Ｒｅｃｏｇｎｉｔｉｏｎ，Ｃｏｌｕｍｂｕｓ，ＵＳＡ，２０１４．Ｗａｓｈｉｎｇｔｏｎ，ＵＳＡ：ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙ，２０１４：１８３７－１８４２．［１２］ＧＥＮＧＸ，ＨＯＵＰ．Ｐｒｅ⁃ｒｅｌｅａｓｅｐｒｅｄｉｃｔｉｏｎｏｆｃｒｏｗｄｏｐｉｎｉｏｎｏｎｍｏｖｉｅｓｂｙｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，ＢｕｅｎｏｓＡｉｒｅｓ，Ａｒｇｅｎｔｉｎａ，２０１５．ＳａｎＦｒａｎｃｉｓｃｏ，ＵＳＡ：ＭｏｒｇａｎＫａｕｆｍａｎｎ，２０１５：３５１１－３５１７．［１３］ＧＥＮＧＸ，ＹＩＮＣ，ＺＨＯＵＺＨ．Ｆａｃｉａｌａｇｅｅｓｔｉｍａｔｉｏｎｂｙｌｅａｒｎｉｎｇｆｒｏｍｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｓ．［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２０１３，３５（１０）：２４０１－２４１２．［１４］ＪＡＩＮＡＫ．Ｄａｔａｃｌｕｓｔｅｒｉｎｇ：ａｒｅｖｉｅｗ［Ｊ］．ＡＣＭｃｏｍｐｕｔｉｎｇｓｕｒｖｅｙｓ，１９９９，３１（３）：２６４－３２３．［１５］程旸，王士同．基于局部保留投影的多可选聚类发掘算法［Ｊ］．智能系统学报，２０１６，１１（５）：６００－６０７．ＣＨＥＮＧＹａｎｇ，ＷＡＮＧＳｈｉｔｏｎｇ．Ａｍｕｌｔｉｐｌｅａｌｔｅｒｎａｔｉｖｅｃｌｕｓｔｅｒｉｎｇｓｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｕｓｉｎｇｌｏｃａｌｉｔｙｐｒｅｓｅｒｖｉｎｇｐｒｏｊｅｃｔｉｏｎｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（５）：６００－６０７．［１６］ＨＡＲＴＩＧＡＮＪＡ，ＷＯＮＧＭＡ．Ａｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．Ａｐｐｌｉｅｄｓｔａｔｉｓｔｉｃｓ，２０１３，２８（１）：１００－１０８．［１７］申彦，朱玉全．ＣＭＰ上基于数据集划分的ｋ－ｍｅａｎｓ多核优化算法［Ｊ］．智能系统学报，２０１５（４）：６０７－６１４．ＳＨＥＮＹａｎ，ＺＨＵＹｕｑｕａｎ．Ａｎｏｐｔｉｍｉｚｅｄａｌｇｏｒｉｔｈｍｏｆｋ－ｍｅａｎｓｂａｓｅｄｏｎｄａｔａｓｅｔｐａｒｔｉｔｉｏｎｏｎＣＭＰｓｙｓｔｅｍｓ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１５，１０（４）：６０７－６１４．［１８］ＧＲＯＥＮＥＮＰＪＦ，ＫＡＹＭＡＫＵ，ＶＡＮＲｏｓｍａｌｅｎＪ．Ｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｗｉｔｈｍｉｎｋｏｗｓｋｉｄｉｓｔａｎｃｅｆｕｎｃｔｉｏｎｓ［Ｊ］．Ｆｕｚｚｙｓｅｔｓａｎｄｓｙｓｔｅｍｓ，２００１，１２０（２）：２２７－２３７．［１９］赵权，耿新．标记分布学习中目标函数的选择［Ｊ］．计算机科学与探索，２０１７，１１（５）：１－１２．ＺＨＡＯＱｕａｎ，ＧＥＮＧＸｉｎ．Ｓｅｌｅｃｔｉｏｎｏｆｔａｒｇｅｔｆｕｎｃｔｉｏｎｉｎｌａｂｅｌｄｉｓｔｒｉｂｕｔｉｏｎｌｅａｒｎｉｎｇ［Ｊ］．Ｊｏｕｒｎａｌｏｆｆｒｏｎｔｉｅｒｓｏｆｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅａｎｄｔｅｃｈｎｏｌｏｇｙ，２０１７，１１（５）：１－１２．［２０］周志华．机器学习［Ｍ］．北京：清华大学出版社，２０１６．［２１］ＡＬＯＩＳＥＤ，ＤＥＳＨＰＡＮＤＥＡ，ＨＡＮＳＥＮＰ，ｅｔａｌ．ＮＰ－ｈａｒｄｎｅｓｓｏｆｅｕｃｌｉｄｅａｎｓｕｍ⁃ｏｆ⁃ｓｑｕａｒｅｓｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，２００９，７５（２）：２４５－２４８．［２２］ＣＨＡＳＨ．Ｃｏｍｐｒｅｈｅｎｓｉｖｅｓｕｒｖｅｙｏｎｄｉｓｔａｎｃｅ／ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｓｂｅｔｗｅｅｎｐｒｏｂａｂｉｌｉｔｙｄｅｎｓｉｔｙｆｕｎｃｔｉｏｎｓ［Ｊ］．Ｉｎｔｅｒｎａｔｉｏｎａｌｊｏｕｒｎａｌｏｆｍａｔｈｅｍａｔｉｃａｌｍｏｄｅｌｓａｎｄｍｅｔｈｏｄｓｉｎａｐｐｌｉｅｄｓｃｉｅｎｃｅｓ，２００７，１（４）：３００－３０７．［２３］ＡＨＯＮＥＮＴ，ＨＡＤＩＤＡ，ＰＩＥＴＩＫÄＩＮＥＮＭ．Ｆａｃｅｄｅｓｃｒｉｐｔｉｏｎｗｉｔｈｌｏｃａｌｂｉｎａｒｙｐａｔｔｅｒｎｓ：ａｐｐｌｉｃａｔｉｏｎｔｏｆａｃｅｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓｐａｔｔｅｒｎａｎａｌｍａｃｈｉｎｔｅｌｌ，２００６，２８（１２）：２０３７－２０４１．［２４］ＹＵＪＦ，ＪＩＡＮＧＤＫ，ＸＩＡＯＫ，ｅｔａｌ．Ｄｉｓｃｒｉｍｉｎａｔｅｔｈｅｆａｌｓｅｌｙｐｒｅｄｉｃｔｅｄｐｒｏｔｅｉｎ⁃ｃｏｄｉｎｇｇｅｎｅｓｉｎＡｅｒｏｐｙｒｕｍＰｅｒｎｉｘＫ１ｇｅｎｏｍｅｂａｓｅｄｏｎｇｒａｐｈｉｃａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎ［Ｊ］．Ｍａｔｃｈｃｏｍｍｕｎｉｃａｔｉｏｎｓｉｎｍａｔｈｅｍａｔｉｃａｌａｎｄｉｎｃｏｍｐｕｔｅｒｃｈｅｍｉｓｔｒｙ，２０１２，６７（３）：８４５－８６６．［２５］周治平，王杰锋，朱书伟，等．一种改进的自适应快速ＡＦ⁃ＤＢＳＣＡＮ聚类算法［Ｊ］．智能系统学报，２０１６，１１（１）：９３－９８．ＺＨＯＵＺｈｉｐｉｎｇ，ＷＡＮＧＪｉｅｆｅｎｇ，ＺＨＵＳｈｕｗｅｉ，ｅｔａｌ．ＡｎｉｍｐｒｏｖｅｄａｄａｐｔｉｖｅａｎｄｆａｓｔＡＦ⁃ＤＢＳＣＡＮｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（１）：９３－９８．作者简介：邵东恒，男，１９９２年生，硕士研究生，主要研究方向为标记分布学习。杨文元，男，１９６７年生，副教授，博士，主要研究方向为机器学习、标记分布学习。发表学术论文２０余篇。赵红，女，１９７９年生，副教授，主要研究方向为粒计算、分层分类学习。发表学术论文４０余篇。 ·３３２· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录