正在加载图片...
·326 智能系统学报 第12卷 标记,拓展了单标记学习。但是仍有一些问题是不 集时花费的时间较多。 太适合用多标记学习解决的,例如,标记集中的每 聚类4]是研究分类问题的一种统计分析方法, 一个标记描述实例的准确度是多少。事实上,现实 同时也是数据挖掘的一个重要算法,在研究过程中 世界中有着比大多数人想象的多得多的关于每个 也有许许多多的应用和改进)。聚类以相似性为 标记的准确描述度的数据。在许多科学实验中[6 基础,试图将数据集中的样本划分为若干个不相交 它们的输出结果不是单个值的,而是一系列的数值 的子集,每个子集称为一个簇,同一簇中样本之间 输出,例如,基因在不同时间点上的表达水平。这 的相似性比不在同一簇中的更高。在聚类算法中 些输出中的单个数值可能不是那么重要,真正重要 常用的k-means算法[16]及改进算法[7)是原型聚类 的是这一系列输出数值的分布情况。如果一个机 的一种,它假设聚类结构能通过一组原型刻画。通 器学习的任务是要预测一个数值分布,那么它很难 常情况下,算法先对原型进行初始化,然后对原型 放到多标记学习的框架中实现。因为在一个分布 进行迭代更新求解,直到均值向量不再改变或达到 中每一个数值输出的准确度是至关重要的,而且这 最大迭代次数,此时就能得到每一个簇的均值向量。 里也不再有相关标记与无关标记的区分了。因此, 在同一个数据集中,特征相近的实例,它们的 为了解决这类问题,Geng等)拓展了多标记学习, 标记分布往往也相似,同时依据聚类的特性,本文 提出了标记分布学习(label distribution learning, 提出一种新的标记分布算法:基于k-means的标记 LDL)范式。对于一个特定的实例,标记集合中所有 分布学习算法(label distribution learning algorithm 标记的描述度构建一个类似于概率分布的数据形 based on k-means,LDLKM)。首先,利用k-means聚 式,称之为标记分布⑧),即每个训练实例与一个标 类算法求得训练样本集中每个簇的均值向量,此时 记分布相对应。与多标记学习输出一个标记集不 与每一个训练样本对应的标记分布也相应被划分 同,标记分布学习输出的是一个标记分布,分布中 成簇。然后,求得标记分布的每个簇的均值向量。 的每个分量表示对应标记对实例的描述程度。事 其次,测试集的样本到各个簇的均值向量的距离矩 实上,标记分布学习是一种适用场景更广的学习范 阵可通过常用的求距离方式,闵可夫斯基距离 式,能够解决更多的标记多义性问题。单标记学习 (Minkowski distance)Iu]求得。最后,将距离矩阵通 和多标记学习都可以看成标记分布学习的特例,相 过一个softmax函数变换得到一个权重矩阵。权重 关的研究成果[,o]也说明了这一点。 矩阵和训练样本集的标记分布的均值向量的积就 目前,已有一些标记分布学习算法[7,川被提了 是测试集样本的标记分布,即需要预测的标记分 出来。这些算法的设计策略主要可以分为以下 布。本文提出的LDLKM算法与现有的专用化的算 3类。 法相比并未采用条件概率的方式建立模型,而是充 1)问题转换,即将标记分布学习问题转换成单 分考虑了特征间的分布关系和特征与对应的标记 标记学习问题后,再利用相应范式中已有的算法进 分布之间的联系,利用k-means聚类和权重矩阵将 行求解,例如:PT-SVM算法和PT-Bayes算法。 特征和标记分布联系到一起。事实上,特征之间的 2)算法适应,即扩展现存的学习算法来处理标 分布与对应标记之间的分布的关系是一种更加直 签分布学习问题,例如:LDSVR[]算法和AA-BP 接和强烈的联系。而直接利用这种关系预测得到 算法。 的标记分布可以继续保持与对应特征的分布关系, 3)专用化的算法,即根据LDL的特点设计特殊 从而得到一个较好的结果。LDLKM和现有的3种 的算法,例如:SA-IS算法、CPNNU]和SA-BFGS LDL算法在6个公开数据集)上采用5种评价方式 算法。 进行实验比较,实验的结果表明本文提出的标记分 在这3种策略中,第3种直接针对标记分布学 布学习算法在使用的所有数据集上均取得较好的 习设计专门算法的效果是最好的。事实上,专用化 效果,在其中的5个数据集上所有评价方式的结果 的算法是通过条件概率或逻辑回归方式训练模型, 均为最优。 然后以这个模型预测想要的标记分布。但是在这 1标记分布学习的形式化 个过程中算法并未充分考虑训练实例与对应标记 分布之间的关系,例如:特征与标记间的函数关系, 在标记分布中,标记一个实例x的方式是为它 特征与标记间的分布关系和标记分布数据内部的 的每一个可能的标记y分配一个实数d,用来表示 分布关系。同时,现有的专门算法在处理较大数据 标记y对实例x的描述程度。不失一般性,假设实标记,拓展了单标记学习。 但是仍有一些问题是不 太适合用多标记学习解决的,例如,标记集中的每 一个标记描述实例的准确度是多少。 事实上,现实 世界中有着比大多数人想象的多得多的关于每个 标记的准确描述度的数据。 在许多科学实验中[6] , 它们的输出结果不是单个值的,而是一系列的数值 输出,例如,基因在不同时间点上的表达水平。 这 些输出中的单个数值可能不是那么重要,真正重要 的是这一系列输出数值的分布情况。 如果一个机 器学习的任务是要预测一个数值分布,那么它很难 放到多标记学习的框架中实现。 因为在一个分布 中每一个数值输出的准确度是至关重要的,而且这 里也不再有相关标记与无关标记的区分了。 因此, 为了解决这类问题,Geng 等[7] 拓展了多标记学习, 提出了标记分布学习 ( label distribution learning, LDL)范式。 对于一个特定的实例,标记集合中所有 标记的描述度构建一个类似于概率分布的数据形 式,称之为标记分布[8] ,即每个训练实例与一个标 记分布相对应。 与多标记学习输出一个标记集不 同,标记分布学习输出的是一个标记分布,分布中 的每个分量表示对应标记对实例的描述程度。 事 实上,标记分布学习是一种适用场景更广的学习范 式,能够解决更多的标记多义性问题。 单标记学习 和多标记学习都可以看成标记分布学习的特例,相 关的研究成果[7, 9-10]也说明了这一点。 目前,已有一些标记分布学习算法[7, 11] 被提了 出来。 这些算法的设计策略主要可以分为以下 3 类。 1)问题转换,即将标记分布学习问题转换成单 标记学习问题后,再利用相应范式中已有的算法进 行求解,例如:PT⁃SVM 算法和 PT⁃Bayes 算法。 2)算法适应,即扩展现存的学习算法来处理标 签分布学习问题, 例如: LDSVR [12] 算法和 AA⁃BP 算法。 3)专用化的算法,即根据 LDL 的特点设计特殊 的算 法, 例 如: SA⁃IIS 算 法、 CPNN [13] 和 SA⁃BFGS 算法。 在这 3 种策略中,第 3 种直接针对标记分布学 习设计专门算法的效果是最好的。 事实上,专用化 的算法是通过条件概率或逻辑回归方式训练模型, 然后以这个模型预测想要的标记分布。 但是在这 个过程中算法并未充分考虑训练实例与对应标记 分布之间的关系,例如:特征与标记间的函数关系, 特征与标记间的分布关系和标记分布数据内部的 分布关系。 同时,现有的专门算法在处理较大数据 集时花费的时间较多。 聚类[14]是研究分类问题的一种统计分析方法, 同时也是数据挖掘的一个重要算法,在研究过程中 也有许许多多的应用和改进[15] 。 聚类以相似性为 基础,试图将数据集中的样本划分为若干个不相交 的子集,每个子集称为一个簇,同一簇中样本之间 的相似性比不在同一簇中的更高。 在聚类算法中 常用的 k⁃means 算法[16] 及改进算法[17] 是原型聚类 的一种,它假设聚类结构能通过一组原型刻画。 通 常情况下,算法先对原型进行初始化,然后对原型 进行迭代更新求解,直到均值向量不再改变或达到 最大迭代次数,此时就能得到每一个簇的均值向量。 在同一个数据集中,特征相近的实例,它们的 标记分布往往也相似,同时依据聚类的特性,本文 提出一种新的标记分布算法:基于 k⁃means 的标记 分布学习算法 ( label distribution learning algorithm based on k⁃means,LDLKM)。 首先,利用 k⁃means 聚 类算法求得训练样本集中每个簇的均值向量,此时 与每一个训练样本对应的标记分布也相应被划分 成簇。 然后,求得标记分布的每个簇的均值向量。 其次,测试集的样本到各个簇的均值向量的距离矩 阵可通 过 常 用 的 求 距 离 方 式, 闵 可 夫 斯 基 距 离 (Minkowski distance) [18]求得。 最后,将距离矩阵通 过一个 softmax 函数变换得到一个权重矩阵。 权重 矩阵和训练样本集的标记分布的均值向量的积就 是测试集样本的标记分布,即需要预测的标记分 布。 本文提出的 LDLKM 算法与现有的专用化的算 法相比并未采用条件概率的方式建立模型,而是充 分考虑了特征间的分布关系和特征与对应的标记 分布之间的联系,利用 k⁃means 聚类和权重矩阵将 特征和标记分布联系到一起。 事实上,特征之间的 分布与对应标记之间的分布的关系是一种更加直 接和强烈的联系。 而直接利用这种关系预测得到 的标记分布可以继续保持与对应特征的分布关系, 从而得到一个较好的结果。 LDLKM 和现有的 3 种 LDL 算法在 6 个公开数据集[7]上采用 5 种评价方式 进行实验比较,实验的结果表明本文提出的标记分 布学习算法在使用的所有数据集上均取得较好的 效果,在其中的 5 个数据集上所有评价方式的结果 均为最优。 1 标记分布学习的形式化 在标记分布中,标记一个实例 x 的方式是为它 的每一个可能的标记 y 分配一个实数 d y x,用来表示 标记 y 对实例 x 的描述程度。 不失一般性,假设实 ·326· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有