第13卷第5期 智能系统学报 Vol.13 No.5 2018年10月 CAAI Transactions on Intelligent Systems Oct.2018 D0:10.11992/tis.201804051 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180611.1014.002.html 多标记学习自编码网络无监督维数约简 杨文元 (闽南师范大学福建省粒计算及其应用重点实验室,福建漳州363000) 摘要:多标记学习是针对一个实例同时与一组标签相关联而提出的一种机器学习框架,是该领域研究热点之 一,降维是多标记学习一个重要且具有挑战性的工作。针对有监督的多标记维数约简方法,提出一种无监督自 编码网络的多标记降维方法。首先,通过构建自编码神经网络,对输入数据进行编码和解码输出:然后,引入 稀疏约束计算总体成本,使用梯度下降法进行迭代求解:最后,通过深度学习训练获得自编码网络学习模型, 提取数据特征实现维数约简。实验中使用多标记算法ML-kNN做分类器,在6个公开数据集上与其他4种方 法对比。实验结果表明,该方法能够在不使用标记的情况下有效提取特征,降低多标记数据维度,稳定提高多 标记学习性能。 关键词:多标记学习:维数约简:无监督学习:神经网络:自编码器:机器学习:深度学习:特征提取 中图分类号:TP183文献标志码:A文章编号:1673-4785(2018)05-0808-10 中文引用格式:杨文元.多标记学习自编码网络无监督维数约简J机智能系统学报,2018,13(5):808-817, 英文引用格式:YANG Wenyuan..Unsupervised dimensionality reduction of multi-label learning via autoencoder networks. CAAI transactions on intelligent systems,2018,13(5):808-817. Unsupervised dimensionality reduction of multi-label learning via autoencoder networks YANG Wenyuan (Fujian Key Laboratory of Granular Computing and Application,Minnan Normal University,Zhangzhou 363000,China) Abstract:Multi-label learning is a machine learning framework that simultaneously deals with data associated with a group of labels.It is one of the hot spots in the field of machine learning.However,dimensionality reduction is a signi- ficant and challenging task in multi-label learning.In this paper,we propose a unsupervised dimensionality reduction method for supervised multi-label dimensiona reduction methods via autoencoder networks.Firstly,we build the autoen- coder neural network to encode the input data and then decode them for output.Then we introduce the sparse constraint to calculate the overall cost,and further use the gradient descent method to iterate them.Finally,we obtain the autoen- coder network learning model by deep learning training,and then extract data features to reduce dimensionality.In the experiments,we use a multi-label algorithm(ML-kNN)as the classifier,and compare them with four other methods on six publicly available datasets.Experimental results show that the proposed method can effectively extract features without using label learning;thus,it reduces multi-label data dimensionality and steadily improves the performance of multi-label learning. Keywords:multi-label learning;dimensionality reduction;unsupervised learning;neural networks;autoencoder;ma- chine learning;deep learning:feature extraction 收稿日期:2018-04-25.网络出版日期:2018-06-11 真实世界中的对象通常具有不止一种语义标 基金项目:国家自然科学青年基金项目(61703196):福建省自 然科学基金项目(2018J01549). 记,经常表现为多义性,即一个对象可能与多个 通信作者:杨文元.Email::yangwy@mnnu.edu.cn. 类别标记相关联。如一幅海边景色图片可以同时
DOI: 10.11992/tis.201804051 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180611.1014.002.html 多标记学习自编码网络无监督维数约简 杨文元 (闽南师范大学 福建省粒计算及其应用重点实验室,福建 漳州 363000) 摘 要:多标记学习是针对一个实例同时与一组标签相关联而提出的一种机器学习框架,是该领域研究热点之 一,降维是多标记学习一个重要且具有挑战性的工作。针对有监督的多标记维数约简方法,提出一种无监督自 编码网络的多标记降维方法。首先,通过构建自编码神经网络,对输入数据进行编码和解码输出;然后,引入 稀疏约束计算总体成本,使用梯度下降法进行迭代求解;最后,通过深度学习训练获得自编码网络学习模型, 提取数据特征实现维数约简。实验中使用多标记算法 ML-kNN 做分类器,在 6 个公开数据集上与其他 4 种方 法对比。实验结果表明,该方法能够在不使用标记的情况下有效提取特征,降低多标记数据维度,稳定提高多 标记学习性能。 关键词:多标记学习;维数约简;无监督学习;神经网络;自编码器;机器学习;深度学习;特征提取 中图分类号:TP183 文献标志码:A 文章编号:1673−4785(2018)05−0808−10 中文引用格式:杨文元. 多标记学习自编码网络无监督维数约简[J]. 智能系统学报, 2018, 13(5): 808–817. 英文引用格式:YANG Wenyuan. Unsupervised dimensionality reduction of multi-label learning via autoencoder networks[J]. CAAI transactions on intelligent systems, 2018, 13(5): 808–817. Unsupervised dimensionality reduction of multi-label learning via autoencoder networks YANG Wenyuan (Fujian Key Laboratory of Granular Computing and Application, Minnan Normal University, Zhangzhou 363000, China) Abstract: Multi-label learning is a machine learning framework that simultaneously deals with data associated with a group of labels. It is one of the hot spots in the field of machine learning. However, dimensionality reduction is a significant and challenging task in multi-label learning. In this paper, we propose a unsupervised dimensionality reduction method for supervised multi-label dimensiona reduction methods via autoencoder networks. Firstly, we build the autoencoder neural network to encode the input data and then decode them for output. Then we introduce the sparse constraint to calculate the overall cost, and further use the gradient descent method to iterate them. Finally, we obtain the autoencoder network learning model by deep learning training, and then extract data features to reduce dimensionality. In the experiments, we use a multi-label algorithm (ML-kNN) as the classifier, and compare them with four other methods on six publicly available datasets. Experimental results show that the proposed method can effectively extract features without using label learning; thus, it reduces multi-label data dimensionality and steadily improves the performance of multi-label learning. Keywords: multi-label learning; dimensionality reduction; unsupervised learning; neural networks; autoencoder; machine learning; deep learning; feature extraction 真实世界中的对象通常具有不止一种语义标 记,经常表现为多义性,即一个对象可能与多个 类别标记相关联。如一幅海边景色图片可以同时 收稿日期:2018−04−25. 网络出版日期:2018−06−11. 基金项目:国家自然科学青年基金项目 (61703196);福建省自 然科学基金项目 (2018J01549). 通信作者:杨文元. Email: yangwy@mnnu.edu.cn. 第 13 卷第 5 期 智 能 系 统 学 报 Vol.13 No.5 2018 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2018
第5期 杨文元:多标记学习自编码网络无监督维数约简 ·809· 标注“蓝天”“白云”“大海”“沙滩”等语义标记,对 1多标记学习 于多个标记对象的处理方式是为每个图像赋予 个标记子集,并进行建模和学习,这就形成多标 多标记的样本由一个示例和对应的多个标记 记学习框架山。在多标记学习框架下,每个示例 构成,多标记学习是一种机器学习框架。下面的内 由对应的多个标记构成的特征向量进行描述,学 容,简要地介绍多标记学习的问题定义和学习算法。 习的目标是将多个适当的标记赋予需要预测的未 1.1多标记问题定义 知示例四。 假设X∈R4代表d维的示例空间,Y=y,y2,…,yl 随着信息化的快速发展,数据和资源呈海量 代表包含1个类别的标记空间。给定多标记训练 特征,数据的标注结构复杂程度也不断增加,单 集D={(x,Y,1≤i≤m,其中x,为d维的属性向量, 标记方法无法满足分析处理要求山,以机器学习 即x:=[x1x2…xdT,而Y:∈Y为与x对应的一组类 技术为基础的多标记学习技术现已成为一个研究 别标记,多标记学习的目标是从中学习得到一个 热点,其研究成果广泛地应用于各种不同领域, 多标记分类器g:X→2'。因此,对于所有示例xeX, 如图像视频的语义标注、功能基因组、音乐情感 分类器预测隶属于该示例的类别标记集合为 分类以及营销指导等。 gx)cY,称多标记学习"。 在多标记学习过程中,高维数据训练和预测 多标记的集合空间如果太大则会造成学习困 都需要更多的计算时间和空间。降维减少了特征 难,因此需要充分利用标记之间的“相关性”来辅 数却提高了算法效率和学习性能,可避免过拟合 助学习过程的进行。基于考察标记之间相关性的 现象和过滤掉冗余特征46。因此,降低数据的维 不同方式,多标记学习问题求解策略有三类,”。 度具有重要意义。 “一阶(first-order)”策略:只考察每一个单个 高维数据降维,主要有线性维数约简和非线 标记,不考虑标记之间的相关性,将多标记学习 性维数约简两种方法。线性维数约简的方法有主 问题分解为多个独立的二分类问题。该策略实现 成分分析方法(principal component analysis,.PCA)、 简单,效率较高,但学习的泛化性能不高。 独立成分分析方法(independent component correla- “二阶(second-.order))”策略:考察两两标记之 tion algorithm,ICA)、线性判别分析法(linear dis- 间的相关性和交互关系,该类方法的泛化性能较 criminant analysis,.LDA)和局部特征分析法(local 好,但不能很好处理多标记间的二阶以上相关性四。 feature analysis,.LFA)等。非线性降维方法有等距 “高阶(high-order)”策略:考察任一标记对其 特征映射方法(isometric feature mapping,ISOMAP) 它所有标记的影响以及一组随机标记集合的相关 和局部线性嵌入方法(locally linear embedding, 性等。该类策略较好地反映了真实世界的标记相 LLE)等。多标记学习的有监督降维方法有依 关性,但复杂度一般过高,难以处理大规模学习 赖最大化(MDDM)算法,半监督方法主要是采 问题。 用联合降维方法例和依赖最大化方法©。 1.2多标记学习算法 与一股多标记有监督的降维方法不同,提出 目前已经涌现出了大量的多标记学习算法, 一种自编码网络的无监督多标记维数约简方法 可以分为问题转换和算法适应两类方法"。 (multi-label unsupervised dimensionality reduction via 问题转换方法的基本思想是将多标记学习问 autoencoder networks,MUAE),首先构建自编码神 题转换为其他已知的学习问题进行求解,代表性 经网络,仅使用特征数据作为输入,进行编码和 学习算法有Binary Relevance、Calibrated Label 解码输出以提取特征,在处理过程引人稀疏约束 Ranking和Random k-labelsets。算法适应方法的 并将输出数据与输入数据对比,计算总体成本误 基本思想是通过对常用监督学习算法进行改进, 差,应用梯度下降法进行迭代更新,通过深度学 将其直接用于多标记学习,代表性学习算法有 习训练获得自编码网络学习模型,提取数据特 ML-kNN,Rank-SVM和LEAD。 征,最后以多标记学习ML-kNN算法作为统一的 ML-kNN算法I2是对k近邻(k-nearest neigh- 分类评价基准,并在6个公开数据集上与其他4种 bors,kNN)算法进行改造以适应多标记数据分 方法对比。实验结果表明,该方法能够在无监督 类,算法的基本思想是采用kNN分类准则,统计 情况下有效提取特征,降低多标记数据维度,得 近邻样本的类别标记信息,通过最大化后验概率 到较好的学习效果。 的方式推理未知示例的标记集合
标注“蓝天”“白云”“大海”“沙滩”等语义标记,对 于多个标记对象的处理方式是为每个图像赋予一 个标记子集,并进行建模和学习,这就形成多标 记学习框架[1]。在多标记学习框架下,每个示例 由对应的多个标记构成的特征向量进行描述,学 习的目标是将多个适当的标记赋予需要预测的未 知示例[2]。 随着信息化的快速发展,数据和资源呈海量 特征,数据的标注结构复杂程度也不断增加,单 标记方法无法满足分析处理要求[1] ,以机器学习 技术为基础的多标记学习技术现已成为一个研究 热点,其研究成果广泛地应用于各种不同领域, 如图像视频的语义标注、功能基因组、音乐情感 分类以及营销指导等[3]。 在多标记学习过程中,高维数据训练和预测 都需要更多的计算时间和空间。降维减少了特征 数却提高了算法效率和学习性能,可避免过拟合 现象和过滤掉冗余特征[4-6]。因此,降低数据的维 度具有重要意义。 高维数据降维,主要有线性维数约简和非线 性维数约简两种方法。线性维数约简的方法有主 成分分析方法 (principal component analysis, PCA)、 独立成分分析方法 (independent component correlation algorithm, ICA)、线性判别分析法 (linear discriminant analysis, LDA) 和局部特征分析法 (local feature analysis, LFA) 等。非线性降维方法有等距 特征映射方法 (isometric feature mapping, ISOMAP) 和局部线性嵌入方法 (locally linear embedding, LLE) 等 [7-8]。多标记学习的有监督降维方法有依 赖最大化 (MDDM) 算法[5] ,半监督方法主要是采 用联合降维方法[9]和依赖最大化方法[10]。 与一般多标记有监督的降维方法不同,提出 一种自编码网络的无监督多标记维数约简方法 (multi-label unsupervised dimensionality reduction via autoencoder networks, MUAE),首先构建自编码神 经网络,仅使用特征数据作为输入,进行编码和 解码输出以提取特征,在处理过程引入稀疏约束 并将输出数据与输入数据对比,计算总体成本误 差,应用梯度下降法进行迭代更新,通过深度学 习训练获得自编码网络学习模型,提取数据特 征,最后以多标记学习 ML-kNN 算法作为统一的 分类评价基准,并在 6 个公开数据集上与其他 4 种 方法对比。实验结果表明,该方法能够在无监督 情况下有效提取特征,降低多标记数据维度,得 到较好的学习效果。 1 多标记学习 多标记的样本由一个示例和对应的多个标记 构成,多标记学习是一种机器学习框架[1-2]。下面的内 容,简要地介绍多标记学习的问题定义和学习算法。 1.1 多标记问题定义 X ∈ R d d Y ={y1, y2,··· , yl} l D = {(xi ,Yi)|1 ⩽ i ⩽ m} xi d xi = [xi1 xi2 ··· xid] T Yi ∈ Y xi g : X → 2 Y x ∈ X g(x) ⊆ Y 假设 代表 维的示例空间, 代表包含 个类别的标记空间。给定多标记训练 集 ,其中 为 维的属性向量, 即 ,而 为与 对应的一组类 别标记,多标记学习的目标是从中学习得到一个 多标记分类器 。因此,对于所有示例 , 分类器预测隶属于该示例的类别标记集合为 ,称多标记学习[1]。 多标记的集合空间如果太大则会造成学习困 难,因此需要充分利用标记之间的“相关性”来辅 助学习过程的进行。基于考察标记之间相关性的 不同方式,多标记学习问题求解策略有三类[1, 11]。 “一阶 (first-order)”策略:只考察每一个单个 标记,不考虑标记之间的相关性,将多标记学习 问题分解为多个独立的二分类问题。该策略实现 简单,效率较高,但学习的泛化性能不高[11]。 “二阶 (second-order)”策略:考察两两标记之 间的相关性和交互关系,该类方法的泛化性能较 好,但不能很好处理多标记间的二阶以上相关性[11]。 “高阶 (high-order)”策略:考察任一标记对其 它所有标记的影响以及一组随机标记集合的相关 性等。该类策略较好地反映了真实世界的标记相 关性,但复杂度一般过高,难以处理大规模学习 问题[11]。 1.2 多标记学习算法 目前已经涌现出了大量的多标记学习算法, 可以分为问题转换和算法适应两类方法[1]。 问题转换方法的基本思想是将多标记学习问 题转换为其他已知的学习问题进行求解,代表性 学习算法有 Binary Relevance、Calibrated Label Ranking 和 Random k-labelsets。算法适应方法的 基本思想是通过对常用监督学习算法进行改进, 将其直接用于多标记学习,代表性学习算法有 ML-kNN, Rank-SVM 和 LEAD[1]。 ML-kNN 算法[12]是对 k 近邻 (k-nearest neighbors,kNN) 算法进行改造以适应多标记数据分 类,算法的基本思想是采用 kNN 分类准则,统计 近邻样本的类别标记信息,通过最大化后验概率 的方式推理未知示例的标记集合。 第 5 期 杨文元:多标记学习自编码网络无监督维数约简 ·809·
·810· 智能系统学报 第13卷 2 自编码网络 cwo创=2k-+2Σ网) 自编码网络包含数据输入层、隐藏层、输出 式中:m是样本个数;n是网络层数;n,是层的神经 重构层。如图1所示,自编码器由编码器(en- 元数量:是权重衰减参数,用于控制公式中两项 coder)和解码器(decoder)两部分构成。其作用是 的相对重要性。C(W,b)是整体样本代价函数,第 将输入样本压缩到隐藏层,然后解压,在输出层 一项是均方差项,第二项是权重衰减项或称为规 重建样本3.1。 则化项,其目的是防止过度拟合。 x'尽可能复现x 训练目标就是获得总体样本成本误差C(W,b) 最小的W,b,即 编码器 解码器 arg min(C(W,b)) (5) W.b 如果输入是完全随机的,每个输入数据都独 图1自编码网络模型 立于其他特征的高斯分布,则编码器的压缩任务 Fig.1 Model of autoencoder networks 将非常困难。但是,如果数据中存在结构,有些 自编码网络是一种不需要标记的无监督学习 输入要素是相关或有冗余,则该算法将能够发现 模型,它试图学习一个函数x)≈x,训练网络使得 些相关性。自动编码器通常最终会学习与PCA 输出逼近输入人,也就是每个样本x的学习目标也 非常相似的低维表示。事实上,如果每两层之间 是x,这样自编码器自己生成标签,而且标签就是 的变换均为线性且训练误差是二次型误差时,该 样本数据本身,所以也称为自监督学习或自学 网络等价于PCA。而自编码网络使用非线降维, 习。如图1所示,从输人x通过编码器到z,然后经 更符合数据的实际情况,这种机制使得其效果比 解码器到x',自编码器的目的是,让输出x尽可能 PCA更优。 复现输入x。系统的输出x能够复原原始数据x, 自编码网络可以实现无监督的自我学习,把 说明z的维度虽然与x的维度不同,但承载了原始 这种自我学习扩展到深度学习网络,即拥有多个 数据的所有信息,只是形式不同,是已经变换特征 隐藏层的神经网络,以提取多标记的数据特征, 的某种形式。如果对隐含层进行约束使得z的维 实现多标记学习的无监督维数约简。 度小于x的维度,就可以实现无监督数据降维。 3多标记维数约简的自编码网络方法 自编码器AE(autoencoder)接受一个输人 x∈Rm,通过一个编码器将它映射到一个隐藏层, 3.1多标记维数约简 用z表示,如式(1)所示: 多标记学习与单标记学习一样面临“维度灾 z=s(Wx+b) (1) 难”的挑战,所以维数约简结果的好坏直接影响着 通常称z为编码,也称为潜在变量或潜在表 分类器的精度和泛化性能,特别是对于基因序 示,s是一种基于元素的激活函数,可以是sg- 列、图像处理等高维数据,影响更加显著。数据 moid函数或双曲正切函数,W是一个权重矩阵, 维度过大,不仅会增加计算时间和空间的复杂 b是一个偏差向量。 度,还会降低多标记学习性能。如果在多标记学 在自编码器的解码阶段,解码器将z映射到与 习训练之前,通过一定的特征选择或提取方法, x形状相同的重构x,即 去掉不相关或冗余属性,反而可以获得更令人满 x'=s(Wz+b') (2) 意的知识学习模型181。降低高维数据的维度是 一般而言,解码器中的s、W和b可能与编码 多标记学习中一个重要的研究课题,很多学者研 器中的s、W和b不同,主要取决于自编码器的设 究多标记数据的降维方法以提高多标记学习算法 计,自编码器的学习函数为h(x)=soy。 的效果。 重建误差可以用许多方法测量,可根据给定 已有的多标记数据维数约简方法可以分为两 输入的分布假设而制定。一般可以采用样本的代 大类:特征选择(feature selection)和特征提取(fea 价函数,单个样本的代价函数为 ture extraction)。特征选择是给定一个多标记分类 算法和训练集,通过优化某个多标记损失函数对 c(W.b.x.)= (3) 属性子集进行评价,选择使损失达到最小的属性 m个样本的整体平方误差成本函数为 子集作为最终结果。而特征提取是通过空间变
2 自编码网络 自编码网络包含数据输入层、隐藏层、输出 重构层。如图 1 所示,自编码器由编码器 (encoder) 和解码器 (decoder) 两部分构成。其作用是 将输入样本压缩到隐藏层,然后解压,在输出层 重建样本[13-15] 。 h(x) ≈ x x x x z x ′ x ′ x x ′ x z x z x 自编码网络是一种不需要标记的无监督学习 模型,它试图学习一个函数 ,训练网络使得 输出逼近输入,也就是每个样本 的学习目标也 是 ,这样自编码器自己生成标签,而且标签就是 样本数据本身,所以也称为自监督学习或自学 习。如图 1 所示,从输入 通过编码器到 ,然后经 解码器到 ,自编码器的目的是,让输出 尽可能 复现输入 。系统的输出 能够复原原始数据 , 说明 的维度虽然与 的维度不同,但承载了原始 数据的所有信息,只是形式不同,是已经变换特征 的某种形式。如果对隐含层进行约束使得 的维 度小于 的维度,就可以实现无监督数据降维[16]。 x ∈ R m 自编码器 AE(autoencoder) 接受一个输入 ,通过一个编码器将它映射到一个隐藏层, 用 z 表示,如式 (1) 所示: z = s(W x+ b) (1) z s W b 通常称 为编码,也称为潜在变量或潜在表 示 , 是一种基于元素的激活函数,可以是 sigmoid 函数或双曲正切函数, 是一个权重矩阵, 是一个偏差向量。 z x x ′ 在自编码器的解码阶段,解码器将 映射到与 形状相同的重构 ,即 x ′ = s ′ (W′ z+ b ′ ) (2) s ′ W′ b ′ s W b h(x) = s ◦ s ′ 一般而言,解码器中的 、 和 可能与编码 器中的 、 和 不同,主要取决于自编码器的设 计,自编码器的学习函数为 。 重建误差可以用许多方法测量,可根据给定 输入的分布假设而制定。一般可以采用样本的代 价函数,单个样本的代价函数为 c(W, b, xi , x ′ i ) = 1 2 x ′ i − xi 2 (3) m个样本的整体平方误差成本函数为 C(W, b) = 1 m ∑m i=1 1 2 x ′ i − xi 2 + λ 2 ∑nl−1 l=1 ∑ns i=1 ∑ns+1 j=1 (Wl ji) (4) m nl ns l λ C(W, b) 式中: 是样本个数; 是网络层数; 是 层的神经 元数量; 是权重衰减参数,用于控制公式中两项 的相对重要性。 是整体样本代价函数,第 一项是均方差项,第二项是权重衰减项或称为规 则化项,其目的是防止过度拟合。 C(W, b) W, b 训练目标就是获得总体样本成本误差 最小的 ,即 argmin W,b (C(W, b)) (5) 如果输入是完全随机的,每个输入数据都独 立于其他特征的高斯分布,则编码器的压缩任务 将非常困难。但是,如果数据中存在结构,有些 输入要素是相关或有冗余,则该算法将能够发现 一些相关性。自动编码器通常最终会学习与 PCA 非常相似的低维表示。事实上,如果每两层之间 的变换均为线性且训练误差是二次型误差时,该 网络等价于 PCA。而自编码网络使用非线降维, 更符合数据的实际情况,这种机制使得其效果比 PCA 更优。 自编码网络可以实现无监督的自我学习,把 这种自我学习扩展到深度学习网络,即拥有多个 隐藏层的神经网络,以提取多标记的数据特征, 实现多标记学习的无监督维数约简。 3 多标记维数约简的自编码网络方法 3.1 多标记维数约简 多标记学习与单标记学习一样面临“维度灾 难”的挑战,所以维数约简结果的好坏直接影响着 分类器的精度和泛化性能,特别是对于基因序 列、图像处理等高维数据,影响更加显著。数据 维度过大,不仅会增加计算时间和空间的复杂 度,还会降低多标记学习性能。如果在多标记学 习训练之前,通过一定的特征选择或提取方法, 去掉不相关或冗余属性,反而可以获得更令人满 意的知识学习模型[17-18]。降低高维数据的维度是 多标记学习中一个重要的研究课题,很多学者研 究多标记数据的降维方法以提高多标记学习算法 的效果[19]。 已有的多标记数据维数约简方法可以分为两 大类:特征选择 (feature selection) 和特征提取 (feature extraction)。特征选择是给定一个多标记分类 算法和训练集,通过优化某个多标记损失函数对 属性子集进行评价,选择使损失达到最小的属性 子集作为最终结果[20]。而特征提取是通过空间变 x 编码器 z 解码器 x' x' 尽可能复现 x 图 1 自编码网络模型 Fig. 1 Model of autoencoder networks ·810· 智 能 系 统 学 报 第 13 卷
第5期 杨文元:多标记学习自编码网络无监督维数约简 ·811· 换,将某些原始特征映射到其他低维空间,生成 一些新的特性,习,特征提取后的新特征是原来特 Cm(W.b-COW.b+BKL(p) (9) 征的一个变换映射,不是原特征一个子集。 式中B是控制稀疏惩罚项的权重。 3.2多标记学习维数约简的自编码网络方法 稀疏约束后训练目标也是总体成本误差最 基本自编码网络可以解决数量很小的隐藏单 小,即 元问题,而高维数据的隐藏单元数量很大,为此, arg min(Csparse(W,b)) (10) 对隐藏单元进行稀疏约束,使得自编码器可以从 W.b 大量的隐藏单元中发现高维数据中的相关结构, 为了求解上述总体成本误差最小问题,采用 反向传播算法计算成本偏导数,先求出成本函数 提取关键特征,实现维数约简。自编码网络,由 输人层、隐含层1,2,…,i,…n和输出层组成,如图2 Csparse(W,b)对aW,的偏导数,得到 所示。 awr Com(W.b)=1 16 m台aw网 C(W.b.xi.x)+aW (11) 以及对求偏导数,得到 丽Cmm,)=1a m名 C(W.b,xi.x) (12) 采用梯度下降迭代法,按公式(13)、(14)进行 输入层隐含层1隐含层 隐含层隐含层n输出层 迭代: 编码 解码 W号-w-0mCaw. (13) 图2自编码网络 Fig.2 Autoencoder network =-ca记CW, (14) 如果激活函数采用sigmoid函数,当神经元的 综合上述推导过程和结果,设计多标记学习的 输出值接近于1,则神经元是“活动的”,如果它的 自编码网络无监督降维算法MUAE如下。 输出值接近于0,则神经元是“无效的”。 算法MUAE 令a,表示自编码器中激活隐藏单元j,当网络 输入Xm特征矩阵,Yp标记矩阵,约简维 被赋予特定的输入x时,用a(x)表示x激活隐藏单 度d。 元j的输出值。如果输入x有m个样本,则隐藏单 输出多标记学习分类结果。 元j的平均激活为p,即 1)初始化权重矩阵W和偏离向量b'; (6) 2)for epoch=1:k; 3)计算样本总成本C(W,b);由式(9)计算; 用稀疏参数ρ对每个隐藏神经元的平均激活 4)迭代权重矩阵W和偏离向量b;/由式 进行稀疏约束,p的取值接近于零,比如取0.05。 (13)和式(14)计算; 为满足这个约束,引入伯努利随机变量KL(Kul- 5)end for back-Leibler)散度来度量平均值p,和p之间的 6)返回输出层特征矩阵Xxd; 距离,即 7)多标记算法ML-kNN(Xxd,YP)计算分类 Kpl5)=plog号+I-ploe1=币 .1-p (7) 结果/按文献[12]计算。 隐藏层中所有神经元的KL散度之和作为优 4实验结果与分析 化目标的处罚项,以惩罚显著偏离P,即 之KLP) 4.1实验数据与对比算法 (8) 多标记学习数据降维实验采用公开数据集叫 式中:n,是隐藏层中所有神经元的数量。如果 各数据集的训练和测试样本数、标记数量与数据 p;=p,那么KL(p)=0;否则p,会随着偏离p而单 特征数量等基本情况如表1所示,表中6个数据 调增加,所以只要使这个惩罚项最小化,就会导 集Arts、Business、Computers、Health、Recreation 致p接近于p。 Reference的名称前面分别用A、B、C、D、E、F对 稀疏约束后,样本的总体成本为 应标注,以方便后续表格使用
换,将某些原始特征映射到其他低维空间,生成 一些新的特性[3,5] ,特征提取后的新特征是原来特 征的一个变换映射,不是原特征一个子集。 3.2 多标记学习维数约简的自编码网络方法 1,2,···,i,···n 基本自编码网络可以解决数量很小的隐藏单 元问题,而高维数据的隐藏单元数量很大,为此, 对隐藏单元进行稀疏约束,使得自编码器可以从 大量的隐藏单元中发现高维数据中的相关结构, 提取关键特征,实现维数约简。自编码网络,由 输入层、隐含层 和输出层组成,如图 2 所示。 如果激活函数采用 sigmoid 函数,当神经元的 输出值接近于 1,则神经元是“活动的”,如果它的 输出值接近于 0,则神经元是“无效的”。 aj j x aj(x) x j x m j ρ¯j 令 表示自编码器中激活隐藏单元 ,当网络 被赋予特定的输入 时,用 表示 激活隐藏单 元 的输出值。如果输入 有 个样本,则隐藏单 元 的平均激活为 ,即 ρ¯j = 1 m ∑m i=1 aj(xi) (6) ρ ρ ρ¯j ρ 用稀疏参数 对每个隐藏神经元的平均激活 进行稀疏约束, 的取值接近于零,比如取 0.05。 为满足这个约束,引入伯努利随机变量 KL(Kullback-Leibler) 散度来度量平均值 和 之间的 距离,即 KL(ρ||ρ¯j) = ρlog ρ ρ¯j +(1−ρ)log 1−ρ 1−ρ¯j (7) ρ 隐藏层中所有神经元的 KL 散度之和作为优 化目标的处罚项,以惩罚显著偏离 ,即 ∑ns j=1 KL(ρ||ρ¯j) (8) ns ρ¯j = ρ KL(ρ||ρ¯j) = 0 ρ¯j ρ ρ¯j ρ 式中: 是隐藏层中所有神经元的数量。如果 ,那么 ;否则 会随着偏离 而单 调增加,所以只要使这个惩罚项最小化,就会导 致 接近于 。 稀疏约束后,样本的总体成本为 Csparse(W, b) = C(W, b)+β ∑ns j=1 KL(ρ||ρ¯j) (9) 式中 β 是控制稀疏惩罚项的权重。 稀疏约束后训练目标也是总体成本误差最 小,即 argmin W,b (Csparse(W, b)) (10) ∂Wl i j 为了求解上述总体成本误差最小问题,采用 反向传播算法计算成本偏导数,先求出成本函数 Csparse(W,b)对 的偏导数,得到 ∂ ∂Wl i j Csparse(W, b) = 1 m ∑m i=1 ∂ ∂Wl i j C(W, b, xi , x ′ i )+λWl i j (11) b l 以及对 i求偏导数,得到 ∂ ∂b l i Csparse(W, b) = 1 m ∑m i=1 ∂ ∂b l i C(W, b, xi , x ′ i ) (12) 采用梯度下降迭代法,按公式 (13)、(14) 进行 迭代: Wl i j = Wl i j −α ∂ ∂Wl i j Csparse(W, b) (13) b l i = b l i −α ∂ ∂b l i Csparse(W, b) (14) 综合上述推导过程和结果,设计多标记学习的 自编码网络无监督降维算法 MUAE 如下。 算法 MUAE X n×m Y n×p d 输入 特征矩阵, 标记矩阵,约简维 度 。 输出 多标记学习分类结果。 Wl b l 1) 初始化权重矩阵 和偏离向量 ; 2) for epoch =1:k; 3) 计算样本总成本 Csparse(W, b) ;//由式 (9) 计算; Wl b l 4) 迭代权重矩阵 和偏离向量 ; / /由 式 (13) 和式 (14) 计算; 5) end for X 6) 返回输出层特征矩阵 n×d; X n×d Y 7) 多标记算法 ML-kNN( n×p , ) 计算分类 结果//按文献[12]计算。 4 实验结果与分析 4.1 实验数据与对比算法 多标记学习数据降维实验采用公开数据集[21] , 各数据集的训练和测试样本数、标记数量与数据 特征数量等基本情况如表 1 所示,表中 6 个数据 集 Arts、Business、Computers、Health、Recreation、 Reference 的名称前面分别用 A、B、C、D、E、F 对 应标注,以方便后续表格使用。 输入层 隐含层1 隐含层i 隐含层j 隐含层n 输出层 编码 解码 图 2 自编码网络 Fig. 2 Autoencoder network 第 5 期 杨文元:多标记学习自编码网络无监督维数约简 ·811·
·812· 智能系统学报 第13卷 表1数据集基本描述 记预测的概率平均。 Table 1 Data description 2)汉明损失 数据集/ 训练样 测试样 标记 特征 11 Hammingloss(h)=- -h(x)△Y (16) 数据信息 本数 本数 个数 个数 P台q A:Arts 2000 3000 26 462 汉明损失,是通过计算多标记分类器预测的 B:Business 2000 3000 30 438 标记结果与实际的标记差距来度量多标记分类器 C:Computers 2000 3000 33 681 的性能。 3)排名损失 D:Health 2000 3000 32 612 11 E:Recreation 2000 3000 3 606 Rankingloss(f)= p子I2O2f)s (17) F:Reference 2000 3000 33 793 fx2),02)eY× 实验过程中,将MUAE算法与4种算法进行 排名损失,评价所有样本的预测标记排名中, 对比,对比算法分别是线性维数约简主成分分析 不相关标记在相关标记前面的概率平均。 PCA算法四、非线性维数约简局部保留投影LPP) 4)一错误 算法和拉普拉斯特征映射LE算法P,以及多标 Oneerror(f)= arg max f(x,y)年Y (18) 记依赖最大化MDDM算法 = 在维数约简后统一使用ML-kNN算法进行 ·错误,该指标评价每个样本的预测标记排 多标记分类,其中k=10,并以ML-kNN算法在原 名中,排在第一位的标记不在该样本的相关标记 始特征空间的评价性能作为参照基线,记为 集中的概率评价。 Baseline。.MDDM算法的μ=0.5,LLP算法分类时 5)覆盖 构造邻接图的最近邻个数与ML-KNN算法一样 (19) 设置k=10。所有维数约简方法降维到相同的维 Coverage()=1 maxrank,(xiy)-1 p 度进行对比,所有算法在6个数据集上的特征降 覆盖,该指标评价每个样本的预测标记排名 维百分比为10%、20%、30%、40%、50%、60%、 中需要在标记序列表中最少查找到第几位才可以 70%、80%、90%、100%,共10个百分比的实验对比。 找出所有与该样本相关的标记。 4.2多标记学习评价指标 4.3实验结果 在多标记学习问题中,由于每个对象可能同 5种算法和基准算法共6个算法,在6个多标 时具有多个类别标记,因此传统监督学习中常用 记数据集上用5个评价指标进行对比实验,实验 的单标记评价指标无法直接用于多标记学习系统 的结果展示在表2~6。 的性能评价。因此,研究者们相继提出了一系列 表2不同降维方法的平均精度 多标记评价指标,一般可分为两种类型,即基于 Table 2 Average precision of different algorithms 样本的评价指标(example-based metrics)2以及基 于类别的评价指标(label-based metrics)26。本文 () A B D E F 主要采用5种指标,即平均精度(average precision)、 Baseline0.50930.87980.63340.68120.45440.6193 汉明损失(Hamming loss)、排名损失(ranking PCA0.53340.87620.65920.72330.52590.6639 loss)、一错误(oneerror)和覆盖(coverage),具体的 LPP 0.51630.87460.63090.69260.48780.6356 计算公式如下。 LE 0.49630.86560.62120.68690.45600.6131 1)平均精度 MDDM0.55750.88690.67300.70040.51060.6546 MUAE0.53590.88930.67870.71530.52930.6626 (15) >l lrankr(ry)s rank(y).yey rank(xi,y) 表2是评价平均精度指标的实验结果,其数 平均精度,是一种最直观的评价方式,评价样 值是越高越好,最好的结果用黑体表示。实验结 本的类别标记排序序列中,排在相关标记之前的 果显示,MUAE方法在Business、Computers、Re- 标记占标记集合的平均比例,这个指标是相关标 creation三个数据集上都取得最好结果,PCA在Health
实验过程中,将 MUAE 算法与 4 种算法进行 对比,对比算法分别是线性维数约简主成分分析 PCA 算法[22] 、非线性维数约简局部保留投影 LPP[23] 算法和拉普拉斯特征映射 LE 算法[24] ,以及多标 记依赖最大化 MDDM 算法[5] 。 k = 10 µ = 0.5 k = 10 在维数约简后统一使用 ML-kNN 算法[12]进行 多标记分类,其中 ,并以 ML-kNN 算法在原 始特征空间的评价性能作为参照基线,记 为 Baseline。MDDM 算法的 ,LLP 算法分类时 构造邻接图的最近邻个数与 ML-KNN 算法一样 设置 。所有维数约简方法降维到相同的维 度进行对比,所有算法在 6 个数据集上的特征降 维百分比为 10%、20%、30%、40%、50%、60%、 70%、80%、90%、100%,共 10 个百分比的实验对比。 4.2 多标记学习评价指标 在多标记学习问题中,由于每个对象可能同 时具有多个类别标记,因此传统监督学习中常用 的单标记评价指标无法直接用于多标记学习系统 的性能评价。因此,研究者们相继提出了一系列 多标记评价指标,一般可分为两种类型,即基于 样本的评价指标 (example-based metrics)[25]以及基 于类别的评价指标 (label-based metrics)[26]。本文 主要采用 5 种指标,即平均精度 (average precision)、 汉明损失 (Hamming loss)、排名损失 (ranking loss)、一错误 (oneerror) 和覆盖 (coverage),具体的 计算公式如下。 1) 平均精度 Averageprecision(h) = 1 p ∑p i=1 1 |Yi | ∑ y∈Yi { y ′ |rankf (xi , y ′ ) ⩽ rankf (xi , y), y ′ ∈ Yi } rankf (xi , y) (15) 平均精度,是一种最直观的评价方式,评价样 本的类别标记排序序列中,排在相关标记之前的 标记占标记集合的平均比例,这个指标是相关标 记预测的概率平均。 2) 汉明损失 Hammingloss(h) = 1 p ∑p i=1 1 q |h(xi)∆Yi | (16) 汉明损失,是通过计算多标记分类器预测的 标记结果与实际的标记差距来度量多标记分类器 的性能。 3) 排名损失 Rankingloss(f) = 1 p ∑p i=1 1 |Yi | |Y¯ i | {(y1, y2)| f (xi , y1) ⩽ f (xi , y2),(y1 , y2) ∈ Yi ×Y¯ i } (17) 排名损失,评价所有样本的预测标记排名中, 不相关标记在相关标记前面的概率平均。 4) 一错误 Oneerror(f) = 1 p ∑p i=1 argmax y∈Y f (xi , y) < Yi (18) 一错误,该指标评价每个样本的预测标记排 名中,排在第一位的标记不在该样本的相关标记 集中的概率评价。 5) 覆盖 Coverage(f) = 1 p ∑p i=1 max y∈Yi rankf (xi , y)−1 (19) 覆盖,该指标评价每个样本的预测标记排名 中需要在标记序列表中最少查找到第几位才可以 找出所有与该样本相关的标记。 4.3 实验结果 5 种算法和基准算法共 6 个算法,在 6 个多标 记数据集上用 5 个评价指标进行对比实验,实验 的结果展示在表 2~6。 表 2 是评价平均精度指标的实验结果,其数 值是越高越好,最好的结果用黑体表示。实验结 果显示,MUAE 方法在 Business、Computers、Recreation 三个数据集上都取得最好结果,PCA 在 Health 表 1 数据集基本描述 Table 1 Data description 数据集/ 数据信息 训练样 本数 测试样 本数 标记 个数 特征 个数 A: Arts 2 000 3 000 26 462 B: Business 2 000 3 000 30 438 C: Computers 2 000 3 000 33 681 D: Health 2 000 3 000 32 612 E: Recreation 2 000 3 000 22 606 F: Reference 2 000 3 000 33 793 表 2 不同降维方法的平均精度 Table 2 Average precision of different algorithms (↑) A B C D E F Baseline 0.509 3 0.879 8 0.633 4 0.681 2 0.454 4 0.619 3 PCA 0.533 4 0.876 2 0.659 2 0.723 3 0.525 9 0.663 9 LPP 0.516 3 0.874 6 0.630 9 0.692 6 0.487 8 0.635 6 LE 0.496 3 0.865 6 0.621 2 0.686 9 0.456 0 0.613 1 MDDM 0.557 5 0.886 9 0.673 0 0.700 4 0.510 6 0.654 6 MUAE 0.535 9 0.889 3 0.678 7 0.715 3 0.529 3 0.662 6 ·812· 智 能 系 统 学 报 第 13 卷
第5期 杨文元:多标记学习自编码网络无监督维数约简 ·813· 和Reference数据集上取得最好结果,MDDM方 还显示出平均精度在各个百分比的情况下,MUAE 法在Ats数据集上取得最好结果。能够在平均 算法精度高且很平稳,没有大幅度变化,而LPP 精度取得好的实验结果,这是由于自编码深度网 和LE这两个算法随着降维百分比的增加精度反 络能够通过自学习有效提取数据特征,在有监督 而逐步下降。 的多标记数据集上能够通过无监督方法取得好的 表5不同降维方法的一错误 降维效果。 Table 5 One-error of different algorithms 另外,4个评价指标分别是汉明损失、排名损 (0) A B C D E F 失、一错误和覆盖,指标数值越小越好,表3~6分 Baseline0.63270.12130.43670.42070.70670.4730 别是这4种评价指标的各算法的实验结果,最好 的结果用黑体表示。MUAE算法取得最好数据集 PCA0.58830.12270.41200.35500.60670.4243 个数分别为3、3、2、2,4个表中的实验结果显示 LPP0.62700.12000.44230.39330.65170.4523 出MUAE方法总体上比其他4种算法和基准算 LE 0.64980.13500.45200.38070.69500.4757 法好。 MDDM0.55570.11830.39270.39400.62630.4357 表3不同降维方法的汉明损失 MUAE0.59100.11710.41200.36400.61970.4236 Table 3 Hamming loss of different algorithms 表6不同降维方法的覆盖 () A B Table 6 Coverage of different algorithms Baseline0.06120.02690.04120.04580.06180.0314 () A B C D E F P℃A0.05920.02790.03740.03920.05840.0276 Baseline 5.4452.185 4.416 3.305 5.0973.542 LPP0.06030.02720.04080.04270.05920.0306 PCA 5.189 2.315 4.2203.080 4.5072.999 LE0.06170.02820.04210.04330.06100.0316 LPP 5.3682.377 4.492 3.2655.036 3.361 MDDM0.05850.02620.03730.04080.05960.0291 LE 5.5842.4684.5993.4775.225 3.559 MUAE0.05930.02600.03650.04020.05810.0283 MDDM 4.8712.0713.9863.0964.5783.071 MUAE5.1952.0654.1753.0924.5013.009 表4不同降维方法的排名损失 Table 4 Ranking loss of different algorithms 另外,除数据集Business外的其他5个数据 (4) A B E F 集,所有算法在特征降维百分比较小的情况下, Baseline0.15200.03740.09220.06050.19120.0919 平均精度的实验结果都比Baseline的结果好,这 PCA0.14140.04150.08590.05430.16570.0762 表明大部分数据集确实存在冗余的特征,各算 LPP0.14870.04320.09270.06070.18750.0870 法提取关键特征而去除了冗余特征,因此,多 LE 0.15650.04550.09650.06420.19780.0924 标记数据降维后,学习精度反而得到不同程序的 MDDM0.13260.03470.08260.05570.16980.0781 提高。 其余4个指标,即汉明损失、排名损失、一错 MUAE0.14050.03870.08060.05540.16490.0762 误和覆盖,随特征降维百分比变化关系展示在 综合数据降维的各方法表现,利用自编码进 图4~7中,这4种指标越小越好。从图4~7显示 行无监督特征提取,比无监督算法能够取得更好 的指标性能,总体上MUAE方法比其他4种方法 的效果,这应该得益于自编码的思想和设计结 好,曲线平稳,起伏变化较小,显示出MUAE方法 构,其能更好地表示输入数据的特征,所以取得 稳定性好。 好的实验结果。 综合多标记评价5个指标,MUAE方法的结 为了进一步分析自编码在不同降维百分比的 果比其他4种方法和基准算法好,而且在各组 性能,以维度数量的10%开始,步长以10%递增 提取特征百分比情况下显示出好的稳定性。实 至100%,共10组,结果以图的形式展示。图3是 验结果进一步证明,自编码网络训练目标在各 平均精度随特征降维百分比变化关系,MUAE在 降维百分比情况下,能保持甚至提取好的数据 6个数据集上比其他算法能取得更高的精度。图3 特征
和 Reference 数据集上取得最好结果,MDDM 方 法在 Arts 数据集上取得最好结果。能够在平均 精度取得好的实验结果,这是由于自编码深度网 络能够通过自学习有效提取数据特征,在有监督 的多标记数据集上能够通过无监督方法取得好的 降维效果。 另外,4 个评价指标分别是汉明损失、排名损 失、一错误和覆盖,指标数值越小越好,表 3~6 分 别是这 4 种评价指标的各算法的实验结果,最好 的结果用黑体表示。MUAE 算法取得最好数据集 个数分别为 3、3、2、2,4 个表中的实验结果显示 出 MUAE 方法总体上比其他 4 种算法和基准算 法好。 综合数据降维的各方法表现,利用自编码进 行无监督特征提取,比无监督算法能够取得更好 的效果,这应该得益于自编码的思想和设计结 构,其能更好地表示输入数据的特征,所以取得 好的实验结果。 为了进一步分析自编码在不同降维百分比的 性能,以维度数量的 10% 开始,步长以 10% 递增 至 100%,共 10 组,结果以图的形式展示。图 3 是 平均精度随特征降维百分比变化关系,MUAE 在 6 个数据集上比其他算法能取得更高的精度。图 3 还显示出平均精度在各个百分比的情况下,MUAE 算法精度高且很平稳,没有大幅度变化,而 LPP 和 LE 这两个算法随着降维百分比的增加精度反 而逐步下降。 另外,除数据集 Business 外的其他 5 个数据 集,所有算法在特征降维百分比较小的情况下, 平均精度的实验结果都比 Baseline 的结果好,这 表明大部分数据集确实存在冗余的特征,各算 法提取关键特征而去除了冗余特征,因此,多 标记数据降维后,学习精度反而得到不同程序的 提高。 其余 4 个指标,即汉明损失、排名损失、一错 误和覆盖,随特征降维百分比变化关系展示在 图 4~7 中,这 4 种指标越小越好。从图 4~7 显示 的指标性能,总体上 MUAE 方法比其他 4 种方法 好,曲线平稳,起伏变化较小,显示出 MUAE 方法 稳定性好。 综合多标记评价 5 个指标,MUAE 方法的结 果比其他 4 种方法和基准算法好,而且在各组 提取特征百分比情况下显示出好的稳定性。实 验结果进一步证明,自编码网络训练目标在各 降维百分比情况下,能保持甚至提取好的数据 特征。 表 3 不同降维方法的汉明损失 Table 3 Hamming loss of different algorithms (↓) A B C D E F Baseline 0.061 2 0.026 9 0.041 2 0.045 8 0.061 8 0.031 4 PCA 0.059 2 0.027 9 0.037 4 0.039 2 0.058 4 0.027 6 LPP 0.060 3 0.027 2 0.040 8 0.042 7 0.059 2 0.030 6 LE 0.061 7 0.028 2 0.042 1 0.043 3 0.061 0 0.031 6 MDDM 0.058 5 0.026 2 0.037 3 0.040 8 0.059 6 0.029 1 MUAE 0.059 3 0.026 0 0.036 5 0.040 2 0.058 1 0.028 3 表 4 不同降维方法的排名损失 Table 4 Ranking loss of different algorithms (↓) A B C D E F Baseline 0.152 0 0.037 4 0.092 2 0.060 5 0.191 2 0.091 9 PCA 0.141 4 0.041 5 0.085 9 0.054 3 0.165 7 0.076 2 LPP 0.148 7 0.043 2 0.092 7 0.060 7 0.187 5 0.087 0 LE 0.156 5 0.045 5 0.096 5 0.064 2 0.197 8 0.092 4 MDDM 0.132 6 0.034 7 0.082 6 0.055 7 0.169 8 0.078 1 MUAE 0.140 5 0.038 7 0.080 6 0.055 4 0.164 9 0.076 2 表 5 不同降维方法的一错误 Table 5 One-error of different algorithms (↓) A B C D E F Baseline 0.632 7 0.121 3 0.436 7 0.420 7 0.706 7 0.473 0 PCA 0.588 3 0.122 7 0.412 0 0.355 0 0.606 7 0.424 3 LPP 0.627 0 0.120 0 0.442 3 0.393 3 0.651 7 0.452 3 LE 0.649 8 0.135 0 0.452 0 0.380 7 0.695 0 0.475 7 MDDM 0.555 7 0.118 3 0.392 7 0.394 0 0.626 3 0.435 7 MUAE 0.591 0 0.117 1 0.412 0 0.364 0 0.619 7 0.423 6 表 6 不同降维方法的覆盖 Table 6 Coverage of different algorithms (↓) A B C D E F Baseline 5.445 2.185 4.416 3.305 5.097 3.542 PCA 5.189 2.315 4.220 3.080 4.507 2.999 LPP 5.368 2.377 4.492 3.265 5.036 3.361 LE 5.584 2.468 4.599 3.477 5.225 3.559 MDDM 4.871 2.071 3.986 3.096 4.578 3.071 MUAE 5.195 2.065 4.175 3.092 4.501 3.009 第 5 期 杨文元:多标记学习自编码网络无监督维数约简 ·813·
·814· 智 能系 统学报 第13卷 58 10 Baseline LPP PCA 89.5¥10 -Baseline LPP PCA 56 --LE.MDDM-·MUAE 89.0 --LE MDDMMUAE 420 88.0 斗87.5 46 87.0 一、 10 86.5 2030405060708090100 0 20 30405060708090100 特征降维百分比% 特征降维百分比% (a)Arts (b)Business ×102 -Baseline LPP PCA 68ě10 Baseline LPP PCA 6420 -◆-LE MDDM◆MUAE --LE MDDM◆MUAE 66 62 60 58 10 20 30405060708090100 102030405060708090100 特征降维百分比% 特征降维百分比% (c)Recreation (d)Reference 图3平均精度随特征降维百分比变化关系 Fig.3 Relationship between average precision and percentage of features -BaselineLPP PCA -Baseline LPP PCA 63.0 IC3--LE-MDDM◆MUAE 29.0¥10 --LE-MDDM◆MUAE 28.5 61.5 61.0 28.0 60.5 27.5 60.0 327.0 59.5 59.0 26.5 58.5 26.0 0 2030405060708090100 02030405060708090100 特征降维百分比% 特征降维百分比% (a)Arts (b)Business -Baseline LPP -PCA LPP PCA 65 ¥103 -◆-LE-MDDM◆MUAE 36×10- -Baseline -.-LE MDDM-MUAE 一 34 6 62 32 61 60 59 8 58 10 2030405060708090100 102030405060708090100 特征降维百分比% 特征降维百分比% (c)Recreation (d)Reference 图4汉明损失随特征降维百分比变化关系 Fig.4 Relationship between Hamming loss and percentage of features 175¥10 -Baseline LPP PCA 46ě101 -Baseline LPP PCA -◆-LE MDDM·MUAE --LE MDDM◆MUAE 165 155 40 145 38 135 130 10 2030405060708090100 102030405060.708090100 特征降维百分比% 特征降维百分比% (a)Arts (b)Business
44 46 48 50 52 54 56 58 86.5 87.0 87.5 88.0 88.5 89.0 89.5 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE 平均精度 平均精度 平均精度 平均精度 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (a) Arts 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (b) Business 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (c) Recreation 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (d) Reference ×10−2 ×10−2 图 3 平均精度随特征降维百分比变化关系 Fig. 3 Relationship between average precision and percentage of features Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE 58.5 59.0 59.5 60.0 60.5 61.0 61.5 62.0 62.5 63.0 26.0 26.5 27.0 27.5 28.0 28.5 29.0 58 59 60 61 62 63 64 65 26 28 30 32 34 36 汉明损失 汉明损失 汉明损失 汉明损失 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (a) Arts 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (b) Business 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (c) Recreation 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (d) Reference ×10−3 ×10−3 图 4 汉明损失随特征降维百分比变化关系 Fig. 4 Relationship between Hamming loss and percentage of features Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE 135 130 145 155 165 175 34 36 38 40 42 44 46 排名损失 排名损失 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (a) Arts 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (b) Business ·814· 智 能 系 统 学 报 第 13 卷
第5期 杨文元:多标记学习自编码网络无监督维数约简 ·815· 22¥10- -BaselineLPPPCA -BaselineLPPPCA -LE MDDM◆MUAE 10510-3 -.-LE MDDM-MUAE 21 100 20 95 p 8 85 80 16 75 0 203040、5060708090100 102030405060708090100 特征降维百分比% 特征降维百分比% (c)Recreation (d)Reference 图5排名损失随特征降维百分比变化关系 Fig.5 Relationship between ranking loss and percentage of features -Baseline LPPPCA 75 ×10-2 -.-LE MDDM◆MUAE 145¥10 -BaselineLPP PCA -.-LE MDDM◆MUAE 140 6 60 名 120 11 102030405060708090100 10 2030405060 708090100 特征降维百分比% 特征降维百分比% (a)Arts (b)Business 10 -Baseline LPPPCA -BaselineLPPPCA 028% -+-LE 5410-2 -.-LE MDDM◆MUAE 420 50 48 8 46 44 40 10 2030405060708090100 0 2030405060708090100 特征降维百分比% 特征降维百分比% (c)Recreation (d)Reference 图6 一错误随特征降维百分比变化关系 Fig.6 Relationship between one-error and percentage of features 6.2 Baseline LPP PCA 2.5f Baseline -LPP PCA -s-LE-MDDM◆MUAE 6.0 2.4 5.8 56 231 5.4 2.2 5.2 5.0 2.1 2.0 10 2030405060708090100 02030405060708090100 特征降维百分比% 特征降维百分比% (a)Arts (b)Business 5.8 -Baseline LPP PCA 4.0 -Baseline LPP PCA 5.6 -LE MDDM◆MUAE 3.8 -LE MDDM--MUAE 5.4 3.6 5.2 5.0 3.4 4.8 32 46 3.0 4.4 2. 10 20 30405060708090100 102030405060708090100 特征降维百分比% 特征降维百分比% (c)Recreation (d)Reference 图7覆盖随特征降维百分比变化关系 Fig.7 Relationship between voverage and percentage of features
16 17 18 19 20 21 22 75 80 85 90 95 100 105 排名损失 排名损失 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (c) Recreation 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (d) Reference Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE 图 5 排名损失随特征降维百分比变化关系 Fig. 5 Relationship between ranking loss and percentage of features 55 60 65 70 75 115 120 125 130 135 140 145 64 66 70 62 68 72 74 78 76 80 40 42 44 46 48 50 52 54 一错误 一错误 一错误 一错误 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (a) Arts 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (b) Business 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (c) Recreation 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (d) Reference Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE ×10−2 ×10−2 图 6 一错误随特征降维百分比变化关系 Fig. 6 Relationship between one-error and percentage of features Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE Baseline LPP PCA LE MDDM MUAE 5.0 5.2 5.4 5.6 5.8 6.0 6.2 2.0 2.1 2.2 2.3 2.4 2.5 覆盖 4.4 4.6 4.8 5.0 5.2 5.4 5.6 5.8 覆盖 覆盖 2.8 3.0 3.2 3.4 3.6 3.8 4.0 覆盖 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (a) Arts 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (b) Business 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (c) Recreation 10 20 30 40 50 60 70 80 90 100 特征降维百分比/% (d) Reference 图 7 覆盖随特征降维百分比变化关系 Fig. 7 Relationship between voverage and percentage of features 第 5 期 杨文元:多标记学习自编码网络无监督维数约简 ·815·
·816· 智能系统学报 第13卷 5结束语 [11]ZHANG Minling,ZHANG Kun.Multi-label learning by exploiting label dependency[C]//Proceedings of the 16th 针对多标记学习的数据降维问题提出自编码 ACM SIGKDD International Conference on Knowledge 网络维数约简方法,用无监督方法处理有监督的 Discovery and Data Mining.Washington,DC,USA, 多标记学习降维问题。通过实验验证了所构建自 2010:999-1008. 编码深度学习网络能自学习地提取多标记数据特 [12]ZHANG Minling,ZHOU Zhihua.ML-KNN:a lazy learn- 征,降低数据维度,与其他无监督特征降维和多 ing approach to multi-label learning[J].Pattern recogni- 标记有监督降维方法相比,取得了较好的效果, tion,2007,40(7):2038-2048. 在各百比降维的情况下,降维性能平稳性好。下 [13]BALDI P.Autoencoders,unsupervised learning and deep architectures[C]//Proceedings of the 2011 International 一步工作,将使用变分自编码和降噪自编码网络 对多标记和图像等数据进行无监督降维进行 Conference on Unsupervised and Transfer Learning Workshop.Washington,USA,2011:37-50. 研究。 [14]BOURLARD H,KAMP Y.Auto-association by multilay- 参考文献: er perceptrons and singular value decomposition[J].Bio- logical cybernetics,1988,59(4/5):291-294. [1]ZHANG Minling,ZHOU Zhihua.A review on multi-La- [15]刘帅师,程曦,郭文燕,等.深度学习方法研究新进展 bel learning algorithms[J].IEEE transactions on know- 智能系统学报,2016,11(5):567-577 ledge and data engineering,2014,26(8):1819-1837. LIU Shuaishi,CHENG Xi,GUO Wenyan,et al.Progress [2]TSOUMAKAS G,KATAKIS I.Multi-label classification: report on new research in deep learning[J].CAAI transac- an overview[J].International journal of data warehousing tions on intelligent systems,2016,11(5):567-577. and mining,2007,3(3):1-13 [16]VINCENT P.LAROCHELLE H.LAJOIE I.et al. [3]WU Fei.WANG Zhuhao.ZHANG Zhongfei.et al.Weakly Stacked denoising autoencoders:learning useful repres- semi-supervised deep learning for multi-label image an- entations in a deep network with a local denoising cri- notation[J].IEEE transactions on big data,2015,1(3): terion[J].Journal of machine learning research,2010. 109-122 11(12):3371-3408. [4]LI Feng,MIAO Duoqian,PEDRYCZ W.Granular multi- [17]YU Ying,WANG Yinglong.Feature selection for multi- label feature selection based on mutual information[J].Pat- label learning using mutual information and GA[M]// tern recognition,2017.67:410-423. MIAO D,PEDRYCZ W.SLEZAK D,et al.Rough Sets [5]ZHANG Yin,ZHOU Zhihua.Multilabel dimensionality re- and Knowledge Technology.Cham:Springer,2014 duction via dependence maximization[J].ACM transac- 454-463. tions on knowledge discovery from data,2010,4(3):1-21. [18]余鹰.多标记学习研究综述[J】.计算机工程与应用, [6]郭雨萌,李国正.一种多标记数据的过滤式特征选择框 2015,51(17):20-27. 架[.智能系统学报,2014,9(3):292-297. YU Ying.Survey on multi-label learning[J].Computer GUO Yumeng,LI Guozheng.A filtering framework fro engineering and applications,2015,51(17):20-27 the multi-label feature selection[J].CAAI transactions on [19]段洁,胡清华,张灵均,等.基于邻域粗糙集的多标记分 intelligent systems,2014,9(3):292-297. 类特征选择算法[刀.计算机研究与发展,2015,52(1): [7]JINDAL P.KUMAR D.A review on dimensionality re- 56-65】 duction techniques[J].International journal of computer DUAN Jie,HU Qinghua,ZHANG Lingjun,et al.Feature applications,,2017,173(2):42-46. selection for multi-label classification based on neighbor- [8]OMPRAKASH S.SUMIT S.A review on dimension re- hood rough sets[J].Journal of computer research and de- duction techniques in data mining[J].Computer engineer- velopment,2015,521):56-65 ing and intelligent systems,2018,9(1):7-14 [20]DOQUIRE G,VERLEYSEN M.Feature selection for [9]YU Tingzhao,ZHANG Wensheng.Semisupervised multil- multi-label classification problems[C]//Proceedings of the abel learning with joint dimensionality reduction[J].IEEE 11th International Conference on Artificial Neural Net- signal processing letters,2016,23(6):795-799. Works Conference on Advances in Computational Intelli- [10]YU Yanming,WANG Jun,TAN Qiaoyu,et al.Semi-su- gence.Torremolinos-Mylaga,Spain,2011:9-16. pervised multi-label dimensionality reduction based on [21]LAMDA.Data Code[EB/OL].Nanjing:LAMDA, dependence maximization[J].IEEE access,2017,5: 2016[2018.03.20].http://lamda.nju.edu.cn/Data.ashx. 21927-21940 [22]WOLD S,ESBENSEN K,GELADI P.Principal compon-
5 结束语 针对多标记学习的数据降维问题提出自编码 网络维数约简方法,用无监督方法处理有监督的 多标记学习降维问题。通过实验验证了所构建自 编码深度学习网络能自学习地提取多标记数据特 征,降低数据维度,与其他无监督特征降维和多 标记有监督降维方法相比,取得了较好的效果, 在各百比降维的情况下,降维性能平稳性好。下 一步工作,将使用变分自编码和降噪自编码网络 对多标记和图像等数据进行无监督降维进行 研究。 参考文献: ZHANG Minling, ZHOU Zhihua. A review on multi-Label learning algorithms[J]. IEEE transactions on knowledge and data engineering, 2014, 26(8): 1819–1837. [1] TSOUMAKAS G, KATAKIS I. Multi-label classification: an overview[J]. International journal of data warehousing and mining, 2007, 3(3): 1–13. [2] WU Fei, WANG Zhuhao, ZHANG Zhongfei, et al. Weakly semi-supervised deep learning for multi-label image annotation[J]. IEEE transactions on big data, 2015, 1(3): 109–122. [3] LI Feng, MIAO Duoqian, PEDRYCZ W. Granular multilabel feature selection based on mutual information[J]. Pattern recognition, 2017, 67: 410–423. [4] ZHANG Yin, ZHOU Zhihua. Multilabel dimensionality reduction via dependence maximization[J]. ACM transactions on knowledge discovery from data, 2010, 4(3): 1–21. [5] 郭雨萌, 李国正. 一种多标记数据的过滤式特征选择框 架[J]. 智能系统学报, 2014, 9(3): 292–297. GUO Yumeng, LI Guozheng. A filtering framework fro the multi-label feature selection[J]. CAAI transactions on intelligent systems, 2014, 9(3): 292–297. [6] JINDAL P, KUMAR D. A review on dimensionality reduction techniques[J]. International journal of computer applications, 2017, 173(2): 42–46. [7] OMPRAKASH S, SUMIT S. A review on dimension reduction techniques in data mining[J]. Computer engineering and intelligent systems, 2018, 9(1): 7–14. [8] YU Tingzhao, ZHANG Wensheng. Semisupervised multilabel learning with joint dimensionality reduction[J]. IEEE signal processing letters, 2016, 23(6): 795–799. [9] YU Yanming, WANG Jun, TAN Qiaoyu, et al. Semi-supervised multi-label dimensionality reduction based on dependence maximization[J]. IEEE access, 2017, 5: 21927–21940. [10] ZHANG Minling, ZHANG Kun. Multi-label learning by exploiting label dependency[C]//Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Washington, DC, USA, 2010: 999–1008. [11] ZHANG Minling, ZHOU Zhihua. ML-KNN: a lazy learning approach to multi-label learning[J]. Pattern recognition, 2007, 40(7): 2038–2048. [12] BALDI P. Autoencoders, unsupervised learning and deep architectures[C]//Proceedings of the 2011 International Conference on Unsupervised and Transfer Learning Workshop. Washington, USA, 2011: 37–50. [13] BOURLARD H, KAMP Y. Auto-association by multilayer perceptrons and singular value decomposition[J]. Biological cybernetics, 1988, 59(4/5): 291–294. [14] 刘帅师, 程曦, 郭文燕, 等. 深度学习方法研究新进展[J]. 智能系统学报, 2016, 11(5): 567–577. LIU Shuaishi, CHENG Xi, GUO Wenyan, et al. Progress report on new research in deep learning[J]. CAAI transactions on intelligent systems, 2016, 11(5): 567–577. [15] VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: learning useful representations in a deep network with a local denoising criterion[J]. Journal of machine learning research, 2010, 11(12): 3371–3408. [16] YU Ying, WANG Yinglong. Feature selection for multilabel learning using mutual information and GA[M]// MIAO D, PEDRYCZ W, ŚLȨZAK D, et al. Rough Sets and Knowledge Technology. Cham: Springer, 2014: 454–463. [17] 余鹰. 多标记学习研究综述[J]. 计算机工程与应用, 2015, 51(17): 20–27. YU Ying. Survey on multi-label learning[J]. Computer engineering and applications, 2015, 51(17): 20–27. [18] 段洁, 胡清华, 张灵均, 等. 基于邻域粗糙集的多标记分 类特征选择算法[J]. 计算机研究与发展, 2015, 52(1): 56–65. DUAN Jie, HU Qinghua, ZHANG Lingjun, et al. Feature selection for multi-label classification based on neighborhood rough sets[J]. Journal of computer research and development, 2015, 52(1): 56–65. [19] DOQUIRE G, VERLEYSEN M. Feature selection for multi-label classification problems[C]//Proceedings of the 11th International Conference on Artificial Neural NetWorks Conference on Advances in Computational Intelligence. Torremolinos-Mÿlaga, Spain, 2011: 9–16. [20] LAMDA. Data & Code[EB/OL]. Nanjing: LAMDA, 2016[2018.03.20]. http://lamda.nju.edu.cn/Data.ashx. [21] [22] WOLD S, ESBENSEN K, GELADI P. Principal compon- ·816· 智 能 系 统 学 报 第 13 卷
第5期 杨文元:多标记学习自编码网络无监督维数约简 ·817· ent analysis[J].Chemometrics and intelligent laboratory an ensemble method for multilabel classification systems,,1987,2(1):27-52 [M]//KOK JN,KORONACKI J,MANTARAS RL,et al. [23]HE Xiaofei.Locality preserving projections[M].IL,USA: Machine Learning:ECML 2007.Berlin Heidelberg: University of Chicago,2005:186-197. Springer,2007:406-417. [24]BELKIN M,NIYOGI P.Laplacian eigenmaps for dimen- 作者简介: sionality reduction and data representation[J].Neural 杨文元,男,1967年生,副教授 computation.2003,15(6):1373-1396. 博士,主要研究方向为机器学习、多标 [25]SCHAPIRE R E,SINGER Y.Boos texter:a boosting- 记学习、模式识别、计算机视觉。发表 based systemfor text categorization[J].Machine learning- 学术论文20余篇。 special issue on information retrieval,2000,39(2/3): 135-168 [26]TSOUMAKAS G.VLAHAVAS I.Random k-labelsets: 第二届大数据和智能计算国际会议(ICBDSC2019) 2019 2nd International Conference on Big Data and Smart Computing (ICBDSC 2019) The Organizing Committee is pleased to announce that 2019 2nd International Conference on Big Data and Smart Computing(ICBDSC 2019)will take place in Bali,Indonesia on January 10-13,2019 as a work- shop of ICSIM 2019. The conference is addressed to academics,researchers and professionals with a particular interest related to the con- ference topic.It brings together academics,researchers and professionals in the field of Big Data and Smart Computing making the conference a perfect platform to share experience,foster collaborations across industry and academia,and evaluate emerging technologies across the globe. ICBDSC 2019 is co-organized by Universitas Pendidikan Ganesha(Undiksha),Indonesia and Kalbis Institute,In- donesia As a workshop of ICSIM 2019,accepted papers of ICBDSC 2019 will be collected in ICSIM 2019 conference pro- ceedings,which will be submitted for indexing in Ei Compendex,Scopus,Thomson Reuters Conference Proceedings Citation Index etc.major data bases
ent analysis[J]. Chemometrics and intelligent laboratory systems, 1987, 2(1): 27–52. HE Xiaofei. Locality preserving projections[M]. IL, USA: University of Chicago, 2005: 186–197. [23] BELKIN M, NIYOGI P. Laplacian eigenmaps for dimensionality reduction and data representation[J]. Neural computation, 2003, 15(6): 1373–1396. [24] SCHAPIRE R E, SINGER Y. Boos texter: a boostingbased systemfor text categorization[J]. Machine learningspecial issue on information retrieval, 2000, 39(2/3): 135–168. [25] [26] TSOUMAKAS G, VLAHAVAS I. Random k-labelsets: an ensemble method for multilabel classification [M]//KOK J N, KORONACKI J, MANTARAS R L, et al. Machine Learning: ECML 2007. Berlin Heidelberg: Springer, 2007: 406–417. 作者简介: 杨文元,男,1967 年生,副教授, 博士,主要研究方向为机器学习、多标 记学习、模式识别、计算机视觉。发表 学术论文 20 余篇。 第二届大数据和智能计算国际会议(ICBDSC 2019) 2019 2nd International Conference on Big Data and Smart Computing (ICBDSC 2019) The Organizing Committee is pleased to announce that 2019 2nd International Conference on Big Data and Smart Computing (ICBDSC 2019) will take place in Bali, Indonesia on January 10–13, 2019 as a workshop of ICSIM 2019. The conference is addressed to academics, researchers and professionals with a particular interest related to the conference topic. It brings together academics, researchers and professionals in the field of Big Data and Smart Computing making the conference a perfect platform to share experience, foster collaborations across industry and academia, and evaluate emerging technologies across the globe. ICBDSC 2019 is co-organized by Universitas Pendidikan Ganesha (Undiksha), Indonesia and Kalbis Institute, Indonesia. As a workshop of ICSIM 2019, accepted papers of ICBDSC 2019 will be collected in ICSIM 2019 conference proceedings, which will be submitted for indexing in Ei Compendex, Scopus, Thomson Reuters Conference Proceedings Citation Index etc. major data bases. 第 5 期 杨文元:多标记学习自编码网络无监督维数约简 ·817·