第14卷第5期 智能系统学报 Vol.14 No.5 2019年9月 CAAI Transactions on Intelligent Systems Sep.2019 D0:10.11992/tis.201809018 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190531.1405.003html 一种基于模糊划分和模糊加权的集成深度信念网络 张雄涛2,胡文军2,王士同 (1.江南大学数字蝶体学院,江苏无锡214122:2.湖州师范学院信息工程学院,浙江湖州313000) 摘要:针对DBN算法训练时间复杂度高,容易过拟合等问题,受模糊理论启发,提出了一种基于模糊划分和 模糊加权的集成深度信念网络,即FE-DBN(ensemble deep belief network with fuzzy partition and fuzzy weighting). 用于处理大样本数据的分类问题。通过模糊聚类算法FCM将训练数据划分为多个子集,在各个子集上并行训 练不同结构的DBN,将每个分类器的结果进行模糊加权。在人工数据集、UCI数据集上的实验结果表明,提出 的FE-DBN比DBN精度均有所提升,具有更快的运行时间。 关键词:集成:深度信念网络;模糊划分:模糊加权:运行时间:模糊聚类算法:模糊理论 中图分类号:0235:TP18文献标志码:A文章编号:1673-4785(2019)05-0905-10 中文引用格式:张雄涛,胡文军,王士同.一种基于模糊划分和模糊加权的集成深度信念网络.智能系统学报,2019,14(⑤): 905-914. 英文引用格式:ZHANG Xiongtao,,HU Wenjun,,WANG Shitong.Ensemble deep belief network based on fuzzy partitioning and fuzzy weighting[J].CAAI transactions on intelligent systems,2019,14(5):905-914. Ensemble deep belief network based on fuzzy partitioning and fuzzy weighting ZHANG Xiongtao,HU Wenjun',WANG Shitong' (1.School of Digital Media,Jiangnan University,Wuxi 214122,China;2.School of Information Engineering,Huzhou University, Huzhou 313000,China) Abstract:Aiming at the problems of high training time complexity and easy over-fitting of the deep belief network (DBN)algorithm,inspired by the fuzzy theory,an ensemble deep belief network based on fuzzy partitioning and fuzzy weighting,namely FE-DBN(ensemble deep belief network with fuzzy partition and fuzzy weighting),is proposed to deal with the classification of large-scale data.First,the training data is divided into several subsets by fuzzy clustering algorithm (FCM),and then the DBNs of different structures are trained in parallel on each subset.Finally,the results of each classifier are ensembled by fuzzy weighting.Experiments on artificial datasets and UCI datasets show that the pro- posed FE-DBN outperforms the DBN in terms of accuracy and running time. Keywords:ensemble;deep belief network;fuzzy partition;fuzzy weighting;running time;fuzzy clustering algorithm (FCM);fuzzy theory 近年来,深度学习在图像识别和语音识别领 网络)、DBM(深度玻尔兹曼机)等模型被认为是最 域取得了突破性的进展。深度学习逐渐成为机器 有效的深度学习算法。其中深度信念网络 学习最热的研究方向之一。由于RBM(restricted (DBN)是深度学习的典型代表,通常DBN在进行 boltzmann machine)-具有表达能力强、易于推理 图像及语音等模式识别上有较高的精度,但是训 等优点被成功用作深度神经网络的结构单元。当 练一个DBN的复杂度非常高,因为DBN在微调 前,以RBM为基本构成模块的DBN(深度信念 阶段使用了BP算法,这种算法很难做到多机并 收稿日期:2018-09-13.网络出版日期:2019-06-03 行,所以在大规模的数据上进行学习会非常困 基金项目:国家自然科学基金面上项目(61572236,61300151, 61772198). 难。综上,DBN主要存在两个问题:1)训练一个 通信作者:张雄涛.E-mail:1047897965@qq.com DBN的时间复杂度仍然较高;2)达到好的效果通
DOI: 10.11992/tis.201809018 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190531.1405.003.html 一种基于模糊划分和模糊加权的集成深度信念网络 张雄涛1,2,胡文军2 ,王士同1 (1. 江南大学 数字媒体学院,江苏 无锡 214122; 2. 湖州师范学院 信息工程学院,浙江 湖州 313000) 摘 要:针对 DBN 算法训练时间复杂度高,容易过拟合等问题,受模糊理论启发,提出了一种基于模糊划分和 模糊加权的集成深度信念网络,即 FE-DBN(ensemble deep belief network with fuzzy partition and fuzzy weighting), 用于处理大样本数据的分类问题。通过模糊聚类算法 FCM 将训练数据划分为多个子集,在各个子集上并行训 练不同结构的 DBN,将每个分类器的结果进行模糊加权。在人工数据集、UCI 数据集上的实验结果表明,提出 的 FE-DBN 比 DBN 精度均有所提升,具有更快的运行时间。 关键词:集成;深度信念网络;模糊划分;模糊加权;运行时间;模糊聚类算法;模糊理论 中图分类号:O235;TP18 文献标志码:A 文章编号:1673−4785(2019)05−0905−10 中文引用格式:张雄涛, 胡文军, 王士同. 一种基于模糊划分和模糊加权的集成深度信念网络 [J]. 智能系统学报, 2019, 14(5): 905–914. 英文引用格式:ZHANG Xiongtao, HU Wenjun, WANG Shitong. Ensemble deep belief network based on fuzzy partitioning and fuzzy weighting[J]. CAAI transactions on intelligent systems, 2019, 14(5): 905–914. Ensemble deep belief network based on fuzzy partitioning and fuzzy weighting ZHANG Xiongtao1,2 ,HU Wenjun2 ,WANG Shitong1 (1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. School of Information Engineering, Huzhou University, Huzhou 313000, China) Abstract: Aiming at the problems of high training time complexity and easy over-fitting of the deep belief network (DBN) algorithm, inspired by the fuzzy theory, an ensemble deep belief network based on fuzzy partitioning and fuzzy weighting, namely FE-DBN (ensemble deep belief network with fuzzy partition and fuzzy weighting), is proposed to deal with the classification of large-scale data. First, the training data is divided into several subsets by fuzzy clustering algorithm (FCM), and then the DBNs of different structures are trained in parallel on each subset. Finally, the results of each classifier are ensembled by fuzzy weighting. Experiments on artificial datasets and UCI datasets show that the proposed FE-DBN outperforms the DBN in terms of accuracy and running time. Keywords: ensemble; deep belief network; fuzzy partition; fuzzy weighting; running time; fuzzy clustering algorithm (FCM); fuzzy theory 近年来,深度学习在图像识别和语音识别领 域取得了突破性的进展。深度学习逐渐成为机器 学习最热的研究方向之一。由于 RBM(restricted boltzmann machine)[1-3] 具有表达能力强、易于推理 等优点被成功用作深度神经网络的结构单元。当 前,以 RBM[4-5] 为基本构成模块的 DBN(深度信念 网络)、DBM(深度玻尔兹曼机) 等模型被认为是最 有效的深度学习算法。其中深度信念网 络 (DBN) 是深度学习的典型代表,通常 DBN 在进行 图像及语音等模式识别上有较高的精度,但是训 练一个 DBN 的复杂度非常高,因为 DBN 在微调 阶段使用了 BP 算法,这种算法很难做到多机并 行,所以在大规模的数据上进行学习会非常困 难。综上,DBN 主要存在两个问题:1) 训练一个 DBN 的时间复杂度仍然较高;2) 达到好的效果通 收稿日期:2018−09−13. 网络出版日期:2019−06−03. 基金项目:国家自然科学基金面上项目 (61572236,61300151, 61772198). 通信作者:张雄涛. E-mail:1047897965@qq.com. 第 14 卷第 5 期 智 能 系 统 学 报 Vol.14 No.5 2019 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2019
·906· 智能系统学报 第14卷 常需要较多的隐含节点数,然而当隐含节点数较 和可见单元可以为任意的指数族单元。本文只讨 多时又易产生过拟合。虽然邓力等6别通过改进 论所有的可见层和隐含层单元均为伯努利分布 DBN的网络结构来提升其性能,但仍然没有突破 假设所有的可见单元与隐单元均为二值变量,即 以上问题。 对i,j,y∈{0,1,h∈0,1o 分类是深度学习的核心问题,提高分类器的 分类性能是分类器研究的主要目标之一。通常将 模糊理论与分类器相结合,用于处理不确定问 题。在构建分类模型时,为了对所构建的目标模 型的局部细节有更好的逼近程度,通常的做法是 将输入空间划分成多个模糊区域或模糊子空间, 即模糊划分,在各个子空间中分别构建分类子 图1RBM示意图 模型,最后将各子模型的结果集成输出12。有 Fig.1 The structure of RBM 3种模糊划分方法,即格状划分、树状划分和散状 RBM是一种能量模型,能量函数定义为 划分。格状划分是将每一维度的输入空间作划分, 求得其模糊集合,再根据模糊系统理论,将模糊 m0=一-2m-2h-22wh 集映射成模糊区域。树状划分是,一次产生一个 与模糊区域相对应的一个划分,每做一次划分就 式中:b和c分别为可见层和隐含层的偏置向量; 会产生出划分面。散状划分是,将输入输出的数 0∈{b,c,W,W表示权值矩阵。基于能量函数,可 据作分析,将预产生相似结果的输入空间以模糊 以得到y和h的联合概率分布: 区域作划分,每一模糊区域可作描述输人输出数 P(y,h,)=e-tro Z 据的行为。该划分是一种较为灵活的划分方法, 吸收了前两种方法的优点,同时摒弃了它们存在 2-22 (1) 的不足。在本文的研究中,采用散状划分这种方式。 式中Z函数为归一项。 为了更好地挖掘深度模型的表达能力,在实 多个RBM的堆栈组合构成了DBNI,前一 际应用中进一步提高DBN的精度并加快DBN的 个RBM的输出作为后一个RBM的输入。如图2 训练。受到上述思想的启发,本文提出了一种基 所示,最底层是输入层,最顶层是输出层,中间层 于模糊划分和模糊加权的集成深度信念网络,将 是隐含层。DBN的学习包括两个阶段:预训练和 对应的集成分类算法命名为FE-DBN。首先通过 微调。预训练是以贪婪的无监督的方式逐层进行 模糊聚类算法FCM将训练数据划分为多个子集; 然后在各个子集上并行训练不同结构的DBN:最 训练的,将输入层映射到输出层从而学习到复杂 后借鉴模糊集合理论的思想,将各个分类器的结 的非线性函数;微调是在监督的方式下实现的, 果进行模糊加权。该算法能够有效且快速解决大 它使用反向传播(BP)算法从最顶层到最底层对 样本数据的分类问题,克服了单个DBN用于数据 整个DBN网络参数进行微调。 分类时时间复杂度较高等缺点;而且,FE-DBN可 输出层 以避免过拟合问题,具有分类精度高等优点;并 在人工数据集、UCI数据集上得到了有效验证。 BM 1RBM和DBN h 受限玻尔兹曼机是由Hinton和Sejnowski于 1986年提出的一种生成式随机网络口,该网络是 一种基于能量的概率图模型,它由一个可见层和 RBM 一个隐含层组成,如图1所示,v和h分别表示可 h 见层与隐含层,W表示两层之间的连接权值。对 RBM 于可见层与隐含层,其连接关系为层间全连接, 输入层 层内无连接。注意,图1中h有m个节点,v有 n个节点,单个节点用y:和h描述。可见层用于 图2DBN结构 观测数据,隐含层用于提取特征。RBM的隐单元 Fig.2 The structure of DBN
常需要较多的隐含节点数,然而当隐含节点数较 多时又易产生过拟合。虽然邓力等[6-8]通过改进 DBN 的网络结构来提升其性能,但仍然没有突破 以上问题。 分类是深度学习的核心问题,提高分类器的 分类性能是分类器研究的主要目标之一。通常将 模糊理论与分类器相结合,用于处理不确定问 题。在构建分类模型时,为了对所构建的目标模 型的局部细节有更好的逼近程度,通常的做法是 将输入空间划分成多个模糊区域或模糊子空间, 即模糊划分[9-10] ,在各个子空间中分别构建分类子 模型,最后将各子模型的结果集成输出[11-12]。有 3 种模糊划分方法,即格状划分、树状划分和散状 划分。格状划分是将每一维度的输入空间作划分, 求得其模糊集合,再根据模糊系统理论,将模糊 集映射成模糊区域。树状划分是,一次产生一个 与模糊区域相对应的一个划分,每做一次划分就 会产生出划分面。散状划分是,将输入输出的数 据作分析,将预产生相似结果的输入空间以模糊 区域作划分,每一模糊区域可作描述输入输出数 据的行为。该划分是一种较为灵活的划分方法, 吸收了前两种方法的优点,同时摒弃了它们存在 的不足。在本文的研究中,采用散状划分这种方式。 为了更好地挖掘深度模型的表达能力,在实 际应用中进一步提高 DBN 的精度并加快 DBN 的 训练。受到上述思想的启发,本文提出了一种基 于模糊划分和模糊加权的集成深度信念网络,将 对应的集成分类算法命名为 FE-DBN。首先通过 模糊聚类算法 FCM 将训练数据划分为多个子集; 然后在各个子集上并行训练不同结构的 DBN;最 后借鉴模糊集合理论的思想,将各个分类器的结 果进行模糊加权。该算法能够有效且快速解决大 样本数据的分类问题,克服了单个 DBN 用于数据 分类时时间复杂度较高等缺点;而且,FE-DBN 可 以避免过拟合问题,具有分类精度高等优点;并 在人工数据集、UCI 数据集上得到了有效验证。 1 RBM 和 DBN vi hj 受限玻尔兹曼机是由 Hinton 和 Sejnowski 于 1986 年提出的一种生成式随机网络[1] ,该网络是 一种基于能量的概率图模型,它由一个可见层和 一个隐含层组成,如图 1 所示,v 和 h 分别表示可 见层与隐含层,W 表示两层之间的连接权值。对 于可见层与隐含层,其连接关系为层间全连接, 层内无连接。注意,图 1 中 h 有 m 个节点,v 有 n 个节点,单个节点用 和 描述。可见层用于 观测数据,隐含层用于提取特征。RBM 的隐单元 ∀i, j, vi ∈ {0,1},hj ∈ {0,1} 和可见单元可以为任意的指数族单元。本文只讨 论所有的可见层和隐含层单元均为伯努利分布, 假设所有的可见单元与隐单元均为二值变量,即 对 。 h1 v1 v2 v3 v4 vn h2 h3 … hm … Wn*m c b 图 1 RBM 示意图 Fig. 1 The structure of RBM RBM 是一种能量模型,能量函数定义为 E(v, h|θ) = − ∑n i=1 bivi − ∑m j=1 cjhj − ∑n i=1 ∑m j=1 viWi jhj θ ∈ {b, c,W} 式中:b 和 c 分别为可见层和隐含层的偏置向量; ,W 表示权值矩阵。基于能量函数,可 以得到 v 和 h 的联合概率分布: P(v, h,θ) = e −E(v,h,θ) Z Z = ∑ v˜ ∑ h˜ e −E(˜v,h˜,θ) (1) 式中 Z 函数为归一项。 多个 RBM 的堆栈组合构成了 DBN[5] ,前一 个 RBM 的输出作为后一个 RBM 的输入。如图 2 所示,最底层是输入层,最顶层是输出层,中间层 是隐含层。DBN 的学习包括两个阶段:预训练和 微调。预训练是以贪婪的无监督的方式逐层进行 训练的,将输入层映射到输出层从而学习到复杂 的非线性函数;微调是在监督的方式下实现的, 它使用反向传播 (BP) 算法从最顶层到最底层对 整个 DBN 网络参数进行微调。 y hl h2 h1 x x1 x2 xd hl−1 ... 输出层 ... ... ... ... ... ... ... ... ... ... ... ... ... ... RBMl RBM2 RBM1 输入层 图 2 DBN 结构 Fig. 2 The structure of DBN ·906· 智 能 系 统 学 报 第 14 卷
第5期 张雄涛,等:一种基于模糊划分和模糊加权的集成深度信念网络 ·907· 尽管DBN具有强大的知识表达能力,但是当 2.2 实现过程 处理大规模数据甚至大数据时,DBN在微调阶段 首先,使用模糊聚类算法FCM对训练数据集 需要花费大量的时间去训练模型,这样导致训练 进行模糊分组。利用FCM算法进行模糊聚类, 时间特别长。 FCM的目标函数为16-1, 2基于模糊划分和模糊加权的DBN -u 分类器集成 针对不同的子空间,从不同的角度来刻画一 st.∑4写=1,j=1,2…,n 个物体各个方面的性质,利用各种不同结构分类 器的组合来形成一个综合的决策。大量的实验和 式中:K是划分数;N是样本数;=(,V,…,vu) 应用证明:将多个分类器的决策结果按照一定的 为第i类的中心点;时表示第j个样本属于第i 规则集成在一起,往往可以得到比其中最优分类 类的隶属度;m是模糊指数,必须满足m≥2,本文 器还要好的性能2151。针对经典的DBN算法时 取为2;x表示第j个样本点。引入拉格朗日因 间复杂度高,容易过拟合,本文将具有多个不同 子构造新的目标函数,推导得到隶属度和聚类中 隐含层结构的DBN分类器进行集成,提出了一种 心的迭代计算公式分别为0: 基于模糊划分和模糊加权的集成DBN,即FE- 1 DBN。提出的FE-DBN性能优于经典的DBN分 4= xi-vilP 1/m-1) (2) 类算法,主要有两个原因:1)在分类之前首先进 行预处理、聚类,能够更好地增强分类精度;2)将 训练集分为多个子集,每个子集用不同结构的 =∑/∑1≤i≤K (3) DBN训练,最后将结果进行模糊加权。根据集成 学习原理,多个弱分类器的组合能够组成一个强 根据式(2)、式(3),当迭代终止后,所获得的 分类器。 隶属矩阵U在去模糊化后便得到空间划分矩阵。 2.1FE-DBN结构图 根据式(2)、式(3),计算宽度为 FE-DBN结构图如图3所示,首先利用模糊 聚类算法FCM,将训练数据集划分为K个子集, 立听k- 每个子集分别采用不同结构的DBN模型进行建 模(每个DBN子模型中每层隐节点数不一样,由 西 此构成了K个DBN模型),各模型独立并行训练, 根据聚类中心和宽度的值,并利用式(4)对训 最后将各模型所得结果进行模糊加权形成最终输 练数据集进行模糊划分: 出。在进行模糊加权时,采用高斯型隶属度函数 进行权值计算。在FE-DBN中,各DBN子模型并行 8={xy心-5y≤x≤U+y 训练,由于各个训练子集的数据规模远远小于原 5=1,2…,qj=1,2,…,K (4) 数据规模,需要较少的隐节点数,因此训练时间 式中:0,为定义的划分子集;q为维数;为重叠 较短。 因子,专越大子集划分也就越模糊。模糊划分示 训练数据 意图如4所示。在对原数据集模糊划分完成后, 再在各个子集上并行训练不同结构的DBN。 利用模糊聚类进行模糊划分 子集1 子集2 子集3 子集K (, 练 训练 局部 (D吲,) 分类 分类 分类 分类 (D,) 模型 模型 模型 模型 DBN DBN DBN () 对分类结果进行模糊加权 图3FE-DBN结构 图4模糊划分示意 Fig.3 The structure of FE-DBN Fig.4 Fuzzy partition
尽管 DBN 具有强大的知识表达能力,但是当 处理大规模数据甚至大数据时,DBN 在微调阶段 需要花费大量的时间去训练模型,这样导致训练 时间特别长。 2 基于模糊划分和模糊加权的 DBN 分类器集成 针对不同的子空间,从不同的角度来刻画一 个物体各个方面的性质,利用各种不同结构分类 器的组合来形成一个综合的决策。大量的实验和 应用证明:将多个分类器的决策结果按照一定的 规则集成在一起,往往可以得到比其中最优分类 器还要好的性能[12-15]。针对经典的 DBN 算法时 间复杂度高,容易过拟合,本文将具有多个不同 隐含层结构的 DBN 分类器进行集成,提出了一种 基于模糊划分和模糊加权的集成 DBN,即 FEDBN。提出的 FE-DBN 性能优于经典的 DBN 分 类算法,主要有两个原因:1) 在分类之前首先进 行预处理、聚类,能够更好地增强分类精度;2) 将 训练集分为多个子集,每个子集用不同结构的 DBN 训练,最后将结果进行模糊加权。根据集成 学习原理,多个弱分类器的组合能够组成一个强 分类器。 2.1 FE-DBN 结构图 FE-DBN 结构图如图 3 所示,首先利用模糊 聚类算法 FCM,将训练数据集划分为 K 个子集, 每个子集分别采用不同结构的 DBN 模型进行建 模 (每个 DBN 子模型中每层隐节点数不一样,由 此构成了 K 个 DBN 模型),各模型独立并行训练, 最后将各模型所得结果进行模糊加权形成最终输 出。在进行模糊加权时,采用高斯型隶属度函数 进行权值计算。在 FE-DBN 中,各 DBN 子模型并行 训练,由于各个训练子集的数据规模远远小于原 数据规模,需要较少的隐节点数,因此训练时间 较短。 … … … … 训练数据 利用模糊聚类进行模糊划分 对分类结果进行模糊加权 子集1 DBN1 DBN2 DBN3 DBNK 训练 局部 分类 模型 训练 局部 分类 模型 训练 局部 分类 模型 训练 局部 分类 模型 子集2 子集3 子集K 图 3 FE-DBN 结构 Fig. 3 The structure of FE-DBN 2.2 实现过程 首先,使用模糊聚类算法 FCM 对训练数据集 进行模糊分组。利用 FCM 算法进行模糊聚类, FCM 的目标函数为[16-19] : min µ,v J = ∑K i=1 ∑N j=1 µ m i j( xj −υi 2 ) s.t. ∑K i=1 µ m i j = 1,∀ j = 1,2,··· ,n υi = ( υi1 , υi2 ,··· , υid ) i µi j j i m ⩾ 2 xj j 式中:K 是划分数;N 是样本数; 为第 类的中心点; 表示第 个样本属于第 类的隶属度;m 是模糊指数,必须满足 ,本文 取为 2; 表示第 个样本点。引入拉格朗日因 子构造新的目标函数,推导得到隶属度和聚类中 心的迭代计算公式分别为[20] : µi j = 1 ∑K k=1 ( ||xj −υi ||2 ||xj −υk ||2 )1/(m−1) (2) υi = ∑N j=1 µ m i jxj/ ∑N j=1 µ m i j,1 ⩽ i ⩽ K (3) 根据式 (2)、式 (3),当迭代终止后,所获得的 隶属矩阵 U 在去模糊化后便得到空间划分矩阵。 根据式 (2)、式 (3),计算宽度为 γ s j = vuuuuuuuuut ∑N i=1 µ m i j · x s i −υ s j 2 ∑N i=1 µ m i j 根据聚类中心和宽度的值,并利用式 (4) 对训 练数据集进行模糊划分: ϑj = { (xi , yi) υ s j −ξ · γ s j ⩽ x s i ⩽ υ s j +ξ · γ s j } s = 1,2,··· ,q; j= 1,2,···,K (4) ϑj ξ ξ 式中: 为定义的划分子集;q 为维数; 为重叠 因子, 越大子集划分也就越模糊。模糊划分示 意图如 4 所示。在对原数据集模糊划分完成后, 再在各个子集上并行训练不同结构的 DBN。 (υ2 1 ,υ2 2 ) (υ3 1 ,υ3 2 ) (υ1 1 ,υ1 2 ) ξ·γk 2 ξ·γk 2 ξ·γk 1 ξ·γk 1 (υk 1 ,υk 2 ) 图 4 模糊划分示意 Fig. 4 Fuzzy partition 第 5 期 张雄涛,等:一种基于模糊划分和模糊加权的集成深度信念网络 ·907·
·908· 智能系统学报 第14卷 在式(1)中最关心的是联合概率分布所确定 结果模糊加权后所得的最终输出。 的边缘概率分布P(O,由于RBM模型层内无连 FE-DBN算法实现过程如下: 接,因此当给定可见单元的状态时,各隐单元的 1)初始化。设定划分子集个数K及重叠因子 激活状态是条件独立的。此时,第个隐单元的 ,各子模型DBN的隐节点数及DBN的迭代周 激活概率为 期,初始化W,b,c的值,学习率ε。 2)划分子集。利用模糊聚类算法FCM求得 Ph=1,0)=σ(c,+ vW) (5) 每簇的中心点和宽度,根据式(4)将源数据集划 1 式中()=1+exp(-) 为sigmoid激活函数。第 分为K个子集。 3)并行训练各子模型DBN'DBNK,对于所有 i个可见单元的激活概率为 的可见单元,利用式(5)计算Ph=1m,,并抽取 Pw=1h,)=b,+∑Wh) (6) h且h∈{0,1)对于所有的隐单元,利用式(6)计算 RBM采用Hinton提出的CD-k(对比散度)算 P(:=1h,,并抽取:且∈{0,1,利用式(7)更 新RBM参数W,b,c的值,即 法进行参数学习,并证明,当使用训练样本初始 W=W+4W,b=b+4b,c=c+4c 化o时,仅需较少的抽样步数(一般=1)就可以 重复3),直到满足迭代周期为止。 得到很好的近似。采用CD-k算法,各参数的更 4)利用式(8)、式(9)计算每个测试数据对各 新准则如下: 个子集的隶属度,将测试数据代入3)所得的K个 Awij =8(dta-recon) 子模型中并输出K个分类结果。利用式(10)进 4b:=e(<>da-eeoa) (7) Acj=s(data-recom) 行集成得到最终输出。 式中:e为预训练的学习率;<>为训练数据集 3实验与分析 所定义的分布之上的数学期望;<>m为重构后 的模型所定义的分布上的期望。利用式(⑦),通过 本文在实验部分将分别利用人工数据和 迭代更新得到DBN各子模型的参数。各子模型 UCI数据对所提的基于模糊划分和模糊加权的集 训练好之后,给定测试数据x,计算得到该数据 成DBN分类算法(FE-DBN)进行验证和评估。并 在每个模型的输出结果,利用三角形隶属度函数 将该算法的性能同深度信念网络(DBN)算法 计算权值: 进行比较。为了验证本文所提出的算法FE-DBN w(x)=w(x)w(x)…w(x) (8) 的有效性,采用的对比算法有局部分类模型DBN 和全局分类模型DBN,其中DBN表示将原数据 w(x)=max min nx-(u-·y2u+·Y)- .0 -(-专y0'(u+y)- 集分为K个子集,在每个子集上构建一个局部深 (9) 度信念网络分类模型。所有的实验结果都采用五 式中:k=1,2,…,K:i=1,2,…,N:s=1,2,…,9o 折交叉,运行10次取均值。 划分好样本空间,每一个分类器在样本子空 3.1实验设置 间进行运算,样本在分类器中具有局部分类性能 3.1.1数据集 最好的,其所对应的权值就越大。 人工数据集生成两种:左螺旋型、右高斯型, 最后,将各DBN分类器所得结果进行模糊加 如图5。两种数据均生成4000个样本,螺旋型 权,即 2类,2维;高斯型4类,2维。构造的螺旋型数据 集正负类样本数各2000,高斯型数据集每类样本 ∑wu(x)LCMDBN(x) (x)= (10) 数1000,高斯型各类的中心分别是:[78]、[15 131,151.2381.协方差均为&真实数 式中:LCMs(x)为样本:在第k个模型的分类 据集全部来自于UC2。数据集详细信息如表1、 结果;LCM为局部分类模型;)为K个模型分类 表2所示
P(v|θ) 在式 (1) 中最关心的是联合概率分布所确定 的边缘概率分布 ,由于 RBM 模型层内无连 接,因此当给定可见单元的状态时,各隐单元的 激活状态是条件独立的。此时,第 j 个隐单元的 激活概率为 P(hj = 1|v,θ) = σ(cj + ∑n i=1 viWi j) (5) σ(x) = 1 1+exp(−x) 式中 为 sigmoid 激活函数。第 i 个可见单元的激活概率为 P(vi = 1|h,θ) = σ(bi + ∑m i=1 Wi jhj) (6) v (0) RBM 采用 Hinton 提出的 CD-k(对比散度) 算 法进行参数学习,并证明,当使用训练样本初始 化 时,仅需较少的抽样步数 (一般 k=1) 就可以 得到很好的近似。采用 CD-k 算法,各参数的更 新准则如下[3] : ∆wi j = ε(data− recon) ∆bi = ε(data− recon) ∆cj = ε(data− recon) (7) ε data recon xi 式中: 为预训练的学习率; 为训练数据集 所定义的分布之上的数学期望; 为重构后 的模型所定义的分布上的期望。利用式 (7),通过 迭代更新得到 DBN 各子模型的参数。各子模型 训练好之后,给定测试数据 ,计算得到该数据 在每个模型的输出结果,利用三角形隶属度函数 计算权值: ωk(xi) = ω 1 k (x 1 i ) ω 2 k (x 2 i ) ··· ω q k (x q i ) (8) ω s k (x s i ) = max{ min( x s i −(υ s k −ξ · γ s k ) υ s k −(υ s k −ξ · γ s k ) , (υ s k +ξ · γ s k )− x s i (υ s k +ξ · γ s k )−υ s k ) ,0 } (9) 式中: k = 1,2,··· ,K;i = 1,2,··· ,N;s = 1,2,··· ,q。 划分好样本空间,每一个分类器在样本子空 间进行运算,样本在分类器中具有局部分类性能 最好的,其所对应的权值就越大。 最后,将各 DBN 分类器所得结果进行模糊加 权,即 yˆ(xi) = ∑K k=1 ωk(xi)LCMk DBN(xi) ∑K k=1 ωk(xi) (10) LCMk DBN(xi) xi yˆ 式中: 为样本 在第 k 个模型的分类 结果;LCM 为局部分类模型; 为 K 个模型分类 结果模糊加权后所得的最终输出。 FE-DBN 算法实现过程如下: ξ ε 1) 初始化。设定划分子集个数 K 及重叠因子 ,各子模型 DBN 的隐节点数及 DBN 的迭代周 期,初始化 W,b,c 的值,学习率 。 2) 划分子集。利用模糊聚类算法 FCM 求得 每簇的中心点和宽度,根据式 (4) 将源数据集划 分为 K 个子集。 P(hj = 1|v,θ) hj hj ∈ {0,1} P(vi = 1|h,θ) vi vi ∈ {0,1} 3) 并行训练各子模型 DBN1 ~DBNK ,对于所有 的可见单元,利用式 (5) 计算 ,并抽取 且 对于所有的隐单元,利用式 (6) 计算 ,并抽取 且 ,利用式 (7) 更 新 RBM 参数 W,b,c 的值,即 W = W +∆W, b = b+∆b, c = c+∆c 重复 3),直到满足迭代周期为止。 4) 利用式 (8)、式 (9) 计算每个测试数据对各 个子集的隶属度,将测试数据代入 3) 所得的 K 个 子模型中并输出 K 个分类结果。利用式 (10) 进 行集成得到最终输出。 3 实验与分析 本文在实验部分将分别利用人工数据 和 UCI 数据对所提的基于模糊划分和模糊加权的集 成 DBN 分类算法 (FE-DBN) 进行验证和评估。并 将该算法的性能同深度信念网络 (DBN)[1-3] 算法 进行比较。为了验证本文所提出的算法 FE-DBN 的有效性,采用的对比算法有局部分类模型 DBNK 和全局分类模型 DBN,其中 DBNK 表示将原数据 集分为 K 个子集,在每个子集上构建一个局部深 度信念网络分类模型。所有的实验结果都采用五 折交叉,运行 10 次取均值。 3.1 实验设置 3.1.1 数据集 [ 4 0 0 4 ] 人工数据集生成两种:左螺旋型、右高斯型, 如图 5。两种数据均生成 4 000 个样本,螺旋型 2 类,2 维;高斯型 4 类,2 维。构造的螺旋型数据 集正负类样本数各 2 000,高斯型数据集每类样本 数 1 000,高斯型各类的中心分别是:[7 8]、[15 13]、[15 5]、[23 8],协方差均为 。真实数 据集全部来自于 UCI[21]。数据集详细信息如表 1、 表 2 所示。 ·908· 智 能 系 统 学 报 第 14 卷
第5期 张雄涛,等:一种基于模糊划分和模糊加权的集成深度信念网络 ·909· 1.0 datal data 0.8 a3 0.6 15 0.4 0.2 -0.2 -0.4 。 -0.6 -0.8 -0.6-0.4-0.200.20.40.60.8 101520253035 (a)螺旋型 (b)高斯型 图5人工数据集 Fig.5 Artificial datasets 表1人工数据集 调。DBN代码参照http:l/www.cs.toronto.edu/ Table 1 Artificial datasets hinton/,RBM迭代周期maxepoch-=20,用于控制 数据集 类别数 特征数 样本数 RBM的预训练迭代次数和模型参数的微调次 Swiss 3 2 4000 数。权重的学习率epsilonw-=0.05;显层偏置的学 Gauss 2 4000 习率epsilonvb=0.05;隐层偏置的学习率epsilon- hb=0.05;权损失系数weightcost-=0.0002;动量学习 表2UCI数据集 率initialmomentum=0.5,finalmomentum=0.9。 Table 2 UCI datasets 本文使用平均测试精度、均方差、运行时间 数据集 类别数特征数 样本数 (训练时间+测试时间)进行算法性能度量。实验 Adult 2 公 48841 环境为intel(R)Core(TM)i33.40 GHz CPU,8GB Magic gamma telescope 2 19020 内存,Windows10操作系统,MATAB2016a。 pendigits o 5 7494 3.2实验结果及分析 Waveform3 3 21 5000 为进一步探索数据集模糊划分个数对提升分 shuttle 8 58000 类精度及算法运行时间的重要性,本文将数据集 划分为不同的子集个数,及采用不同的隐节点数 3.12参数设置及实验运行环境 组合分别进行实验比较。如表3所示,局部分类 实验中采用三层的DBN,用于控制子集的 模型DBN分别有3个子集和4个子集,“28+ 伸缩宽度,在实验中发现,当=3时,能够取得较 22+19”表示DBN中第一层、第二层、第三层的 好的结果,也可根据具体的数据集分布进行微 隐节点数分别为28、22、19。 表3在Swss数据集上的分类精度及运行时间对比 Table 3 Performance in terms of average testing accuracy and running time with their standard deviation on Swiss 算法 子集K 隐节点个数 测试精度 运行时间s 28+22+19 0.5150±0.0215 3.223940.2692 局部分类模型DBN(=3) 30+27+24 0.5213±0.0330 3.9418±0.1653 3 38+32+26 0.5175±0.0359 4.79600.2320 FE-DBN (k=3) 0.5358±0.0175 5.3041±0.3275 DBN (m=4) 40+40+40 0.5356±0.0150 6.6098±0.3106 30+20+10 0.5206±0.0297 2.5105±0.3582 2 23+23+14 0.5197±0.0366 2.6127±0.2113 局部分类模型DBN(=4) 3 25+19+16 0.5222±0.0392 2.6118±0.2551 23+20+17 0.5245±0.0358 2.7791±0.2836 FE-DBN (=4) 0.5450±0.0263 3.9738±0.2275 DBN (m=30) 30+30+30 0.5353±0.0291 4.3542±0.2300
−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1.0 X Y data1 data2 −5 0 5 10 15 20 25 30 35 0 5 10 15 20 X Y data1 data2 data3 data4 (a) 螺旋型 (b) 高斯型 图 5 人工数据集 Fig. 5 Artificial datasets 表 1 人工数据集 Table 1 Artificial datasets 数据集 类别数 特征数 样本数 Swiss 2 2 4 000 Gauss 4 2 4 000 表 2 UCI 数据集 Table 2 UCI datasets 数据集 类别数 特征数 样本数 Adult 2 15 48 841 Magic_gamma_telescope 2 11 19 020 pendigits 10 16 7 494 Waveform3 3 21 5 000 shuttle 7 8 58 000 3.1.2 参数设置及实验运行环境 实验中采用三层的 DBN,ξ 用于控制子集的 伸缩宽度,在实验中发现,当 ξ=3 时,能够取得较 好的结果,也可根据具体的数据集分布进行微 调。DBN 代码参照 http://www.cs.toronto.edu/~ hinton/,RBM 迭代周期 maxepoch=20,用于控制 RBM 的预训练迭代次数和模型参数的微调次 数。权重的学习率 epsilonw=0.05;显层偏置的学 习率 epsilonvb=0.05;隐层偏置的学习率 epsilonhb=0.05;权损失系数 weightcost=0.000 2;动量学习 率 initialmomentum=0.5,finalmomentum=0.9。 本文使用平均测试精度、均方差、运行时间 (训练时间+测试时间) 进行算法性能度量。实验 环境为 intel(R) Core(TM) i3 3.40 GHz CPU,8 GB 内存,Windows10 操作系统,MATAB2016a。 3.2 实验结果及分析 为进一步探索数据集模糊划分个数对提升分 类精度及算法运行时间的重要性,本文将数据集 划分为不同的子集个数,及采用不同的隐节点数 组合分别进行实验比较。如表 3 所示,局部分类 模型 DBNK 分别有 3 个子集和 4 个子集,“28+ 22+19”表示 DBN1 中第一层、第二层、第三层的 隐节点数分别为 28、22、19。 表 3 在 Swiss 数据集上的分类精度及运行时间对比 Table 3 Performance in terms of average testing accuracy and running time with their standard deviation on Swiss 算法 子集K 隐节点个数 测试精度 运行时间/s 局部分类模型DBNK (k=3) 1 28+22+19 0.515 0±0.021 5 3.223 9±0.269 2 2 30+27+24 0.521 3±0.033 0 3.941 8±0.165 3 3 38+32+26 0.517 5±0.035 9 4.796 0±0.232 0 FE-DBN (k=3) — — 0.535 8±0.017 5 5.304 1±0.327 5 DBN (m=4) — 40+40+40 0.535 6±0.015 0 6.609 8±0.310 6 局部分类模型DBNK (k=4) 1 30+20+10 0.520 6±0.029 7 2.510 5±0.358 2 2 23+23+14 0.519 7±0.036 6 2.612 7±0.211 3 3 25+19+16 0.522 2±0.039 2 2.611 8±0.255 1 4 23+20+17 0.524 5±0.035 8 2.779 1±0.283 6 FE-DBN (k=4) — — 0.545 0±0.026 3 3.973 8±0.227 5 DBN (m=30) — 30+30+30 0.535 3±0.029 1 4.354 2±0.230 0 第 5 期 张雄涛,等:一种基于模糊划分和模糊加权的集成深度信念网络 ·909·
·910· 智能系统学报 第14卷 3.2.1人工数据集 区分,精度不高,但是FE-DBN仍有所提升:高斯 该实验部分主要是通过构造模拟数据集来验 型数据集精度,FE-DBN比各局部模型DBN略 证本文提出的FE-DBN算法的有效性。从表3、 高,和全局模型DBN基本持平,因为其精度已经 表4的实验结果可以看出:螺旋线数据集不太好 很高,故很难再有较大的提升。 表4在Gauss数据集上的分类精度及运行时间对比 Table 4 Performance in terms of average testing accuracy and running time with their standard deviation on Gauss 算法 子集K 隐节点个数 测试精度 运行时间s 28+23+18 0.9293±0.0044 2.8236±0.1222 局部分类模型DBN(=3) 2 31+25+20 0.9238±0.0048 2.5189±0.1829 2 25+21+17 0.9350±0.0291 2.2418±0.1575 FE-DBN (=3) 0.9425±0.0203 3.1854±0.2634 DBN (mF=35) 35+35+35 0.9406±0.0031 4.1167±0.3578 20+15+10 0.9212±0.0017 1.7358±0.1673 2 22+16+10 0.9216±0.0015 1.71980.1213 局部分类模型DBN(=4) 24+17+10 0.9190±0.0022 1.7448±0.1920 28+23+18 0.9371±0.0115 2.3424±0.1923 FE-DBN (=4) 0.9488±0.0091 2.8154±0.1661 DBN(=30) 30+30+30 0.9495±0.0083 3.2986±0.1218 3.2.2UCI数据集 数据,又有大规模数据,既有二分类,也有多分 类,3种算法在各UCI数据集上的对比实验结果 本部分实验选的UCI数据集,既有中等规模 如表5~9所示。 表5在Adult数据集上的分类精度及运行时间对比 Table 5 Performance in terms of average testing accuracy and running time with their standard deviation on Adult 算法 子集K 隐节点个数 测试精度 运行时间/s 70+60+50 0.8266±0.0446 80.3680±3.75 局部分类模型DBN(=3) 70+60+60 0.8284±0.0117 90.1700±3.45 3 75+65+55 0.8231±0.0489 89.3182±7.65 FE-DBN (=3) 0.8357±0.0284 95.9012±7.69 DBN(=70) 70+70+70 0.8299±0.0193 105.0505±3.32 65+60+50 0.8208±0.0147 80.5018±5.17 2 60+60+50 0.8222±0.0243 78.6068±5.76 局部分类模型DBN(=4) 60+55+45 0.8197±0.0225 72.5491±4.99 4 60+55+50 0.8207±0.0273 81.4457±4.43 FE-DBN (-4) 0.8417±0.0141 83.6076±3.72 DBN (m=60) 60+60+60 0.8306±0.0012 88.8269±2.75 40+30+20 0.8206±0.0121 36.5629±2.67 2 45+35+25 0.8170±0.0145 41.9579±3.01 局部分类模型DBN(仁5) 50+40+30 0.8150±0.0235 51.7697±5.23 40+30+30 0.8177±0.0023 46.1041±2.40 5 40+40+40 0.8187±0.0020 55.0106±1.66 FE-DBN (=5) 0.8486±0.0141 59.0979±3.28 DBN (m=50) 50+50+50 0.8295±0.0063 73.3464±2.88
3.2.1 人工数据集 该实验部分主要是通过构造模拟数据集来验 证本文提出的 FE-DBN 算法的有效性。从表 3、 表 4 的实验结果可以看出:螺旋线数据集不太好 区分,精度不高,但是 FE-DBN 仍有所提升;高斯 型数据集精度,FE-DBN 比各局部模型 DBNK 略 高,和全局模型 DBN 基本持平,因为其精度已经 很高,故很难再有较大的提升。 表 4 在 Gauss 数据集上的分类精度及运行时间对比 Table 4 Performance in terms of average testing accuracy and running time with their standard deviation on Gauss 算法 子集K 隐节点个数 测试精度 运行时间/s 局部分类模型DBNK (k=3) 1 28+23+18 0.929 3±0.004 4 2.823 6±0.122 2 2 31+25+20 0.923 8±0.004 8 2.518 9±0.182 9 3 25+21+17 0.935 0±0.029 1 2.241 8±0.157 5 FE-DBN (k=3) — — 0.942 5±0.020 3 3.185 4±0.263 4 DBN (m=35) — 35+35+35 0.940 6±0.003 1 4.116 7±0.357 8 局部分类模型DBNK (k=4) 1 20+15+10 0.921 2±0.001 7 1.735 8±0.167 3 2 22+16+10 0.921 6±0.001 5 1.719 8±0.121 3 3 24+17+10 0.919 0±0.002 2 1.744 8±0.192 0 4 28+23+18 0.937 1±0.011 5 2.342 4±0.192 3 FE-DBN (k=4) — — 0.948 8±0.009 1 2.815 4±0.166 1 DBN (m=30) — 30+30+30 0.949 5±0.008 3 3.298 6±0.121 8 3.2.2 UCI 数据集 本部分实验选的 UCI 数据集,既有中等规模 数据,又有大规模数据,既有二分类,也有多分 类,3 种算法在各 UCI 数据集上的对比实验结果 如表 5~9 所示。 表 5 在 Adult 数据集上的分类精度及运行时间对比 Table 5 Performance in terms of average testing accuracy and running time with their standard deviation on Adult 算法 子集K 隐节点个数 测试精度 运行时间/s 局部分类模型DBNK (k=3) 1 70+60+50 0.826 6±0.044 6 80.368 0±3.75 2 70+60+60 0.828 4±0.011 7 90.170 0±3.45 3 75+65+55 0.823 1±0.048 9 89.318 2±7.65 FE-DBN (k=3) — — 0.835 7±0.028 4 95.901 2±7.69 DBN (m=70) — 70+70+70 0.829 9±0.019 3 105.050 5±3.32 局部分类模型DBNK (k=4) 1 65+60+50 0.820 8±0.014 7 80.501 8±5.17 2 60+60+50 0.822 2±0.024 3 78.606 8±5.76 3 60+55+45 0.819 7±0.022 5 72.549 1±4.99 4 60+55+50 0.820 7±0.027 3 81.445 7±4.43 FE-DBN (k=4) — — 0.841 7±0.014 1 83.607 6±3.72 DBN (m=60) — 60+60+60 0.830 6±0.001 2 88.826 9±2.75 局部分类模型DBNK (k=5) 1 40+30+20 0.820 6±0.012 1 36.562 9±2.67 2 45+35+25 0.817 0±0.014 5 41.957 9±3.01 3 50+40+30 0.815 0±0.023 5 51.769 7±5.23 4 40+30+30 0.817 7±0.002 3 46.104 1±2.40 5 40+40+40 0.818 7±0.002 0 55.010 6±1.66 FE-DBN (k=5) — — 0.848 6±0.014 1 59.097 9±3.28 DBN (m=50) — 50+50+50 0.829 5±0.006 3 73.346 4±2.88 ·910· 智 能 系 统 学 报 第 14 卷
第5期 张雄涛,等:一种基于模糊划分和模糊加权的集成深度信念网络 ·911 表6在Magic_.gamma_telescope数据集上的分类精度及运行时间对比 Table 6 Performance in terms of average testing accuracy and running time with their standard deviation on Magic_gamma_telescope 算法 子集K 隐节点个数 测试精度 运行时间s 55+45+45 0.7885±0.0015 28.3411±1.66 局部分类模型DBN(=3) 2 50+50+40 0.7893±0.0028 28.7321±1.35 3 50+45+40 0.7879±0.0020 26.7597±2.37 FE-DBN (k=3) 一 0.8013±0.0139 31.598442.28 DBN (m=60) 60+60+60 0.7910±0.0195 35.9973±2.08 40+30+30 0.7875±0.0015 22.2400±0.92 2 40+30+20 0.7871±0.0019 17.6112±1.18 局部分类模型DBN(K仁4) 45+35+25 0.7884±0.0086 20.6566±2.34 40+40+40 0.7883±0.0082 26.0918±2.52 FE-DBN (=4) 0.8071±0.0094 28.5689+1.70 DBN(m=50) 50+50+50 0.7898±0.0118 30.5896±0.28 30+30+20 0.7825±0.0053 18.7089±0.89 2 30+25+25 0.7853±0.0012 18.24230.74 局部分类模型DBN(I=5) 35+30+30 0.7856±0.0025 21.759010.65 30+25+20 0.7822±0.0062 17.1007±0.53 30+30+30 0.7819±0.0012 21.4170±0.76 FE-DBN (=5) 0.8116±0.0039 23.0908±0.61 DBN(=40) 40+40+40 0.7896±0.0062 25.9525±0.35 表7在pendigits数据集上的分类精度及运行时间对比 Table 7 Performance in terms of average testing accuracy and running time with their standard deviation on pendigits 算法 子集K 隐节点个数 测试精度 运行时间s 65+65+55 0.7450±0.0248 12.1212±0.52 局部分类模型DBN(=3) 2 60+55+50 0.7458±0.0034 10.5034±0.79 60+60+50 0.7498±0.0029 9.7087±0.30 FE-DBN (=3) 0.7592±0.0103 11.5629±0.43 DBN (m=65) 65+65+65 0.7585±0.0078 12.4313±0.85 50+50+45 07357±0.0302 8.833240.29 2 55+55+45 0.7238±0.0534 9.2147±0.86 局部分类模型DBN(=4) 50+45+45 0.7139±0.0434 8.8740±0.89 55+50+45 0.7270±0.0366 8.9541±0.48 FE-DBN (=4) 0.7610±0.0328 9.6484±0.35 DBN(m=55) 55+55+55 0.7565±0.0284 10.3846±0.77
表 6 在 Magic_gamma_telescope 数据集上的分类精度及运行时间对比 Table 6 Performance in terms of average testing accuracy and running time with their standard deviation on Magic_gamma_telescope 算法 子集K 隐节点个数 测试精度 运行时间/s 局部分类模型DBNK (k=3) 1 55+45+45 0.788 5±0.001 5 28.341 1±1.66 2 50+50+40 0.789 3±0.002 8 28.732 1±1.35 3 50+45+40 0.787 9±0.002 0 26.759 7±2.37 FE-DBN (k=3) — — 0.801 3±0.013 9 31.598 4±2.28 DBN (m=60) — 60+60+60 0.791 0±0.019 5 35.997 3±2.08 局部分类模型DBNK (k=4) 1 40+30+30 0.787 5±0.001 5 22.240 0±0.92 2 40+30+20 0.787 1±0.001 9 17.611 2±1.18 3 45+35+25 0.788 4±0.008 6 20.656 6±2.34 4 40+40+40 0.788 3±0.008 2 26.091 8±2.52 FE-DBN (k=4) — — 0.807 1±0.009 4 28.568 9±1.70 DBN (m=50) — 50+50+50 0.789 8±0.011 8 30.589 6±0.28 局部分类模型DBNK (k=5) 1 30+30+20 0.782 5±0.005 3 18.708 9±0.89 2 30+25+25 0.785 3±0.001 2 18.242 3±0.74 3 35+30+30 0.785 6±0.002 5 21.759 0±0.65 4 30+25+20 0.782 2±0.006 2 17.100 7±0.53 5 30+30+30 0.781 9±0.001 2 21.417 0±0.76 FE-DBN (k=5) — — 0.811 6±0.003 9 23.090 8±0.61 DBN (m=40) — 40+40+40 0.789 6±0.006 2 25.952 5±0.35 表 7 在 pendigits 数据集上的分类精度及运行时间对比 Table 7 Performance in terms of average testing accuracy and running time with their standard deviation on pendigits 算法 子集K 隐节点个数 测试精度 运行时间/s 局部分类模型DBNK (k=3) 1 65+65+55 0.745 0±0.024 8 12.121 2±0.52 2 60+55+50 0.745 8±0.003 4 10.503 4±0.79 3 60+60+50 0.749 8±0.002 9 9.708 7±0.30 FE-DBN (k=3) — — 0.759 2±0.010 3 11.562 9±0.43 DBN (m=65) — 65+65+65 0.758 5±0.007 8 12.431 3±0.85 局部分类模型DBNK (k=4) 1 50+50+45 0735 7±0.030 2 8.833 2±0.29 2 55+55+45 0.723 8±0.053 4 9.214 7±0.86 3 50+45+45 0.713 9±0.043 4 8.874 0±0.89 4 55+50+45 0.727 0±0.036 6 8.954 1±0.48 FE-DBN (k=4) — — 0.761 0±0.032 8 9.648 4±0.35 DBN (m=55) — 55+55+55 0.756 5±0.028 4 10.384 6±0.77 第 5 期 张雄涛,等:一种基于模糊划分和模糊加权的集成深度信念网络 ·911·
·912· 智能系统学报 第14卷 表8在WVaveform3数据集上的分类精度及运行时间 Table 8 Performance in terms of average testing accuracy and running time with their standard deviation on Waveform3 算法 子集K 隐节点个数 测试精度 运行时间/s 60+60+50 0.8630±0.0149 8.8516±0.38 局部分类模型DBN(=3) 3 60+50+45 0.8644±0.0098 7.9326±0.88 60+55+45 0.8632±0.0294 7.7241±0.54 FA_RBF(k=3) 0.8710±0.0160 9.0693±0.25 DBN (m=60) 60+60+60 0.8673±0.0313 9.5754±0.30 45+45+40 0.8628±0.0061 6.7459±0.77 50+50+40 0.8632±0.0153 7.2750±0.61 局部分类模型DBN(仁4) 3 45+40+40 0.8608±0.0073 6.5986±0.25 50+45+40 0.8630±0.0151 6.8369±0.40 FE-DBN (=4) 0.8745±0.0302 7.5475±0.49 DBN (m=50) 50+50+50 0.8671±0.0039 7.9257±0.33 表9在shuttle数据集上的分类精度及运行时间 Table 9 Performance in terms of average testing accuracy and running time with their standard deviation on shuttle 算法 子集K 隐节点个数 测试精度 运行时间/s 100+90+80 0.7860±0.0064 103.2949±4.73 局部分类模型DBN(k=3) 100+90+90 0.7983±0.0301 119.1877±8.71 3 95+90+85 0.7836±0.0029 109.0187±3.66 FE-DBN (=3) 0.7993±0.0014 122.5943±4.81 DBN (mF=100) 100+100+100 0.7995±0.0057 130.5960±3.31 85+75+65 0.7784±0.0024 90.7733±3.07 80+70+70 0.7802±0.0024 92.5713±4.31 局部分类模型DBN(仁4) 95+85+75 0.7885±0.0012 102.6283±2.52 80+80+80 0.7825±0.0024 97.7015±3.27 FE-DBN (=4) 0.8146±0.0062 112.0582±2.72 DBN (m=90) 90+90+90 0.7943±0.0446 120.6309±8.54 70+60+50 0.7805±0.0026 64.6568±3.19 75+65+55 0.7822±0.0031 71.0170±2.27 局部分类模型DBN(=5) 3 80+70+60 0.7813±0.0013 83.3058±4.51 60+60+60 0.7796±0.0343 68.8133±2.68 65+65+65 0.7735±0.0129 73.4310±3.08 FE-DBN (-5) 0.8067±0.0069 92.1830±1.95 DBN (m=80) 80+80+80 0.7830±0.0157 103.2895±2.89 从表5~9的实验结果,可以得出如下结论: 集确定的情况下,FE-DBN高于任何一个局部分 1)在测试精度上,和全局分类模型DBN相 类模型DBN。总的来看,FE-DBN算法的分类效 比,FE-DBN在数据集Adult、shuttle和Magic_. 果在三者中为最优。从表5~9中还可以看出,在 gamma_telescope上增长较多,在数据集pendi-- 划分的子集数确定时,具有不同隐节点数组合的 gits和waveform3上有略微上浮。在样本划分子 各局部分类模型DBN分类器的精度并无明显差
表 8 在 Waveform3 数据集上的分类精度及运行时间 Table 8 Performance in terms of average testing accuracy and running time with their standard deviation on Waveform3 算法 子集K 隐节点个数 测试精度 运行时间/s 局部分类模型DBNK (k=3) 1 60+60+50 0.863 0±0.014 9 8.851 6±0.38 2 60+50+45 0.864 4±0.009 8 7.932 6±0.88 3 60+55+45 0.863 2±0.029 4 7.724 1±0.54 FA_RBF (k=3) — — 0.871 0±0.016 0 9.069 3±0.25 DBN (m=60) — 60+60+60 0.867 3±0.031 3 9.575 4±0.30 局部分类模型DBNK (k=4) 1 45+45+40 0.862 8±0.006 1 6.745 9±0.77 2 50+50+40 0.863 2±0.015 3 7.275 0±0.61 3 45+40+40 0.860 8±0.007 3 6.598 6±0.25 4 50+45+40 0.863 0±0.015 1 6.836 9±0.40 FE-DBN (k=4) — — 0.874 5±0.030 2 7.547 5±0.49 DBN (m=50) — 50+50+50 0.867 1±0.003 9 7.925 7±0.33 表 9 在 shuttle 数据集上的分类精度及运行时间 Table 9 Performance in terms of average testing accuracy and running time with their standard deviation on shuttle 算法 子集K 隐节点个数 测试精度 运行时间/s 局部分类模型DBNK (k=3) 1 100+90+80 0.786 0±0.006 4 103.294 9±4.73 2 100+90+90 0.798 3±0.030 1 119.187 7±8.71 3 95+90+85 0.783 6±0.002 9 109.018 7±3.66 FE-DBN (k=3) — — 0.799 3±0.001 4 122.594 3±4.81 DBN (m=100) — 100+100+100 0.799 5±0.005 7 130.596 0±3.31 局部分类模型DBNK (k=4) 1 85+75+65 0.778 4±0.002 4 90.773 3±3.07 2 80+70+70 0.780 2±0.002 4 92.571 3±4.31 3 95+85+75 0.788 5±0.001 2 102.628 3±2.52 4 80+80+80 0.782 5±0.002 4 97.701 5±3.27 FE-DBN (k=4) — — 0.814 6±0.006 2 112.058 2±2.72 DBN (m=90) — 90+90+90 0.794 3±0.044 6 120.630 9±8.54 局部分类模型DBNK (k=5) 1 70+60+50 0.780 5±0.002 6 64.656 8±3.19 2 75+65+55 0.782 2±0.003 1 71.017 0±2.27 3 80+70+60 0.781 3±0.001 3 83.305 8±4.51 4 60+60+60 0.779 6±0.034 3 68.813 3±2.68 5 65+65+65 0.773 5±0.012 9 73.431 0±3.08 FE-DBN (k=5) — — 0.806 7±0.006 9 92.183 0±1.95 DBN (m=80) — 80+80+80 0.783 0±0.015 7 103.289 5±2.89 从表 5~9 的实验结果,可以得出如下结论: 1) 在测试精度上,和全局分类模型 DBN 相 比 ,FE-DBN 在数据集 Adult、shuttle 和 Magic_ gamma_telescope 上增长较多,在数据集 pendigits 和 waveform3 上有略微上浮。在样本划分子 集确定的情况下,FE-DBN 高于任何一个局部分 类模型 DBNK。总的来看,FE-DBN 算法的分类效 果在三者中为最优。从表 5~9 中还可以看出,在 划分的子集数确定时,具有不同隐节点数组合的 各局部分类模型 DBNK 分类器的精度并无明显差 ·912· 智 能 系 统 学 报 第 14 卷
第5期 张雄涛,等:一种基于模糊划分和模糊加权的集成深度信念网络 ·913· 异。随着划分子集数的增加,FE-DBN的精度在 [3]HINTON G E,OSINDERO S,TEH Y W.A fast learning 不同数据集上基本均有增长的趋势。其主要原因 algorithm for deep belief nets[J].Neural computation, 在于,根据集成原理4,22-2对于集成FE-DBN分 2006,18(7):1527-1544 类模型,增加各子模型的多样性,能够提高集成 [4]DESJARDINS G.COURVILLE A.BENGIO Y.Adaptive 分类器的性能。 parallel tempering for stochastic maximum likelihood 2)和全局模型DBN相比较,FE-DBN中每个 learning of RBMs[C]//Proceedings of NIPS 2010 Work- 局部分类模型需要较少的隐节点数,就可以达到 shop on Deep Learning and Unsupervised Feature Learn- 较高的精度,这主要是因为组成FE-DBN的每个 ing.Granada,Spain,2010. [5]LEE S,CHANG J H.Deep belief networks ensemble for 局部分类器都是弱分类器。 blood pressure estimation[J].IEEE access,2017,5: 3)对于所有数据集,在运行时间上,当划分 9962-9972. 子集数逐渐增多时,由于每个子集的样本数在减 [6]QIU Xueheng,ZHANG Le,REN Ye,et al.Ensemble deep 少,隐节点数也在减少,运行时间相应也会减 learning for regression and time series forecasting[C]//Pro- 少。由于要进行模糊划分和模糊集成,FE-DBN ceedings of 2014 IEEE Symposium on Computational In- 的运行时间比各局部分类模型DBN要多,但是 telligence in Ensemble Learning.Orlando,USA,2014: FE-DBN的运行时间要小于全局模型DBN的运 1-6 行时间,因为在FE-DBN中各局部分类模型是并 [7]ZHANG Chong,LIM P,QIN A K,et al.Multiobjective 行运行的,且每个子模型的隐节点数均小于全局 deep belief networks ensemble for remaining useful life es- 模型DBN的隐节点数。 timation in prognostics[J].IEEE transactions on neural net- 无论是模拟数据集还是UCI数据集,基于模 works and learning systems,2017,28(10):2306-2318. 糊划分和模糊加权的DBN集成分类器(FE- [8]MOHAMED A R,YU Dong,DENG Li.Investigation of DBN)比单分类器(DBN)的性能好,比最优的局 full-sequence training of deep belief networks for speech 部分类模型DBN也要高。由表3~9中结果,根 recognition[C]//Proceedings of Interspeech 2010.Chiba, Japan,2010:2846-2849 据统计分析得出,样本划分粒度越细,分类精度 [9]AU W H,CHAN K CC,WONG A K C.A fuzzy ap- 会越高,表明细划分能得到更多的样本特征信 proach to partitioning continuous attributes for classifica- 息。但也不是子集划分得越多,精度就越高,数 tion[J].IEEE transactions on knowledge and data engineer- 据集shuttle在划分子集数为4时取得最大值。 ing,2006,18(5):715-719 4结束语 [10]CHUANG CC.Fuzzy weighted support vector regres- sion with a fuzzy partition[J].IEEE transactions on sys- 采用集成的方法解决DBN训练时间复杂度 tems,man,and cybernetics,part B,2007,37(3):630-640. 高的问题。根据数据之间的相似性信息对数据进 [11]RATHORE P,BEZDEK J C.ERFANI S M,et al.En- 行模糊分组,构造样本空间子集,然后在各样本 semble fuzzy clustering using cumulative aggregation on 空间子集中训练具有不同结构的DBN子分类器, random projections[J].IEEE transactions on fuzzy sys- 最后使用模糊加权的方法,得到最终的集成分类 tems,2018,26(3):1510-1524 [12]YU Zhiwen,ZHANG Yidong.CHEN C L P,et al.Mul- 器和分类结果。人工数据集和UCI数据集上的 tiobjective semisupervised classifier ensemble[J].IEEE 实验结果显示,FE-DBN算法可以得到比其他分 transactions on cybernetics,2019,49(6):2280-2293. 类算法更好的分类结果。未来的研究工作将主要 [13]ZHOU Ta,ZHANG Zhifeng,WANG Sifan,et al.Stacked 集中在如何确定样本空间子集上。 unitwise fast combination classification for single hidden 参考文献: layer neural networks using extreme learning machine on EEG signals[J].Journal of medical imaging and health in- [1]HINTON G E.SALAKHUTDINOV RR.Reducing the di- formatics,.2018,8(7):1491-1495. mensionality of data with neural networks[J].Science. [14]KUNCHEVA L I,WHITAKER C J.Measures of di- 2006,313(5786):504-507 versity in classifier ensembles and their relationship with [2]HINTON G E.A practical guide to training restricted the ensemble accuracy[J].Machine learning,2003,51(2): boltzmann machines[M]//MONTAVON G,ORR G B. 181-207. MULLER K R.Neural Networks:Tricks of the Trade.Ber- [15]KITTLER J,HATEF M,DUIN R P W,et al.On combin- lin,Heidelberg:Springer,2012:599-619. ing classifiers[J].IEEE transactions on pattern analysis
异。随着划分子集数的增加,FE-DBN 的精度在 不同数据集上基本均有增长的趋势。其主要原因 在于,根据集成原理[14,22−23] ,对于集成 FE-DBN 分 类模型,增加各子模型的多样性,能够提高集成 分类器的性能。 2) 和全局模型 DBN 相比较,FE-DBN 中每个 局部分类模型需要较少的隐节点数,就可以达到 较高的精度,这主要是因为组成 FE-DBN 的每个 局部分类器都是弱分类器。 3) 对于所有数据集,在运行时间上,当划分 子集数逐渐增多时,由于每个子集的样本数在减 少,隐节点数也在减少,运行时间相应也会减 少。由于要进行模糊划分和模糊集成,FE-DBN 的运行时间比各局部分类模型 DBNK 要多,但是 FE-DBN 的运行时间要小于全局模型 DBN 的运 行时间,因为在 FE-DBN 中各局部分类模型是并 行运行的,且每个子模型的隐节点数均小于全局 模型 DBN 的隐节点数。 无论是模拟数据集还是 UCI 数据集,基于模 糊划分和模糊加权 的 D BN 集成分类 器 (FEDBN) 比单分类器 (DBN) 的性能好,比最优的局 部分类模型 DBNK 也要高。由表 3~9 中结果,根 据统计分析得出,样本划分粒度越细,分类精度 会越高,表明细划分能得到更多的样本特征信 息。但也不是子集划分得越多,精度就越高,数 据集 shuttle 在划分子集数为 4 时取得最大值。 4 结束语 采用集成的方法解决 DBN 训练时间复杂度 高的问题。根据数据之间的相似性信息对数据进 行模糊分组,构造样本空间子集,然后在各样本 空间子集中训练具有不同结构的 DBN 子分类器, 最后使用模糊加权的方法,得到最终的集成分类 器和分类结果。人工数据集和 UCI 数据集上的 实验结果显示,FE-DBN 算法可以得到比其他分 类算法更好的分类结果。未来的研究工作将主要 集中在如何确定样本空间子集上。 参考文献: HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. [1] HINTON G E. A practical guide to training restricted boltzmann machines[M]//MONTAVON G, ORR G B, MÜLLER K R. Neural Networks: Tricks of the Trade. Berlin, Heidelberg: Springer, 2012: 599−619. [2] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527–1544. [3] DESJARDINS G, COURVILLE A, BENGIO Y. Adaptive parallel tempering for stochastic maximum likelihood learning of RBMs[C]//Proceedings of NIPS 2010 Workshop on Deep Learning and Unsupervised Feature Learning. Granada, Spain, 2010. [4] LEE S, CHANG J H. Deep belief networks ensemble for blood pressure estimation[J]. IEEE access, 2017, 5: 9962–9972. [5] QIU Xueheng, ZHANG Le, REN Ye, et al. Ensemble deep learning for regression and time series forecasting[C]//Proceedings of 2014 IEEE Symposium on Computational Intelligence in Ensemble Learning. Orlando, USA, 2014: 1−6. [6] ZHANG Chong, LIM P, QIN A K, et al. Multiobjective deep belief networks ensemble for remaining useful life estimation in prognostics[J]. IEEE transactions on neural networks and learning systems, 2017, 28(10): 2306–2318. [7] MOHAMED A R, YU Dong, DENG Li. Investigation of full-sequence training of deep belief networks for speech recognition[C]//Proceedings of Interspeech 2010. Chiba, Japan, 2010: 2846−2849. [8] AU W H, CHAN K C C, WONG A K C. A fuzzy approach to partitioning continuous attributes for classification[J]. IEEE transactions on knowledge and data engineering, 2006, 18(5): 715–719. [9] CHUANG C C. Fuzzy weighted support vector regression with a fuzzy partition[J]. IEEE transactions on systems, man, and cybernetics, part B, 2007, 37(3): 630–640. [10] RATHORE P, BEZDEK J C, ERFANI S M, et al. Ensemble fuzzy clustering using cumulative aggregation on random projections[J]. IEEE transactions on fuzzy systems, 2018, 26(3): 1510–1524. [11] YU Zhiwen, ZHANG Yidong, CHEN C L P, et al. Multiobjective semisupervised classifier ensemble[J]. IEEE transactions on cybernetics, 2019, 49(6): 2280–2293. [12] ZHOU Ta, ZHANG Zhifeng, WANG Sifan, et al. Stacked unitwise fast combination classification for single hidden layer neural networks using extreme learning machine on EEG signals[J]. Journal of medical imaging and health informatics, 2018, 8(7): 1491–1495. [13] KUNCHEVA L I, WHITAKER C J. Measures of diversity in classifier ensembles and their relationship with the ensemble accuracy[J]. Machine learning, 2003, 51(2): 181–207. [14] KITTLER J, HATEF M, DUIN R P W, et al. On combining classifiers[J]. IEEE transactions on pattern analysis [15] 第 5 期 张雄涛,等:一种基于模糊划分和模糊加权的集成深度信念网络 ·913·
·914· 智能系统学报 第14卷 and machine intelligence,1998,20(3):226-239 labeled data using three classifiers[J].IEEE transactions [16]蒋亦樟,朱丽,刘丽,等.多视角模糊双加权可能性聚类 on knowledge and data engineering,2005,17(11): 算法).智能系统学报,2017,12(6):806-815. 1529-1541 JIANG Yizhang,ZHU Li,LIU Li,et al.Multi-view fuzzy [23]WANG Shuo,YAO Xin.Relationships between diversity double-weighting possibility clustering algorithm[J]. of classification ensembles and single-class performance CAAI transactions on intelligent systems,2017,12(6): measures[J].IEEE transactions on knowledge and data 806-815. [17]LIU Jiefang,CHUNG F L,WANG Shitong.Black hole engineering,2013,25(1):206-219 entropic fuzzy clustering[J].IEEE transactions on sys- 作者简介: tems,man,and cybernetics:systems,2018,48(9): 张雄涛,男,1984年生,博士研究 1622-1636. 生,主要研究方向为模式识别、模糊 [18]ZHU Lin,CHUNG FL,WANG Shitong.Generalized 系统。 fuzzy c-means clustering algorithm with improved fuzzy partitions[J].IEEE transactions on systems,man,and cy- bernetics,part b,2009,39(3):578-591. [19)]张远鹏,邓赵红,钟富礼,等.基于代表点评分策略的快 速自适应聚类算法).计算机研究与发展,2018,55(1): 胡文军,男,1977年生,教授,主 163-178 要研究方向为模式识别、人工智能。 ZHANG Yuanpeng,DENG Zhaohong,ZHONG Fuli,et al.Fast self-adaptive clustering algorithm based on exem- plar score strategy[J].Journal of computer research and development,2018,55(1):163-178. [20]DENG Zhaohong,JIANG Yizhang,CHUNG F L,et al. Transfer prototype-based fuzzy clustering[J].IEEE trans- 王士同,男,1964年生.教授,主 要研究方向为人工智能、数据挖掘、模 actions on fuzzy systems,2016,24(5):1210-1232 糊系统。 [21]ASUNCION A,NEWMAN D J.UCI machine learning repository[EB/0L].(2009-10-16)[2019-05-10] http://archive.ics.uci.edu/ml [22]ZHOU Zhihua,LI Ming.Tri-training:exploiting un-
and machine intelligence, 1998, 20(3): 226–239. 蒋亦樟, 朱丽, 刘丽, 等. 多视角模糊双加权可能性聚类 算法 [J]. 智能系统学报, 2017, 12(6): 806–815. JIANG Yizhang, ZHU Li, LIU Li, et al. Multi-view fuzzy double-weighting possibility clustering algorithm[J]. CAAI transactions on intelligent systems, 2017, 12(6): 806–815. [16] LIU Jiefang, CHUNG F L, WANG Shitong. Black hole entropic fuzzy clustering[J]. IEEE transactions on systems, man, and cybernetics: systems, 2018, 48(9): 1622–1636. [17] ZHU Lin, CHUNG F L, WANG Shitong. Generalized fuzzy c-means clustering algorithm with improved fuzzy partitions[J]. IEEE transactions on systems, man, and cybernetics, part b, 2009, 39(3): 578–591. [18] 张远鹏, 邓赵红, 钟富礼, 等. 基于代表点评分策略的快 速自适应聚类算法 [J]. 计算机研究与发展, 2018, 55(1): 163–178. ZHANG Yuanpeng, DENG Zhaohong, ZHONG Fuli, et al. Fast self-adaptive clustering algorithm based on exemplar score strategy[J]. Journal of computer research and development, 2018, 55(1): 163–178. [19] DENG Zhaohong, JIANG Yizhang, CHUNG F L, et al. Transfer prototype-based fuzzy clustering[J]. IEEE transactions on fuzzy systems, 2016, 24(5): 1210–1232. [20] ASUNCION A, NEWMAN D J. UCI machine learning repository[EB/OL]. (2009-10-16)[2019-05-10] http://archive.ics.uci.edu/ml. [21] [22] ZHOU Zhihua, LI Ming. Tri-training: exploiting unlabeled data using three classifiers[J]. IEEE transactions on knowledge and data engineering, 2005, 17(11): 1529–1541. WANG Shuo, YAO Xin. Relationships between diversity of classification ensembles and single-class performance measures[J]. IEEE transactions on knowledge and data engineering, 2013, 25(1): 206–219. [23] 作者简介: 张雄涛,男,1984 年生,博士研究 生,主要研究方向为模式识别、模糊 系统。 胡文军,男,1977 年生,教授,主 要研究方向为模式识别、人工智能。 王士同,男,1964 年生,教授,主 要研究方向为人工智能、数据挖掘、模 糊系统。 ·914· 智 能 系 统 学 报 第 14 卷