【人工智能基础】基于最大间隔理论的组合距离学习算法编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：899.05KB

第10卷第6期智能系统学报 Vol.10 No.6 2015年12月 CAAI Transactions on Intelligent Systems Dee.2015 D0L:10.11992/is.201504027 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.tp.20151111.1633.006.html 基于最大间隔理论的组合距离学习算法郭瑛洁，王士同，许小龙 (江南大学数字媒体学院，江苏无锡214000) 摘要：从已知数据集中学习距离度量在许多机器学习应用中都起着重要作用。传统的距离学习方法通常假定目标距离函数为马氏距离的形式，这使得学习出的距离度量在应用上具有局限性。提出了一种新的距离学习方法，将目标距离函数表示为若干候选距离的线性组合，依据最大间隔理论利用数据集的边信息学习得到组合距离中各距离分量的权值，从而得到新的距离度量。通过该距离度量在模糊C均值聚类算法中的表现来对其进行评价。在UCI 数据集上，与其他已有的距离学习算法的对比实验结果证明了该文算法的有效性。关键词：距离学习：组合距离：最大间隔：F℃M:模糊聚类；聚类算法；距离：学习算法中图分类号：TP181文献标志码：A文章编号：1673-4785(2015)06-0843-08 中文引用格式：郭瑛洁，王士同，许小龙.基于最大间隔理论的组合距离学习算法[J].智能系统学报，2015,10(6)：843-850. 英文引用格式：GUO Yingjie,WANG Shitong,XU Xiaolong.Learning a linear combination of distances based on the maximum: margin theory[J].CAAI Transactions on Intelligent Systems,2015,10(6):843-850. Learning a linear combination of distances based on the maximum-margin theory GUO Yingjie,WANG Shitong,XU Xiaolong (School of Digital Media,Jiangnan University,Wuxi 214000,China) Abstract:Learning a distance metric from given training samples is a crucial aspect of many machine learning tasks. Conventional distance metric learning approaches often assume the target distance function to be represented in the form of Mahalanobis distance,and the metric has limitations for this application.This paper proposes a new metric learning approach in which the target distance function is represented as a linear combination of several candidate distance metrics.This method obtains a new distance metric by learning weights from side information according to the maximum-margin theory.The new distance function is applied to fuzzy C-means clustering for evaluation.The experiments were performed using UCI data,and a comparison of the results with those of other approaches reveals the advantages of the proposed technique. Keywords:metric learning;hybrid distance metric;maximum-margin theory;fuzzy C-means;fuzzy clustering; clustering algorithm;metric;learning algorithm 如何表示2点之间的距离是模式识别中的基础特征空间中超球结构的数据集，对于超立方体结构、问题。一个好的距离度量能够根据数据的结构与分超椭球结构的数据集效果不太理想四。除了欧氏布适用于不同的应用。欧氏距离是众多数据挖掘应距离，余弦距离是另一个应用广泛的距离度量。尽用中使用最多的距离度量，但是欧氏距离仅适用于管余弦距离在文本检索中有优秀的表现，但是其预先假设了数据集每一维度都是等权重的[☒】，这一特收稿日期：2015-04-19.网络出版日期：2015-11-11. 性显然限制了余弦距离的应用范围。因此，欧式距基金项目：国家自然科学基金资助项目(61272210)：江苏省自然科学基金资助项目(BK2011417,BK2011003). 离和余弦距离在实际应用中都不是最理想的选择。通信作者：郭瑛洁.E-mail:ying_dm@163.com. 从训练样本中学习出合适的距离度量是近年来

第１０卷第６期智能系统学报Ｖｏｌ．１０ №．６２０１５年１２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＤｅｃ．２０１５ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０４０２７网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１５１１１１．１６３３．００６．ｈｔｍｌ基于最大间隔理论的组合距离学习算法郭瑛洁，王士同，许小龙（江南大学数字媒体学院，江苏无锡２１４０００）摘要：从已知数据集中学习距离度量在许多机器学习应用中都起着重要作用。传统的距离学习方法通常假定目标距离函数为马氏距离的形式，这使得学习出的距离度量在应用上具有局限性。提出了一种新的距离学习方法，将目标距离函数表示为若干候选距离的线性组合，依据最大间隔理论利用数据集的边信息学习得到组合距离中各距离分量的权值，从而得到新的距离度量。通过该距离度量在模糊Ｃ均值聚类算法中的表现来对其进行评价。在ＵＣＩ数据集上，与其他已有的距离学习算法的对比实验结果证明了该文算法的有效性。关键词：距离学习；组合距离；最大间隔；ＦＣＭ；模糊聚类；聚类算法；距离；学习算法中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０６⁃０８４３⁃０８中文引用格式：郭瑛洁，王士同，许小龙．基于最大间隔理论的组合距离学习算法［Ｊ］．智能系统学报，２０１５，１０（６）：８４３⁃８５０．英文引用格式：ＧＵＯＹｉｎｇｊｉｅ，ＷＡＮＧＳｈｉｔｏｎｇ，ＸＵＸｉａｏｌｏｎｇ．Ｌｅａｒｎｉｎｇａｌｉｎｅａｒｃｏｍｂｉｎａｔｉｏｎｏｆｄｉｓｔａｎｃｅｓｂａｓｅｄｏｎｔｈｅｍａｘｉｍｕｍ⁃ ｍａｒｇｉｎｔｈｅｏｒｙ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（６）：８４３⁃８５０．Ｌｅａｒｎｉｎｇａｌｉｎｅａｒｃｏｍｂｉｎａｔｉｏｎｏｆｄｉｓｔａｎｃｅｓｂａｓｅｄｏｎｔｈｅｍａｘｉｍｕｍ⁃ｍａｒｇｉｎｔｈｅｏｒｙＧＵＯＹｉｎｇｊｉｅ，ＷＡＮＧＳｈｉｔｏｎｇ，ＸＵＸｉａｏｌｏｎｇ（ＳｃｈｏｏｌｏｆＤｉｇｉｔａｌＭｅｄｉａ，ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｘｉ２１４０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｌｅａｒｎｉｎｇａｄｉｓｔａｎｃｅｍｅｔｒｉｃｆｒｏｍｇｉｖｅｎｔｒａｉｎｉｎｇｓａｍｐｌｅｓｉｓａｃｒｕｃｉａｌａｓｐｅｃｔｏｆｍａｎｙｍａｃｈｉｎｅｌｅａｒｎｉｎｇｔａｓｋｓ．ＣｏｎｖｅｎｔｉｏｎａｌｄｉｓｔａｎｃｅｍｅｔｒｉｃｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｅｓｏｆｔｅｎａｓｓｕｍｅｔｈｅｔａｒｇｅｔｄｉｓｔａｎｃｅｆｕｎｃｔｉｏｎｔｏｂｅｒｅｐｒｅｓｅｎｔｅｄｉｎｔｈｅｆｏｒｍｏｆＭａｈａｌａｎｏｂｉｓｄｉｓｔａｎｃｅ，ａｎｄｔｈｅｍｅｔｒｉｃｈａｓｌｉｍｉｔａｔｉｏｎｓｆｏｒｔｈｉｓａｐｐｌｉｃａｔｉｏｎ．Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｅｗｍｅｔｒｉｃｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｉｎｗｈｉｃｈｔｈｅｔａｒｇｅｔｄｉｓｔａｎｃｅｆｕｎｃｔｉｏｎｉｓｒｅｐｒｅｓｅｎｔｅｄａｓａｌｉｎｅａｒｃｏｍｂｉｎａｔｉｏｎｏｆｓｅｖｅｒａｌｃａｎｄｉｄａｔｅｄｉｓｔａｎｃｅｍｅｔｒｉｃｓ．Ｔｈｉｓｍｅｔｈｏｄｏｂｔａｉｎｓａｎｅｗｄｉｓｔａｎｃｅｍｅｔｒｉｃｂｙｌｅａｒｎｉｎｇｗｅｉｇｈｔｓｆｒｏｍｓｉｄｅｉｎｆｏｒｍａｔｉｏｎａｃｃｏｒｄｉｎｇｔｏｔｈｅｍａｘｉｍｕｍ⁃ｍａｒｇｉｎｔｈｅｏｒｙ．ＴｈｅｎｅｗｄｉｓｔａｎｃｅｆｕｎｃｔｉｏｎｉｓａｐｐｌｉｅｄｔｏｆｕｚｚｙＣ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇｆｏｒｅｖａｌｕａｔｉｏｎ．ＴｈｅｅｘｐｅｒｉｍｅｎｔｓｗｅｒｅｐｅｒｆｏｒｍｅｄｕｓｉｎｇＵＣＩｄａｔａ，ａｎｄａｃｏｍｐａｒｉｓｏｎｏｆｔｈｅｒｅｓｕｌｔｓｗｉｔｈｔｈｏｓｅｏｆｏｔｈｅｒａｐｐｒｏａｃｈｅｓｒｅｖｅａｌｓｔｈｅａｄｖａｎｔａｇｅｓｏｆｔｈｅｐｒｏｐｏｓｅｄｔｅｃｈｎｉｑｕｅ．Ｋｅｙｗｏｒｄｓ：ｍｅｔｒｉｃｌｅａｒｎｉｎｇ；ｈｙｂｒｉｄｄｉｓｔａｎｃｅｍｅｔｒｉｃ；ｍａｘｉｍｕｍ⁃ｍａｒｇｉｎｔｈｅｏｒｙ；ｆｕｚｚｙＣ⁃ｍｅａｎｓ；ｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ；ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ；ｍｅｔｒｉｃ；ｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍ收稿日期：２０１５⁃０４⁃１９．网络出版日期：２０１５⁃１１⁃１１．基金项目：国家自然科学基金资助项目（６１２７２２１０）；江苏省自然科学基金资助项目（ＢＫ２０１１４１７，ＢＫ２０１１００３）．通信作者：郭瑛洁．Ｅ⁃ｍａｉｌ：ｙｉｎｇ＿ｄｍ＠１６３．ｃｏｍ．如何表示２点之间的距离是模式识别中的基础问题。一个好的距离度量能够根据数据的结构与分布适用于不同的应用。欧氏距离是众多数据挖掘应用中使用最多的距离度量，但是欧氏距离仅适用于特征空间中超球结构的数据集，对于超立方体结构、超椭球结构的数据集效果不太理想［１］。除了欧氏距离，余弦距离是另一个应用广泛的距离度量。尽管余弦距离在文本检索中有优秀的表现，但是其预先假设了数据集每一维度都是等权重的［２］，这一特性显然限制了余弦距离的应用范围。因此，欧式距离和余弦距离在实际应用中都不是最理想的选择。从训练样本中学习出合适的距离度量是近年来

·844 智能系统学报第10卷的研究热点，它对于提高聚类和分类效果有着重要的影响。一般的距离学习方法都是首先假定一个距 s..0=1. i=1 离函数模型并进行求解，其中大部分的距离函数假 0≤ω：≤1，i=1,2,…,p 定在马氏距离定义的框架之下，即对于2点x、y,使式中：D(x。,x6)表示数据点x。到数据点x。之间的用距离公式d(x,y)=(x-y)A(x-y),其中A为距离，它由p个距离分量组成，d,(x,x6)是其第i 所要学习的距离矩阵。比如文献[3]中通过使相似个距离分量，w:是第i个距离分量所对应的权值。样本之间距离减小学习了一个全局距离度量：区分 ω，需要满足各个分量权值均为正且和为1的条件。成分分析(DCA)[4)通过最小化相似样本之间距离在距离分量的选择上，除了经典的欧式距离之的同时最大化不相似样本之间的距离来学习距离矩外，本文选择了若干含有数据维度方差的距离分量阵：近邻成分分析(NCA)[)通过最优化最近邻分类 (如：dxx)=(x。-x)'乙(x-x),其中B 器的精度去学习马氏距离度量：最大边界近邻分类 Bo 方法(LMNN)[在NCA的框架下拓展了最大边界为常数，I为单位矩阵，σ为数据点之间的标准差) 的目标，但是学习的目标仍然是得到一个马氏距离。以保留数据各特征分量上的特征。但是这些距离均当马氏距离中的矩阵A取单位矩阵I时，则马氏距为马氏距离定义框架下的距离度量，对其进行线性离表示欧氏距离。因此，本质上来说，以马氏距离为组合后，得到的距离函数仍为马氏距离形式。因此目标学习得到的新距离是欧式距离的线性变换，其根据Wu等提出的新距离8】，本文给出了若干形如无法准确地度量所有样本之间的距离。 d(x。,x。)=1-exp(-B‖x.-x‖2)的距离分量有别于传统的距离学习方法，本文提出的距离进行组合，其中B为常数，这些距离均为非线性的距学习方法并没有将学习目标单纯设定为马氏距离，离度量，通过组合可以形成非线性的距离函数以克而是学习由若干候选距离线性组合而成的新距离。服马氏距离的缺点。基于最大间隔理论建立目标函数，利用数据的边信 2基于最大间隔理论的距离学习息通过对目标函数进行优化从而得到组合距离中的权重进而得到新的距离度量。对于候选距离的选择 2.1距离学习方法也不仅仅局限于马氏距离，本文选择了其他形式的本文所提出的距离学习算法将利用数据集的边距离度量进行组合，以扩大距离度量的适用范围。信息进行学习，而边信息通常以成对约束的形式表现。因此，本文以成对约束的集合作为训练集并表 1 组合距离表示示为D={(x,x,y),k=1,2,…,n},其中n为成为了更好地表示数据点之间的距离，在距离函对约束的对数。D中每一对成对约束(x,x,y)都数中引入权重来强化有积极作用的部分，削减冗余是一个包含三个元素的元组，其中x和x是被表示的部分，已经成为一种常用的方法。在之前的方法为d维向量的样本点，y是表示样本点x和x之间中，研究者往往使用特征加权距离的方法)来改进关系的类标。当x和x为同一类的样本点时，y 聚类算法，特征加权距离的计算表达式为为正（如：y=+1);反之，y为负（如：yk=-1)。使用X=(x1,x2,…,xx)来表示D中出现的所有的 0(x,y）= ∑(-y4)2,a>1 训练样本点，其中N表示样本点的个数。 h= 式中：统计学习中常用的经验风险最小化并不能保证 [x1x2… xalT,y [y2·y]T为特征空间R中的任意2点，良好的泛化性能，因此间隔理论[9]就伴随着过拟合的问题研究被提出，并逐渐成为机器学习领域中的仙，为特征权重且满足0，=1。一个重要评价标准。本文依据最大间隔理论并受 h=1 受特征加权距离的启发，引入权值将距离函数 L2-SVM方法[o]和文献[2]的启发，构建目标函数改写为若干候选距离的线性组合，将特征加权改为如式(2)：距离加权，从而强化对某一数据集有更好度量效果 min/= +c +B2-p 的距离分量。 21 k=1 本文通过以下线性组合来表示数据集中的距离 t(∑u,d(xx)-B)≥p- (2) 度量： D(xa,6)= (1) 20=10≤a≤1i=1,2p 三1

的研究热点，它对于提高聚类和分类效果有着重要的影响。一般的距离学习方法都是首先假定一个距离函数模型并进行求解，其中大部分的距离函数假定在马氏距离定义的框架之下，即对于２点ｘ、ｙ，使用距离公式ｄ（ｘ，ｙ）＝（ｘ－ｙ）ＴＡ（ｘ－ｙ），其中Ａ为所要学习的距离矩阵。比如文献［３］中通过使相似样本之间距离减小学习了一个全局距离度量；区分成分分析（ＤＣＡ）［４］通过最小化相似样本之间距离的同时最大化不相似样本之间的距离来学习距离矩阵；近邻成分分析（ＮＣＡ）［５］通过最优化最近邻分类器的精度去学习马氏距离度量；最大边界近邻分类方法（ＬＭＮＮ）［６］在ＮＣＡ的框架下拓展了最大边界的目标，但是学习的目标仍然是得到一个马氏距离。当马氏距离中的矩阵Ａ取单位矩阵Ｉ时，则马氏距离表示欧氏距离。因此，本质上来说，以马氏距离为目标学习得到的新距离是欧式距离的线性变换，其无法准确地度量所有样本之间的距离。有别于传统的距离学习方法，本文提出的距离学习方法并没有将学习目标单纯设定为马氏距离，而是学习由若干候选距离线性组合而成的新距离。基于最大间隔理论建立目标函数，利用数据的边信息通过对目标函数进行优化从而得到组合距离中的权重进而得到新的距离度量。对于候选距离的选择也不仅仅局限于马氏距离，本文选择了其他形式的距离度量进行组合，以扩大距离度量的适用范围。１组合距离表示为了更好地表示数据点之间的距离，在距离函数中引入权重来强化有积极作用的部分，削减冗余的部分，已经成为一种常用的方法。在之前的方法中，研究者往往使用特征加权距离的方法［７］来改进聚类算法，特征加权距离的计算表达式为ｗｄｉｓｔ（ｘ，ｙ）＝ ∑ ｄｈ＝１ ω α ｈ（ｘｈ－ｙｈ）２，α ＞１式中：ｘ＝ｘ１ｘ２ … ｘｄ [ ] Ｔ，ｙ＝ｙ１ｙ２ … ｙ [ ｄ ] Ｔ为特征空间Ｒｄ中的任意２点， ωｈ为特征权重且满足 ∑ ｄｈ＝１ ωｈ＝１。受特征加权距离的启发，引入权值将距离函数改写为若干候选距离的线性组合，将特征加权改为距离加权，从而强化对某一数据集有更好度量效果的距离分量。本文通过以下线性组合来表示数据集中的距离度量：Ｄ（ｘａ，ｘｂ）＝ ∑ ｐｉ＝１ ωｉｄｉ（ｘａ，ｘｂ）（１）ｓ．ｔ．∑ ｐｉ＝１ ωｉ＝１，０ ≤ ωｉ ≤ １，ｉ＝１，２，…，ｐ式中：Ｄ（ｘａ，ｘｂ）表示数据点ｘａ到数据点ｘｂ之间的距离，它由ｐ个距离分量组成，ｄｉ（ｘａ，ｘｂ）是其第ｉ个距离分量， ωｉ是第ｉ个距离分量所对应的权值。 ωｉ需要满足各个分量权值均为正且和为１的条件。在距离分量的选择上，除了经典的欧式距离之外，本文选择了若干含有数据维度方差的距离分量（如：ｄ（ｘａ，ｘｂ）＝（ｘａ－ｘｂ）ＴＩ βσ ２（ｘａ－ｘｂ），其中 β 为常数，Ｉ为单位矩阵， σ 为数据点之间的标准差）以保留数据各特征分量上的特征。但是这些距离均为马氏距离定义框架下的距离度量，对其进行线性组合后，得到的距离函数仍为马氏距离形式。因此，根据Ｗｕ等提出的新距离［８］，本文给出了若干形如ｄ（ｘａ，ｘｂ）＝１－ｅｘｐ（－ β ‖ ｘａ－ｘｂ‖２）的距离分量进行组合，其中 β 为常数，这些距离均为非线性的距离度量，通过组合可以形成非线性的距离函数以克服马氏距离的缺点。２基于最大间隔理论的距离学习２．１距离学习方法本文所提出的距离学习算法将利用数据集的边信息进行学习，而边信息通常以成对约束的形式表现。因此，本文以成对约束的集合作为训练集并表示为Ｄ＝ｘｋａ，ｘｋｂ，ｙｋ { ( ) ，ｋ＝１，２，…，ｎ} ，其中ｎ为成对约束的对数。Ｄ中每一对成对约束ｘｋａ，ｘｋｂ，ｙｋ ( ) 都是一个包含三个元素的元组，其中ｘｋａ和ｘｋｂ是被表示为ｄ维向量的样本点，ｙｋ是表示样本点ｘｋａ和ｘｋｂ之间关系的类标。当ｘｋａ和ｘｋｂ为同一类的样本点时，ｙｋ为正（如：ｙｋ＝＋１）；反之，ｙｋ为负（如：ｙｋ＝－１）。使用Ｘ＝ｘ１，ｘ２，…，ｘＮ ( ) 来表示Ｄ中出现的所有的训练样本点，其中Ｎ表示样本点的个数。统计学习中常用的经验风险最小化并不能保证良好的泛化性能，因此间隔理论［９］就伴随着过拟合的问题研究被提出，并逐渐成为机器学习领域中的一个重要评价标准。本文依据最大间隔理论并受Ｌ２⁃ＳＶＭ方法［１０］和文献［２］的启发，构建目标函数如式（２）：ｍｉｎＪ＝１２ ∑ ｐｉ＝１ ω ２ｉ＋Ｃ∑ ｎｋ＝１ ξ ２ｋ＋ β ２－ θρ ｓ．ｔ．ｙｋ（∑ ｐｉ＝１ ωｉｄｉ（ｘｋａ，ｘｋｂ）－ β） ≥ ρ － ξｋ ∑ ｐｉ＝１ ωｉ＝１，０ ≤ ωｉ ≤ １，ｉ＝１，２，…，ｐ（２） ·８４４· 智能系统学报第１０卷

第6期郭瑛洁，等：基于最大间隔理论的组合距离学习算法 ·845· 式中：d,(x,x)表示第k对成对约束的第i个距离将拉格朗日函数式(5)分别对ω：Bp、专、入求分量，为了便于表示，本文在后续的介绍中将使用符偏导，并令其等于0得到号d来代替d,(x。,x)。此外，y为该约束对的类 aL 标，C为惩罚因子，C值大时对训练错误的惩罚增 =w:- dw, A04A=0 大，0为已知参数，B为阀值，最大间隔为P aL wⅡ =29- ar=0 在优化的过程中最大化p,最小化‖wⅡ2，并使训 aL =-9+∑a4=0 (5) 练误差专.最小化，其中k≥0。 ap =1 本文的目标是通过优化该目标函数求得距离分 aL 量的权值ω：，下面将具体介绍求解ω：的方法。为 a店 =2C吃k-a4=0 了求解上述优化问题，将它作为原始最优化问题，应用拉格朗日对偶性，通过求解对偶问题得到原始问 1 名=0 题的最优解。接下来将介绍具体求解过程。进而得到首先，构建拉格朗日函数如式(3)： (6) k=1 =1 B= (7) 26=1 i=1 -名 =∑a4 (8) (3) k=1 Q: 式中：a=【a,a…a,】T、A均为拉格朗日乘子。 5:-2C (9) 如果此时考虑式(2)中ω：≥0的约束条件，并 (10) 将该条件加入拉格朗日函数，则得到将式(6)代入式(10)得到 L'=L- 名m (11) 将该拉格朗日函数分别对ω：Bp、专：、入求偏 A=-文ad 导，并令其等于0得到进而，将式(11)代入式(6)得到 aL' =w:- dw. 2d4-A-9,=0 k=1 aL' 将式(7)~(10)、(12)代入拉格朗日函数(3) aβ =2B- a=0 中，即得 k=1 aL' =-0+】 (4) ap 4=0 =1 aL' =2C54-ak=0 (名三ad)P- a店 OL' =1- 2(店42ax4)+ a入 2,=0 i= 显然由方程组(4)无法求得ω：，因此本文先暂喜，京ax 时不考虑ω：≥0的约束条件，使用式(3)进行后续即的求解。根据拉格朗日对偶性，原始问题的对偶问题是 (w,B,5,a,)=写 B,5 极大极小问题： max minL(w,B,5,a,入) .8,E 所以，需要先求L(w,B,专，x,入)对于ω、入的极小值

式中：ｄｉ（ｘｋａ，ｘｋｂ）表示第ｋ对成对约束的第ｉ个距离分量，为了便于表示，本文在后续的介绍中将使用符号ｄｉ．ｋ来代替ｄｉ（ｘｋａ，ｘｋｂ）。此外，ｙｋ为该约束对的类标，Ｃ为惩罚因子，Ｃ值大时对训练错误的惩罚增大， θ 为已知参数， β 为阈值，最大间隔为 ρ ‖ω‖ 。在优化的过程中最大化 ρ ，最小化 ‖ω‖２，并使训练误差 ξ ｋ最小化，其中 ξ ｋ ≥ ０。本文的目标是通过优化该目标函数求得距离分量的权值 ωｉ，下面将具体介绍求解 ωｉ的方法。为了求解上述优化问题，将它作为原始最优化问题，应用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解。接下来将介绍具体求解过程。首先，构建拉格朗日函数如式（３）：Ｌ＝１２ ∑ ｐｉ＝１ ω ２ｉ＋Ｃ∑ ｎｋ＝１ ξ ２ｋ＋ β ２－ θρ ＋ ∑ ｎｋ＝１ αｋ ρ － ξｋ－ｙｋ ∑ ｐｉ＝１ ωｉｄｉ，ｋ ( ( － β) ) ＋ λ １－ ∑ ｐｉ＝１ ( ωｉ) （３）式中：α ＝ α１ α２ … αｎ [ ] Ｔ、λ 均为拉格朗日乘子。如果此时考虑式（２）中 ωｉ ≥ ０的约束条件，并将该条件加入拉格朗日函数，则得到Ｌ′ ＝Ｌ－ ∑ ｐｉ＝１ φｉωｉ将该拉格朗日函数分别对 ωｉ、β、ρ、ξ ｋ、λ 求偏导，并令其等于０得到 ∂Ｌ′ ∂ωｉ＝ ωｉ－ ∑ ｎｋ＝１ αｋｙｋｄｉ，ｋ－ λ － φｉ＝０ ∂Ｌ′ ∂β ＝２β － ∑ ｎｋ＝１ αｋｙｋ＝０ ∂Ｌ′ ∂ρ ＝－ θ ＋ ∑ ｎｋ＝１ αｋ＝０ ∂Ｌ′ ∂ξｋ＝２Ｃξｋ－ αｋ＝０ ∂Ｌ′ ∂λ ＝１－ ∑ ｐｉ＝１ ωｉ＝０ ì î í ï ï ï ï ï ï ï ï ï ï ï ï ï ï （４）显然由方程组（４）无法求得 ωｉ，因此本文先暂时不考虑 ωｉ ≥ ０的约束条件，使用式（３）进行后续的求解。根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：ｍａｘ α ｍｉｎ ω，β，ξ Ｌ（ω，β，ξ，α，λ）所以，需要先求Ｌ（ω，β，ξ，α，λ）对于 ω、λ 的极小值。将拉格朗日函数式（５）分别对 ωｉ、β、ρ、ξ ｋ、λ 求偏导，并令其等于０得到 ∂Ｌ ∂ωｉ＝ ωｉ－ ∑ ｎｋ＝１ αｋｙｋｄｉ，ｋ－ λ ＝０ ∂Ｌ ∂β ＝２β － ∑ ｎｋ＝１ αｋｙｋ＝０ ∂Ｌ ∂ρ ＝－ θ ＋ ∑ ｎｋ＝１ αｋ＝０ ∂Ｌ ∂ξｋ＝２Ｃξｋ－ αｋ＝０ ∂Ｌ ∂λ ＝１－ ∑ ｐｉ＝１ ωｉ＝０ ì î í ï ï ï ï ï ï ï ï ï ï ï ï ï ï （５）进而得到 ωｉ＝ ∑ ｎｋ＝１ αｋｙｋｄｉ，ｋ＋ λ （６） β ＝１２ ∑ ｎｋ＝１ αｋｙｋ（７） θ ＝ ∑ ｎｋ＝１ αｋ（８） ξｋ＝ αｋ２Ｃ（９）１－ ∑ ｐｉ＝１ ωｉ＝０（１０）将式（６）代入式（１０）得到 λ ＝１ｐ１－ ∑ ｎｋ＝１ αｋｙ ( ｋｄｉ，ｋ ) （１１）进而，将式（１１）代入式（６）得到 ωｉ＝１ｐ－１ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ αｋｙｋｄｉ，ｋ＋ ∑ ｎｋ＝１ αｋｙｋｄｉ，ｋ（１２）将式（７）～（１０）、（１２）代入拉格朗日函数（３）中，即得Ｌ＝１２ｐ－１ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ αｋｙｋｄｉ，ｋ＋１２ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ αｋｙ ( ｋｄｉ，ｋ ) ２－１２ ∑ ｐｉ＝１ ∑ ｎｑ＝１ αｑｙｑｄｉ，ｑ∑ ｎｒ＝１ αｒｙ ( ｒｄｉ，ｒ) ＋ ∑ ｎｑ＝１ αｑｙｑ∑ ｎｒ＝１ αｒｙｒ即ｍｉｎ ω，β，ξ Ｌ（ω，β，ξ，α，λ）＝１２ｐ－１ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ αｋｙｋｄｉ，ｋ＋１２ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ αｋｙ ( ｋｄｉ，ｋ ) ２－１２ ∑ ｐｉ＝１ ∑ ｎｑ＝１ αｑｙｑｄｉ，ｑ∑ ｎｒ＝１ αｒｙ ( ｒｄｉ，ｒ) ＋第６期郭瑛洁，等：基于最大间隔理论的组合距离学习算法 ·８４５·

·846. 智能系统学报第10卷表示无法使w,取正值的i的集合，2个集合p和p 的大小分别使用lp|和p|来表示。求minL(w,B,专，a,入)对x的极大，即得对偶问题： B,5 至此完成求解距离分量权值ω：的目标，求解集合p和pˉ的算法描述将在下一小节给出。 max 2印p台台最大几何间隔0中的p亦可在求解权值 ω：的过程中求得。与原始SVM类似，目标函数(3) 的分商超平面为名如4。一B)=p.即可得最大 ain=0 函数间隔p=y (∑a,ds一B)。在求得最优解后立4=0 由式(9)可得B的最优解B·= ay进而可得 ak≥0，k=1,2,…,n (13) 将式(13)的目标函数由求极大转换为求极小，最大函数同隔p=名如，d。一B产)。就得到下面与之等价的对偶最优化问题： 2.2算法描述本节将给出求解距离分量权值ω：的具体算法步骤。为了便于表示，将式(14)简化： 0,i E p (15) Ue'I +CV:,i∈p aav-g 式中：含=0 k=1 由式(16)观察可得，若想满足®，为正值，则V: a4≥0，k=1,2,…,n 需要足够大，且当V:越大，ω：为正值的几率就越大。如此，可以通过二次规划的求解方法得到最优因此，求解集合p和p的算法总结如下。解a·=[a1a…a]T,进而代人式(12)得算法1求解集合p和p。到w,的最优解： 1)初始化：P。=☑，P={1,2,…,p,h=0: =-ad+4 pp i=ik=1 2)h=h+1,P=P,+{i计，P%=pP-,-i,其可以明显地观察到，即使成功的优化得到最优中，i=arg maxi{V}; 解，也不能保证w:完全满足式(2)中ω：≥0的约束 3)通过式(14)计算w。并判断其是否大于0。条件，受P℉℃算法[的启发，在之前的基础上对ω，其中，g=arg min,ex{V}。如果w,>0则回到2)，做如下修改：否则设置p*=PP=P-1并终止。下面将介绍学习距离函数中权值ω：的算法，其 0:= 中ω，将采用如下方法初始化：在式(1)中ω：的约束 0,i∈p 条件下，令ω0=ω)=…=ω0，因此有ω0= 1/P。算法2学习距离函数。 (14) 输入：式中： 1)数据矩阵：X∈Rw; p={i:w:=0明 2)成对约束：(xy)其中，y={+1,-1: p={i:ω：>0} 3)参数：C、0: p表示所有使得ω：取正值的i的集合，相对应的p 输出：距离权值：ω；

∑ ｎｑ＝１ αｑｙｑ∑ ｎｒ＝１ αｒｙｒ求ｍｉｎ ω，β，ξ Ｌ（ω，β，ξ，α，λ）对 α 的极大，即得对偶问题：ｍａｘ α １２ｐ－１ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ αｋｙｋｄｉ，ｋ＋１２ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ αｋｙ ( ｋｄｉ，ｋ ) ２－１２ ∑ ｐｉ＝１ ∑ ｎｑ＝１ αｑｙｑｄｉ，ｑ∑ ｎｒ＝１ αｒｙ ( ｒｄｉ，ｒ) ＋ ∑ ｎｑ＝１ αｑｙｑ∑ ｎｒ＝１ αｒｙｒｓ．ｔ．∑ ｎｋ＝１ αｋｙｋ＝０ ∑ ｎｋ＝１ αｋ＝ θ αｋ ≥ ０，ｋ＝１，２，…，ｎ（１３）将式（１３）的目标函数由求极大转换为求极小，就得到下面与之等价的对偶最优化问题：ｍｉｎ α －１２ｐ＋１ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ αｋｙｋｄｉ，ｋ－１２ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ αｋｙ ( ｋｄｉ，ｋ ) ２＋１２ ∑ ｐｉ＝１ ∑ ｎｑ＝１ αｑｙｑｄｉ，ｑ∑ ｎｒ＝１ αｒｙ ( ｒｄｉ，ｒ) － ∑ ｎｑ＝１ αｑｙｑ∑ ｎｒ＝１ αｒｙｒｓ．ｔ．∑ ｎｋ＝１ αｋｙｋ＝０ ∑ ｎｋ＝１ αｋ＝ θ αｋ ≥ ０，ｋ＝１，２，…，ｎ如此，可以通过二次规划的求解方法得到最优解 α ∗ ＝［α ∗ １ α ∗ ２ … α ∗ ｎ］Ｔ，进而代入式（１２）得到 ωｉ的最优解： ω ∗ ｉ＝１ｐ－１ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ α ∗ ｋｙｋｄｉ，ｋ＋ ∑ ｎｋ＝１ α ∗ ｋｙｋｄｉ，ｋ可以明显地观察到，即使成功的优化得到最优解，也不能保证 ωｉ完全满足式（２）中 ωｉ ≥ ０的约束条件，受ＰＦＣ算法［１１］的启发，在之前的基础上对 ωｉ做如下修改： ωｉ＝０，ｉ ∈ ｐ－１ｐ＋－１ｐ＋ ∑ ｊ∈ｐ＋∑ ｎｋ＝１ α ∗ ｋｙｋｄｊ，ｋ＋ ∑ ｎｋ＝１ α ∗ ｋｙｋｄｉ，ｋ，ｉ ∈ ｐ＋ ì î í ï ï ïï （１４）式中：ｐ－＝｛ｉ：ωｉ＝０｝ｐ＋＝｛ｉ：ωｉ＞０｝ｐ＋表示所有使得 ωｉ取正值的ｉ的集合，相对应的ｐ－表示无法使 ωｉ取正值的ｉ的集合，２个集合ｐ＋和ｐ－的大小分别使用ｐ＋和ｐ－来表示。至此完成求解距离分量权值 ωｉ的目标，求解集合ｐ＋和ｐ－的算法描述将在下一小节给出。最大几何间隔 ρ ‖ω‖ 中的 ρ 亦可在求解权值 ωｉ的过程中求得。与原始ＳＶＭ类似，目标函数（３）的分离超平面为ｙｋ（∑ ｐｉ＝１ ωｉｄｉ，ｋ－ β）＝ ρ ，即可得最大函数间隔 ρ ＝ｙｋ（∑ ｐｉ＝１ ωｉｄｉ，ｋ－ β）。在求得最优解后由式（９）可得 β 的最优解 β ∗ ＝１２ ∑ ｎｋ＝１ α ∗ ｋｙｋ进而可得最大函数间隔 ρ ＝ｙｋ（∑ ｐｉ＝１ ωｉ ∗ ｄｉ，ｋ－ β ∗ ）。２．２算法描述本节将给出求解距离分量权值 ωｉ的具体算法步骤。为了便于表示，将式（１４）简化： ωｉ＝０，ｉ ∈ ｐ－１ｐ＋＋ＣＶｉ，ｉ ∈ ｐ＋ ì î í ï ï ïï （１５）式中：Ｖｉ＝－１ｐ＋ ∑ ｊ∈ｐ＋∑ ｎｋ＝１ α ∗ ｋｙｋｄｊ，ｋ＋ ∑ ｎｋ＝１ α ∗ ｋｙｋｄｉ，ｋ（１６）由式（１６）观察可得，若想满足 ωｉ为正值，则Ｖｉ需要足够大，且当Ｖｉ越大， ωｉ为正值的几率就越大。因此，求解集合ｐ＋和ｐ－的算法总结如下。算法１求解集合ｐ＋和ｐ－。１）初始化：ｐ＋０＝ ∅，ｐ－０＝｛１，２，…，ｐ｝，ｈ＝０；２）ｈ＝ｈ＋１，ｐ＋ｈ＝ｐ＋ｈ－１＋｛ｉ｝，ｐ－ｈ＝ｐ－ｈ－１－｛ｉ｝，其中，ｉ＝ａｒｇｍａｘｉ∈ｐ－ｈ－１｛Ｖｉ｝；３）通过式（１４）计算 ωｇ并判断其是否大于０。其中，ｇ＝ａｒｇｍｉｎｉ∈ｐ＋ｈ｛Ｖｉ｝。如果 ωｇ＞０则回到２），否则设置ｐ＋＝ｐ＋ｈ－１，ｐ－＝ｐ－ｈ－１并终止。下面将介绍学习距离函数中权值 ωｉ的算法，其中 ωｉ将采用如下方法初始化：在式（１）中 ωｉ的约束条件下，令 ω （０）１＝ ω （０）２＝ … ＝ ω （０）ｐ，因此有 ω （０）ｉ＝１／ｐ。算法２学习距离函数。输入：１）数据矩阵：Ｘ ∈ Ｒｄ×Ｎ；２）成对约束：ｘｋａ，ｘｋａ，ｙｋ ( ) 其中，ｙｋ＝｛＋１，－１｝；３）参数：Ｃ、θ ；输出：距离权值： ω ； ·８４６· 智能系统学报第１０卷

第6期郭瑛洁，等：基于最大间隔理论的组合距离学习算法 .847. 方法：多类数据集。各个数据集的信息如表1所示。 1)初始化：w=w; 表1实验中使用的数据集信息 2)计算距离矩阵：D(i,k); Table 1 List of data sets 3)计算二次规划参数H和f: 数据集样本数特征数类别数 H= breast 683 10 2 点（店三4dow小-日（含三4）+ sonar 208 60 2 wdbe 569 30 2 1A宫d heart 270 2 2 wine 178 13 3 4)利用二次规划优化算法求解得到最优解：α·= 1473 9 3 [aiag…ar]T; cme thyroid 215 3 5)计算集合p和p:算法1： 6)利用式(15)计算ω。 segment 2310 19 7 在数据集的选择上基于以下考虑：首先，这些数 3实验据集的特征数和类别数都各不相同。另外，这些数为了与传统CM算法之间有可比性，本文将简据集是机器学习研究中被广泛使用的基准数据集，单的以学习得到的距离函数替换传统FCM算法中因而具有代表性。最后，由于数据集均为真实数据的欧式距离。根据传统FCM算法的实现方法，本文集，因此可以检验算法在真实应用中是否可行。将通过以下步骤实现聚类：文中所有实验均在MATLAB平台下进行，所有训练数据集和测试数据集均先归一化至[0,1]内。 1)初始化隶属度矩阵U,使得 ∑4g=1,j= 带有边信息的训练集将通过如下方法产生：首先，随 1,2,…,n,u∈[0,1]。机选取数据集的10%组成一个子集。然后，根据子集中样本点带有的类标是否相同来生成约束对 2)计算聚类中心：c:= (x。,xy)集合。其中，类标相同的成对约束为正约束对，反之为负约束对。将取个数相同的正负约 =1 束对组成训练集。 3)计算价值函数：在组合距离分量的选择上，本文依据第2节的 94 J=) 理论，在实验中选取如下10个距离度量进行组合： d(x,y)=(x-y)1(x-y) 当其相对于上次价值函数值的改变量小于某个阈值时，算法停止。 4）=(x-)rx-y) 4)更新隶属度矩阵： 1 d0x=21s- uj= =1 2/(m-1) d(x,y)=】其中对于样本点x:,它与聚类中心c:之间的距 -31x 离使用如下公式计算： d6(x,y）=1-e2 d,=u,d(x,c） d(x,)=1-e 将上述聚类算法记为基于组合距离(hybrid dis- d(x,）=1-e tance)的FCM聚类算法(HDFCM)。 d,(x,)=1-eg 本节将上述HDCM算法与已有的经典距离学 dio(x,y)=1-e-lx12 习算法进行对比与分析。在使用组合距离进行聚类的算法中，本文将依 3.1实验设置据数据集的类别数给定聚类数目，初始隶属度矩阵本文使用了8个来自UCI机器学习数据库的随机生成。为了保证可比性，实验中所有的对比算真实数据集。其中4个为二类数据集，其余4个为法将使用相同的初始隶属度矩阵，训练集和其他参

方法：１）初始化： ω ＝ ω （０）；２）计算距离矩阵：Ｄ（ｉ，ｋ）；３）计算二次规划参数Ｈ和ｆ：Ｈ＝ ∑ ｐｉ＝１ ∑ ｎｑ＝１∑ ｎｒ＝１ｄｉ，ｑｄｉ，ｒｙｑｙ ( ｒ) －１ｄ ∑ ｐｉ＝１ ∑ ｎｋ＝１ｙ ( ｋｄｉ，ｋ ) ２＋ｙ２ｋｆ＝１ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ｙｋｄｉ，ｋ４）利用二次规划优化算法求解得到最优解： α ∗ ＝［α ∗ １ α ∗ ２ … α ∗ ｎ］Ｔ；５）计算集合ｐ＋和ｐ－：算法１；６）利用式（１５）计算 ω 。３实验为了与传统ＦＣＭ算法之间有可比性，本文将简单的以学习得到的距离函数替换传统ＦＣＭ算法中的欧式距离。根据传统ＦＣＭ算法的实现方法，本文将通过以下步骤实现聚类：１）初始化隶属度矩阵Ｕ，使得 ∑ ｃｉ＝１ｕｉｊ＝１，∀ｊ＝１，２，…，ｎ，ｕｉｊ ∈ [０，１] 。２）计算聚类中心：ｃｉ＝ ∑ Ｎｊ＝１ｕｍｉｊｘｊ ∑ Ｎｊ＝１ｕｍｉｊ。３）计算价值函数：Ｊ＝ ∑ ｃｉ＝１ ∑ Ｎｊ＝１ｕｍｉｊｄ２ｉｊ当其相对于上次价值函数值的改变量小于某个阈值时，算法停止。４）更新隶属度矩阵：ｕｉｊ＝１ ∑ ｃｋ＝１ｄｉｊｄｋｊ æ è ç ö ø ÷ ２／ (ｍ－１ ) 其中对于样本点ｘｊ，它与聚类中心ｃｉ之间的距离使用如下公式计算：ｄｉｊ＝ ∑ ｐｒ＝１ ωｒｄｒ（ｘｊ，ｃｉ）将上述聚类算法记为基于组合距离（ｈｙｂｒｉｄｄｉｓ⁃ ｔａｎｃｅ）的ＦＣＭ聚类算法（ＨＤＦＣＭ）。本节将上述ＨＤＦＣＭ算法与已有的经典距离学习算法进行对比与分析。３．１实验设置本文使用了８个来自ＵＣＩ机器学习数据库的真实数据集。其中４个为二类数据集，其余４个为多类数据集。各个数据集的信息如表１所示。表１实验中使用的数据集信息Ｔａｂｌｅ１Ｌｉｓｔｏｆｄａｔａｓｅｔｓ数据集样本数特征数类别数ｂｒｅａｓｔ６８３１０２ｓｏｎａｒ２０８６０２ｗｄｂｃ５６９３０２ｈｅａｒｔ２７０１２２ｗｉｎｅ１７８１３３ｃｍｃ１４７３９３ｔｈｙｒｏｉｄ２１５５３ｓｅｇｍｅｎｔ２３１０１９７在数据集的选择上基于以下考虑：首先，这些数据集的特征数和类别数都各不相同。另外，这些数据集是机器学习研究中被广泛使用的基准数据集，因而具有代表性。最后，由于数据集均为真实数据集，因此可以检验算法在真实应用中是否可行。文中所有实验均在ＭＡＴＬＡＢ平台下进行，所有训练数据集和测试数据集均先归一化至 [０，１] 内。带有边信息的训练集将通过如下方法产生：首先，随机选取数据集的１０％组成一个子集。然后，根据子集中样本点带有的类标是否相同来生成约束对ｘｋａ，ｘｋｂ，ｙｋ ( ) 集合。其中，类标相同的成对约束为正约束对，反之为负约束对。将取个数相同的正负约束对组成训练集。在组合距离分量的选择上，本文依据第２节的理论，在实验中选取如下１０个距离度量进行组合：ｄ１（ｘ，ｙ）＝（ｘ－ｙ）ＴＩ（ｘ－ｙ）ｄ３（ｘ，ｙ）＝（ｘ－ｙ）Ｔ３Ｉ σ ２（ｘ－ｙ）ｄ４（ｘ，ｙ）＝ ∑ ｄｉ＝１ｘｉ－ｙｉｄ５（ｘ，ｙ）＝ ∑ ｄｉ＝１ｘｉ－ｙｉ σ ２ｄ６（ｘ，ｙ）＝１－ｅ－３‖ｘ－ｙ‖２ σ ２ｄ７（ｘ，ｙ）＝１－ｅ－‖ｘ－ｙ‖２ σ ２ｄ８（ｘ，ｙ）＝１－ｅ－‖ｘ－ｙ‖２３σ ２ｄ９（ｘ，ｙ）＝１－ｅ－‖ｘ－ｙ‖２５σ ２ｄ１０（ｘ，ｙ）＝１－ｅ－‖ｘ－ｙ‖２在使用组合距离进行聚类的算法中，本文将依据数据集的类别数给定聚类数目，初始隶属度矩阵随机生成。为了保证可比性，实验中所有的对比算法将使用相同的初始隶属度矩阵，训练集和其他参第６期郭瑛洁，等：基于最大间隔理论的组合距离学习算法 ·８４７·

·848. 智能系统学报第10卷数(m=2,e=10-5,T=100,C=10-5)。实验将重算法一样应用于FCM聚类算法中以评价。复每个聚类过程20次，实验结果取其均值。 3.3实验结果与分析为了评估聚类效果，采用一种类似F,-measure 对于各个数据集，本文所提出算法与其他算法的成对约束评价方法，评价参数包括：pairwise Preci- 在8个数据集上的实验结果对比如图1所示，其中 sion,pairwise Recall和pairwise F,定义为[ 每一个子图的纵坐标表示了各个算法在相同参数下 #TruePositive 在该数据集上的聚类效果的评价指标均值，横坐标 Precision #TruePositive +#FalsePositive 上的柱形分为3组，每一组分别表示F,、precsion和 #TruePositive Recall = recall。每个颜色代表一个算法，从左至右分别为 #TruePositive #FalseNegative FCM算法[a,C-Euc算法[)，PGDM-Ad算法[)， 2 X Precision×Recall F1= PGDM-Af算法[]和HDFCM算法，数据集名称标注 Precision Recall 在图标题上。表2展示了本文算法相对于传统式中：#TruePositive为将正约束对预测为正约束对 FCM算法聚类效果的提升率，提升率使用如下公式的个数，#FalsePositive为将负约束对预测为正约束计算得到：对的个数，#FalseNegative为将正约束对预测为负 HDFCM_F FCM_F 约束对的个数。由于该评价方法的对象为约束对，提升率= -×100% FCM_F 因此不仅可以应用于二分类的评价，也可应用于多从图1可以看出，本文提出的算法在大部分数类分类的评价。据集上获得了最好的表现。相对于其他距离学习算 3.2对比算法法而言，本文算法在sonar数据集和cmc数据集中本文使用了若干经典距离学习算法进行对比，虽未获得最好的表现，但是结合表2可以发现本文包括：使用欧式距离的传统FCM算法(FCM),使用算法的聚类效果相对于传统CM算法仍有一定的欧氏距离但含有约束条件的K-均值聚类算法(C- 提升。由于本文使用的距离分量有限，因此对于不 Ec)【2),基于凸优化的全局距离学习算法(PG 同的数据集不一定能拟合出最适合于该数据集的距 DM)[3] 离度量。此外，从表2可以观察到，本文算法在与本文提出的算法类似，C-Euc算法也是一种利 breast数据集和wine数据集上有相当卓越的表现。用边信息进行距离学习的半监督聚类算法，它在传统结合图1和表1可以得出，本文算法不仅适用 K-均值算法的基础上加上成对约束，在这些约束的监于2类数据集，对于多类数据集也有较好的聚类效督下进行聚类。C-Euc算法在聚类的过程中要求每果。比如，2类数据集breast,3类数据集wine,7类一次划分都满足已知的约束条件，每个样本在没有违数据集segment在聚类效果上均取得了30%以上的反约束条件的情况下，被划分给最近的类，最终得到提升。的聚类结果将满足所有的约束对信息[]。 1.0 PGDM算法由Xing等提出，是一种基于凸优化 0.8 的全局距离度量学习算法。它将正约束对构成的集合记为S,负约束对构成的集合记为D。通过以下凸优化问题对距离矩阵A进行求解： FCM min∑Ix-x,I C-Euc (xi》eS 0.2 PGDM-Ad GDM-Af st.∑‖x-xI4≥1，A≥0 HDFCM ()eD F precision recall (a)breast 式中：Ⅱ：，‖A=√(x,)A(,x)表示2个 1.0 样本点x,和x之间的距离。根据预期得到的矩阵 0.8 A的不同将有不同的解法。如果期望得到对角形式的距离矩阵，可以通过牛顿法进行求解，本文将此算 0.6 法记为PGDM-Ad。如果期待得到全矩阵形式的距 0.4 IFCM 离矩阵，则可以通过梯度下降和逐次映射的方法进 C-Euc 0.2 PGDM-Ad 行求解，本文将此算法记为PGDM-Af。为了保证对 PGDM-AF HDFCM 比性，在实验中本文将学习得到的距离矩阵和本文 precision recall (b)sonar

数（ｍ＝２，ε ＝１０－５，Ｔ＝１００，Ｃ＝１０－５）。实验将重复每个聚类过程２０次，实验结果取其均值。为了评估聚类效果，采用一种类似Ｆ１ ⁃ｍｅａｓｕｒｅ的成对约束评价方法，评价参数包括：ｐａｉｒｗｉｓｅＰｒｅｃｉ⁃ ｓｉｏｎ，ｐａｉｒｗｉｓｅＲｅｃａｌｌ和ｐａｉｒｗｉｓｅＦ１，定义为［２］Ｐｒｅｃｉｓｉｏｎ＝＃ＴｒｕｅＰｏｓｉｔｉｖｅ＃ＴｒｕｅＰｏｓｉｔｉｖｅ＋＃ＦａｌｓｅＰｏｓｉｔｉｖｅＲｅｃａｌｌ＝＃ＴｒｕｅＰｏｓｉｔｉｖｅ＃ＴｒｕｅＰｏｓｉｔｉｖｅ＋＃ＦａｌｓｅＮｅｇａｔｉｖｅＦ１＝２ × Ｐｒｅｃｉｓｉｏｎ × ＲｅｃａｌｌＰｒｅｃｉｓｉｏｎ＋Ｒｅｃａｌｌ式中：＃ＴｒｕｅＰｏｓｉｔｉｖｅ为将正约束对预测为正约束对的个数，＃ＦａｌｓｅＰｏｓｉｔｉｖｅ为将负约束对预测为正约束对的个数，＃ＦａｌｓｅＮｅｇａｔｉｖｅ为将正约束对预测为负约束对的个数。由于该评价方法的对象为约束对，因此不仅可以应用于二分类的评价，也可应用于多类分类的评价。３．２对比算法本文使用了若干经典距离学习算法进行对比，包括：使用欧式距离的传统ＦＣＭ算法（ＦＣＭ），使用欧氏距离但含有约束条件的Ｋ⁃均值聚类算法（Ｃ⁃ Ｅｕｃ）［１２］，基于凸优化的全局距离学习算法（ＰＧ⁃ ＤＭ）［３］。与本文提出的算法类似，Ｃ⁃Ｅｕｃ算法也是一种利用边信息进行距离学习的半监督聚类算法，它在传统Ｋ⁃均值算法的基础上加上成对约束，在这些约束的监督下进行聚类。Ｃ⁃Ｅｕｃ算法在聚类的过程中要求每一次划分都满足已知的约束条件，每个样本在没有违反约束条件的情况下，被划分给最近的类，最终得到的聚类结果将满足所有的约束对信息［１３］。ＰＧＤＭ算法由Ｘｉｎｇ等提出，是一种基于凸优化的全局距离度量学习算法。它将正约束对构成的集合记为Ｓ，负约束对构成的集合记为Ｄ。通过以下凸优化问题对距离矩阵Ａ进行求解：ｍｉｎＡ（ｘ∑ｉ，ｘｊ）∈Ｓ ‖ ｘｉ－ｘｊ‖２Ａｓ．ｔ．（ｘ∑ｉ，ｘｊ）∈Ｄ ‖ ｘｉ－ｘｊ‖Ａ ≥ １，Ａ ≥ ０式中： ‖ ｘｉ，ｘｊ‖Ａ＝（ｘｉ，ｘｊ）ＴＡ（ｘｉ，ｘｊ）表示２个样本点ｘｉ和ｘｊ之间的距离。根据预期得到的矩阵Ａ的不同将有不同的解法。如果期望得到对角形式的距离矩阵，可以通过牛顿法进行求解，本文将此算法记为ＰＧＤＭ⁃Ａｄ。如果期待得到全矩阵形式的距离矩阵，则可以通过梯度下降和逐次映射的方法进行求解，本文将此算法记为ＰＧＤＭ⁃Ａｆ。为了保证对比性，在实验中本文将学习得到的距离矩阵和本文算法一样应用于ＦＣＭ聚类算法中以评价。３．３实验结果与分析对于各个数据集，本文所提出算法与其他算法在８个数据集上的实验结果对比如图１所示，其中每一个子图的纵坐标表示了各个算法在相同参数下在该数据集上的聚类效果的评价指标均值，横坐标上的柱形分为３组，每一组分别表示Ｆ１、ｐｒｅｃｓｉｏｎ和ｒｅｃａｌｌ。每个颜色代表一个算法，从左至右分别为ＦＣＭ算法［１４］，Ｃ⁃Ｅｕｃ算法［１２］，ＰＧＤＭ⁃Ａｄ算法［３］，ＰＧＤＭ⁃Ａｆ算法［３］和ＨＤＦＣＭ算法，数据集名称标注在图标题上。表２展示了本文算法相对于传统ＦＣＭ算法聚类效果的提升率，提升率使用如下公式计算得到：提升率＝ＨＤＦＣＭ＿Ｆ１－ＦＣＭ＿Ｆ１ＦＣＭ＿Ｆ１ × １００％从图１可以看出，本文提出的算法在大部分数据集上获得了最好的表现。相对于其他距离学习算法而言，本文算法在ｓｏｎａｒ数据集和ｃｍｃ数据集中虽未获得最好的表现，但是结合表２可以发现本文算法的聚类效果相对于传统ＦＣＭ算法仍有一定的提升。由于本文使用的距离分量有限，因此对于不同的数据集不一定能拟合出最适合于该数据集的距离度量。此外，从表２可以观察到，本文算法在ｂｒｅａｓｔ数据集和ｗｉｎｅ数据集上有相当卓越的表现。结合图１和表１可以得出，本文算法不仅适用于２类数据集，对于多类数据集也有较好的聚类效果。比如，２类数据集ｂｒｅａｓｔ，３类数据集ｗｉｎｅ，７类数据集ｓｅｇｍｅｎｔ在聚类效果上均取得了３０％以上的提升。 ·８４８· 智能系统学报第１０卷

第6期郭瑛洁，等：基于最大间隔理论的组合距离学习算法 ·849. 1.0 1.01 0.8 0.8 0.6 敏0.6 0.4 FCM IFCM C-Euc C-Euc 0.2 PGDM-Ad 0.2 PGDM-Ad PGDM-Af PGDM-Af HDFCM HDFCM precision recal precision recall (c)wdbe (f)cme 1.0 1.0 0.8 0.8 0.6 FCM FCM C-Euc C-Euc 02 PGDM-Ad 0 PGDM-Ad PGDM-Af PGDM-Af HDFCM HDFCM precision recal precision recall (d)heart (g)thyroid 1.0 .0 0.8 0.8 0.6 0.6 0. FCM C-Euc .4 FCM PGDM-Ad C-Euc PGDM-Af 0.2 PGDM-Ad HDECM PGDM-Af precision recall HDFCM (h)segment precision recall (e)wine 图1算法对比图 Fig.1 Clustering performance comparison 表2本文算法相对于传统FCM的提升率 Table 2 Upgrade rate of our algorithm 数据集 breast sonar wdbe heart wine cmc thyroid segment 提升率/% 60.16 5.62 10.98 26.28 64.24 5.33 24.71 31.29 4 由于传统FCM算法使用的是欧式距离，且其为结束语无监督聚类算法，因此在应用的过程中不一定适合本文提出了一种基于线性组合的混合距离学习所有类型的数据集。而C-Euc算法虽然引入了数据算法。该算法构建了一个由若干候选距离线性组合集的边信息，但是其使用的距离度量仍然为欧氏距而成的距离目标函数，利用数据集的边信息学习得离，因此在使用的时候也具有局限性。PGDM在引到各候选距离对应权值，从而得到新的距离函数。入了边信息的基础上学习出了新的距离度量，但是本文将学习得到的距离函数应用于模糊C均值算法该距离函数仍是在马氏距离定义框架下的距离度中以构成一个半监督聚类算法。通过使用UCI真实量，属于线性的距离学习方法。本文提出的算法不数据集将该半监督聚类算法的聚类效果与其他距离仅引入了数据集的边信息，而且组合了预设的多种学习算法进行对比，证明了本文算法的有效性。形式的距离度量，学习得到一个非线性的距离度量，参考文献：使其对于数据集有较好的适应性。上述实验可以证明本文算法的有效性。 [1]王骏，王士同.基于混合距离学习的双指数模糊C均值算法[J].软件学报，2010,21(8)：1878-1888

图１算法对比图Ｆｉｇ．１Ｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｃｏｍｐａｒｉｓｏｎ表２本文算法相对于传统ＦＣＭ的提升率Ｔａｂｌｅ２Ｕｐｇｒａｄｅｒａｔｅｏｆｏｕｒａｌｇｏｒｉｔｈｍ数据集ｂｒｅａｓｔｓｏｎａｒｗｄｂｃｈｅａｒｔｗｉｎｅｃｍｃｔｈｙｒｏｉｄｓｅｇｍｅｎｔ提升率／％６０．１６５．６２１０．９８２６．２８６４．２４５．３３２４．７１３１．２９由于传统ＦＣＭ算法使用的是欧式距离，且其为无监督聚类算法，因此在应用的过程中不一定适合所有类型的数据集。而Ｃ⁃Ｅｕｃ算法虽然引入了数据集的边信息，但是其使用的距离度量仍然为欧氏距离，因此在使用的时候也具有局限性。ＰＧＤＭ在引入了边信息的基础上学习出了新的距离度量，但是该距离函数仍是在马氏距离定义框架下的距离度量，属于线性的距离学习方法。本文提出的算法不仅引入了数据集的边信息，而且组合了预设的多种形式的距离度量，学习得到一个非线性的距离度量，使其对于数据集有较好的适应性。上述实验可以证明本文算法的有效性。４结束语本文提出了一种基于线性组合的混合距离学习算法。该算法构建了一个由若干候选距离线性组合而成的距离目标函数，利用数据集的边信息学习得到各候选距离对应权值，从而得到新的距离函数。本文将学习得到的距离函数应用于模糊Ｃ均值算法中以构成一个半监督聚类算法。通过使用ＵＣＩ真实数据集将该半监督聚类算法的聚类效果与其他距离学习算法进行对比，证明了本文算法的有效性。参考文献：［１］王骏，王士同．基于混合距离学习的双指数模糊Ｃ均值算法［Ｊ］．软件学报，２０１０，２１（８）：１８７８⁃１８８８．第６期郭瑛洁，等：基于最大间隔理论的组合距离学习算法 ·８４９·

.850. 智能系统学报第10卷 WANG Jun,WANG Shitong.Double indices FCM algorithm [10]TSANG I W H,KWOK J T Y,ZURADA J A.Generalized based on hybrid distance metric learning[J].Journal of Soft- Core Vector Machines [J].IEEE Transaction on Neural ware,2010,21(8):1878-1888. Networks,2006,17(5):1126-1140. [2]WU Lei,HOI S C H,JIN Rong,et al.Learning Bregman [11]MEI Jianping,CHEN Lihui.Fuzzy clustering with weighted distance functions for semi-supervised clustering[J].IEEE medoids for relational data[J].Pattern Recognition,2010, Transactions on Knowledge and Data Engineering,2012,24 43(5):1964-1974. (3):478-491. [12]WAGSTAFF K,CARDIE C,ROGERS S,et al.Constrain- [3]XING E P,NG A Y,JORDAN M I,et al.Distance metric ed k-means clustering with background knowledge C]// learning with application to clustering with side information BAR-HILLEL A,HERTZ T,SHENTAL N,et al.Proceed- [C]//Advances in Neural Information Processing Systems. ings of the Eighteenth International Conference on Machine Vancouver,Canada,2002:521-528. Learning.Williamstown,Australia,2001:577-584. [4]HOI S C H,LIU Wei,LYU M R,et al.Learning distance [13]COVOES T F,HRUSCHKA E R,GHOSH J.A study of k- metrics with contextual constraints for image retrieval[C]// means-based algorithms for constrained clustering[J].In- Proceedings of 2006 IEEE Computer Society Conference on telligent Data Analysis,2013,17(3):485-505. Computer Vision and Pattern Recognition.New York,Amer- [14]BEZDEK J C.Pattern recognition with fuzzy objective func- ica,2006,2:2072-2078. tion algorithms[M.New York:Plenum Press,1981:56- [5]GOLDBERGER J,HINTON G,ROWEIS S,et al.Neigh- 57. borhood component analysis[C]//Advances in Neural Infor- 作者简介： mation Processing Systems.Cambridge,United Kingdom, 郭瑛洁，女，1991生，硕士研究生， 2005:451-458. 主要研究方向为人工智能，模式识别。 [6]WEINBERGER K Q,BLITZER J C,SAUL L K.Distance metric learning for large margin nearest neighbor classifica- tion[C]//Advances in Neural Information Processing Sys- tems.Cambridge,United Kingdom,2006:1473-1480. [7]王骏，王土同，邓赵红.特征加权距离与软子空间学习相结合的文本聚类新方法[J].计算机学报，2012,35 王士同，男，1964生，教授，博士生 (8):1655-1665. 导师，主要研究方向为人工智能、模式 WANG Jun,WANG Shitong,DENG Zhaohong.A novel text 识别和生物信息。 clustering algorithm based on feature weighting distance and soft subspace learning[J].Chinese Journal of Computers, 2012,35(8):1655-1665. [8]WU K L,YANG M S.Alternative c-means clustering algo- 许小龙，男，1989生，硕士研究生， rithms J].Pattern Recognition,2002,35 (10):2267- 主要研究方向为人工智能，模式识别。 2278. [9]CORTES C.VAPNIK V.Support-vector networks[J].Ma- chine Learning,1995,20(3):273-297

ＷＡＮＧＪｕｎ，ＷＡＮＧＳｈｉｔｏｎｇ．ＤｏｕｂｌｅｉｎｄｉｃｅｓＦＣＭａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｈｙｂｒｉｄｄｉｓｔａｎｃｅｍｅｔｒｉｃｌｅａｒｎｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｏｆｔ⁃ ｗａｒｅ，２０１０，２１（８）：１８７８⁃１８８８．［２］ＷＵＬｅｉ，ＨＯＩＳＣＨ，ＪＩＮＲｏｎｇ，ｅｔａｌ．ＬｅａｒｎｉｎｇＢｒｅｇｍａｎｄｉｓｔａｎｃｅｆｕｎｃｔｉｏｎｓｆｏｒｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２０１２，２４（３）：４７８⁃４９１．［３］ＸＩＮＧＥＰ，ＮＧＡＹ，ＪＯＲＤＡＮＭＩ，ｅｔａｌ．Ｄｉｓｔａｎｃｅｍｅｔｒｉｃｌｅａｒｎｉｎｇｗｉｔｈａｐｐｌｉｃａｔｉｏｎｔｏｃｌｕｓｔｅｒｉｎｇｗｉｔｈｓｉｄｅｉｎｆｏｒｍａｔｉｏｎ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｖａｎｃｏｕｖｅｒ，Ｃａｎａｄａ，２００２：５２１⁃５２８．［４］ＨＯＩＳＣＨ，ＬＩＵＷｅｉ，ＬＹＵＭＲ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｄｉｓｔａｎｃｅｍｅｔｒｉｃｓｗｉｔｈｃｏｎｔｅｘｔｕａｌｃｏｎｓｔｒａｉｎｔｓｆｏｒｉｍａｇｅｒｅｔｒｉｅｖａｌ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２００６ＩＥＥＥＣｏｍｐｕｔｅｒＳｏｃｉｅｔｙＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ．ＮｅｗＹｏｒｋ，Ａｍｅｒ⁃ ｉｃａ，２００６，２：２０７２⁃２０７８．［５］ＧＯＬＤＢＥＲＧＥＲＪ，ＨＩＮＴＯＮＧ，ＲＯＷＥＩＳＳ，ｅｔａｌ．Ｎｅｉｇｈ⁃ ｂｏｒｈｏｏｄｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒ⁃ ｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｃａｍｂｒｉｄｇｅ，ＵｎｉｔｅｄＫｉｎｇｄｏｍ，２００５：４５１⁃４５８．［６］ＷＥＩＮＢＥＲＧＥＲＫＱ，ＢＬＩＴＺＥＲＪＣ，ＳＡＵＬＬＫ．Ｄｉｓｔａｎｃｅｍｅｔｒｉｃｌｅａｒｎｉｎｇｆｏｒｌａｒｇｅｍａｒｇｉｎｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｃｌａｓｓｉｆｉｃａ⁃ ｔｉｏｎ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓ⁃ ｔｅｍｓ．Ｃａｍｂｒｉｄｇｅ，ＵｎｉｔｅｄＫｉｎｇｄｏｍ，２００６：１４７３⁃１４８０．［７］王骏，王士同，邓赵红．特征加权距离与软子空间学习相结合的文本聚类新方法［Ｊ］．计算机学报，２０１２，３５（８）：１６５５⁃１６６５．ＷＡＮＧＪｕｎ，ＷＡＮＧＳｈｉｔｏｎｇ，ＤＥＮＧＺｈａｏｈｏｎｇ．Ａｎｏｖｅｌｔｅｘｔｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｆｅａｔｕｒｅｗｅｉｇｈｔｉｎｇｄｉｓｔａｎｃｅａｎｄｓｏｆｔｓｕｂｓｐａｃｅｌｅａｒｎｉｎｇ［Ｊ］．ＣｈｉｎｅｓｅＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒｓ，２０１２，３５（８）：１６５５⁃１６６５．［８］ＷＵＫＬ，ＹＡＮＧＭＳ．Ａｌｔｅｒｎａｔｉｖｅｃ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏ⁃ ｒｉｔｈｍｓ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００２，３５（１０）：２２６７⁃ ２２７８．［９］ＣＯＲＴＥＳＣ，ＶＡＰＮＩＫＶ．Ｓｕｐｐｏｒｔ⁃ｖｅｃｔｏｒｎｅｔｗｏｒｋｓ［Ｊ］．Ｍａ⁃ ｃｈｉｎｅＬｅａｒｎｉｎｇ，１９９５，２０（３）：２７３⁃２９７．［１０］ＴＳＡＮＧＩＷＨ，ＫＷＯＫＪＴＹ，ＺＵＲＡＤＡＪＡ．ＧｅｎｅｒａｌｉｚｅｄＣｏｒｅＶｅｃｔｏｒＭａｃｈｉｎｅｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ，２００６，１７（５）：１１２６⁃１１４０．［１１］ＭＥＩＪｉａｎｐｉｎｇ，ＣＨＥＮＬｉｈｕｉ．Ｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｗｉｔｈｗｅｉｇｈｔｅｄｍｅｄｏｉｄｓｆｏｒｒｅｌａｔｉｏｎａｌｄａｔａ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１０，４３（５）：１９６４⁃１９７４．［１２］ＷＡＧＳＴＡＦＦＫ，ＣＡＲＤＩＥＣ，ＲＯＧＥＲＳＳ，ｅｔａｌ．Ｃｏｎｓｔｒａｉｎ⁃ ｅｄｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇｗｉｔｈｂａｃｋｇｒｏｕｎｄｋｎｏｗｌｅｄｇｅ［Ｃ］／／ＢＡＲ⁃ＨＩＬＬＥＬＡ，ＨＥＲＴＺＴ，ＳＨＥＮＴＡＬＮ，ｅｔａｌ．Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅＥｉｇｈｔｅｅｎｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｗｉｌｌｉａｍｓｔｏｗｎ，Ａｕｓｔｒａｌｉａ，２００１：５７７⁃５８４．［１３］ＣＯＶÕＥＳＴＦ，ＨＲＵＳＣＨＫＡＥＲ，ＧＨＯＳＨＪ．Ａｓｔｕｄｙｏｆｋ⁃ ｍｅａｎｓ⁃ｂａｓｅｄａｌｇｏｒｉｔｈｍｓｆｏｒｃｏｎｓｔｒａｉｎｅｄｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｉｎ⁃ ｔｅｌｌｉｇｅｎｔＤａｔａＡｎａｌｙｓｉｓ，２０１３，１７（３）：４８５⁃５０５．［１４］ＢＥＺＤＥＫＪＣ．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｆｕｚｚｙｏｂｊｅｃｔｉｖｅｆｕｎｃ⁃ ｔｉｏｎａｌｇｏｒｉｔｈｍｓ［Ｍ］．ＮｅｗＹｏｒｋ：ＰｌｅｎｕｍＰｒｅｓｓ，１９８１：５６⁃ ５７．作者简介：郭瑛洁，女，１９９１生，硕士研究生，主要研究方向为人工智能、模式识别。王士同，男，１９６４生，教授，博士生导师，主要研究方向为人工智能、模式识别和生物信息。许小龙，男，１９８９生，硕士研究生，主要研究方向为人工智能、模式识别。 ·８５０· 智能系统学报第１０卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录