正在加载图片...
第6期 郭瑛洁,等:基于最大间隔理论的组合距离学习算法 .847. 方法: 多类数据集。各个数据集的信息如表1所示。 1)初始化:w=w; 表1实验中使用的数据集信息 2)计算距离矩阵:D(i,k); Table 1 List of data sets 3)计算二次规划参数H和f: 数据集 样本数 特征数 类别数 H= breast 683 10 2 点(店三4dow小-日(含三4)+ sonar 208 60 2 wdbe 569 30 2 1A宫d heart 270 2 2 wine 178 13 3 4)利用二次规划优化算法求解得到最优解:α·= 1473 9 3 [aiag…ar]T; cme thyroid 215 3 5)计算集合p和p:算法1: 6)利用式(15)计算ω。 segment 2310 19 7 在数据集的选择上基于以下考虑:首先,这些数 3实验 据集的特征数和类别数都各不相同。另外,这些数 为了与传统CM算法之间有可比性,本文将简 据集是机器学习研究中被广泛使用的基准数据集, 单的以学习得到的距离函数替换传统FCM算法中 因而具有代表性。最后,由于数据集均为真实数据 的欧式距离。根据传统FCM算法的实现方法,本文 集,因此可以检验算法在真实应用中是否可行。 将通过以下步骤实现聚类: 文中所有实验均在MATLAB平台下进行,所有 训练数据集和测试数据集均先归一化至[0,1]内。 1)初始化隶属度矩阵U,使得 ∑4g=1,j= 带有边信息的训练集将通过如下方法产生:首先,随 1,2,…,n,u∈[0,1]。 机选取数据集的10%组成一个子集。然后,根据子 集中样本点带有的类标是否相同来生成约束对 2)计算聚类中心:c:= (x。,xy)集合。其中,类标相同的成对约束为正 约束对,反之为负约束对。将取个数相同的正负约 =1 束对组成训练集。 3)计算价值函数: 在组合距离分量的选择上,本文依据第2节的 94 J=) 理论,在实验中选取如下10个距离度量进行组合: d(x,y)=(x-y)1(x-y) 当其相对于上次价值函数值的改变量小于某个 阈值时,算法停止。 4)=(x-)rx-y) 4)更新隶属度矩阵: 1 d0x=21s- uj= =1 2/(m-1) d(x,y)=】 其中对于样本点x:,它与聚类中心c:之间的距 -31x 离使用如下公式计算: d6(x,y)=1-e2 d,=u,d(x,c) d(x,)=1-e 将上述聚类算法记为基于组合距离(hybrid dis- d(x,)=1-e tance)的FCM聚类算法(HDFCM)。 d,(x,)=1-eg 本节将上述HDCM算法与已有的经典距离学 dio(x,y)=1-e-lx12 习算法进行对比与分析。 在使用组合距离进行聚类的算法中,本文将依 3.1实验设置 据数据集的类别数给定聚类数目,初始隶属度矩阵 本文使用了8个来自UCI机器学习数据库的 随机生成。为了保证可比性,实验中所有的对比算 真实数据集。其中4个为二类数据集,其余4个为 法将使用相同的初始隶属度矩阵,训练集和其他参方法: 1)初始化: ω = ω (0) ; 2)计算距离矩阵: D(i,k) ; 3)计算二次规划参数 H 和 f : H = ∑ p i = 1 ∑ n q = 1∑ n r = 1 di,qdi,r yq y ( r) - 1 d ∑ p i = 1 ∑ n k = 1 y ( kdi,k ) 2 + y 2 k f = 1 p ∑ p i = 1 ∑ n k = 1 ykdi,k 4)利用二次规划优化算法求解得到最优解: α ∗ = [α ∗ 1 α ∗ 2 … α ∗ n ] T ; 5)计算集合 p + 和 p - :算法 1; 6)利用式(15)计算 ω 。 3 实验 为了与传统 FCM 算法之间有可比性,本文将简 单的以学习得到的距离函数替换传统 FCM 算法中 的欧式距离。 根据传统 FCM 算法的实现方法,本文 将通过以下步骤实现聚类: 1)初始化隶属度矩阵 U ,使得 ∑ c i = 1 uij = 1,∀j = 1,2,…,n,uij ∈ [0,1] 。 2)计算聚类中心: ci = ∑ N j = 1 u m ij xj ∑ N j = 1 u m ij 。 3)计算价值函数: J = ∑ c i = 1 ∑ N j = 1 u m ij d 2 ij 当其相对于上次价值函数值的改变量小于某个 阈值时,算法停止。 4)更新隶属度矩阵: uij = 1 ∑ c k = 1 dij dkj æ è ç ö ø ÷ 2/ (m-1 ) 其中对于样本点 xj ,它与聚类中心 ci 之间的距 离使用如下公式计算: dij = ∑ p r = 1 ωrdr(xj,ci) 将上述聚类算法记为基于组合距离(hybrid dis⁃ tance)的 FCM 聚类算法(HDFCM)。 本节将上述 HDFCM 算法与已有的经典距离学 习算法进行对比与分析。 3.1 实验设置 本文使用了 8 个来自 UCI 机器学习数据库的 真实数据集。 其中 4 个为二类数据集,其余 4 个为 多类数据集。 各个数据集的信息如表 1 所示。 表 1 实验中使用的数据集信息 Table 1 List of data sets 数据集 样本数 特征数 类别数 breast 683 10 2 sonar 208 60 2 wdbc 569 30 2 heart 270 12 2 wine 178 13 3 cmc 1 473 9 3 thyroid 215 5 3 segment 2 310 19 7 在数据集的选择上基于以下考虑:首先,这些数 据集的特征数和类别数都各不相同。 另外,这些数 据集是机器学习研究中被广泛使用的基准数据集, 因而具有代表性。 最后,由于数据集均为真实数据 集,因此可以检验算法在真实应用中是否可行。 文中所有实验均在 MATLAB 平台下进行,所有 训练数据集和测试数据集均先归一化至 [0,1] 内。 带有边信息的训练集将通过如下方法产生:首先,随 机选取数据集的 10%组成一个子集。 然后,根据子 集中样本点带有的类标是否相同来生成约束对 x k a ,x k b,yk ( ) 集合。 其中,类标相同的成对约束为正 约束对,反之为负约束对。 将取个数相同的正负约 束对组成训练集。 在组合距离分量的选择上,本文依据第 2 节的 理论,在实验中选取如下 10 个距离度量进行组合: d1(x,y) = (x - y) T I(x - y) d3(x,y) = (x - y) T 3I σ 2 (x - y) d4(x,y) = ∑ d i = 1 xi - yi d5(x,y) = ∑ d i = 1 xi - yi σ 2 d6(x,y) = 1 - e -3‖x-y‖2 σ 2 d7(x,y) = 1 - e -‖x-y‖2 σ 2 d8(x,y) = 1 - e -‖x-y‖2 3σ 2 d9(x,y) = 1 - e -‖x-y‖2 5σ 2 d10(x,y) = 1 - e -‖x-y‖2 在使用组合距离进行聚类的算法中,本文将依 据数据集的类别数给定聚类数目,初始隶属度矩阵 随机生成。 为了保证可比性,实验中所有的对比算 法将使用相同的初始隶属度矩阵,训练集和其他参 第 6 期 郭瑛洁,等:基于最大间隔理论的组合距离学习算法 ·847·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有