方法：１）初始化： ω ＝ ω （０）；２）计算距离矩阵：Ｄ（ｉ，

正在加载图片...

第6期郭瑛洁，等：基于最大间隔理论的组合距离学习算法 .847. 方法：多类数据集。各个数据集的信息如表1所示。 1)初始化：w=w; 表1实验中使用的数据集信息 2)计算距离矩阵：D(i,k); Table 1 List of data sets 3)计算二次规划参数H和f: 数据集样本数特征数类别数 H= breast 683 10 2 点（店三4dow小-日（含三4）+ sonar 208 60 2 wdbe 569 30 2 1A宫d heart 270 2 2 wine 178 13 3 4)利用二次规划优化算法求解得到最优解：α·= 1473 9 3 [aiag…ar]T; cme thyroid 215 3 5)计算集合p和p:算法1： 6)利用式(15)计算ω。 segment 2310 19 7 在数据集的选择上基于以下考虑：首先，这些数 3实验据集的特征数和类别数都各不相同。另外，这些数为了与传统CM算法之间有可比性，本文将简据集是机器学习研究中被广泛使用的基准数据集，单的以学习得到的距离函数替换传统FCM算法中因而具有代表性。最后，由于数据集均为真实数据的欧式距离。根据传统FCM算法的实现方法，本文集，因此可以检验算法在真实应用中是否可行。将通过以下步骤实现聚类：文中所有实验均在MATLAB平台下进行，所有训练数据集和测试数据集均先归一化至[0,1]内。 1)初始化隶属度矩阵U,使得 ∑4g=1,j= 带有边信息的训练集将通过如下方法产生：首先，随 1,2,…,n,u∈[0,1]。机选取数据集的10%组成一个子集。然后，根据子集中样本点带有的类标是否相同来生成约束对 2)计算聚类中心：c:= (x。,xy)集合。其中，类标相同的成对约束为正约束对，反之为负约束对。将取个数相同的正负约 =1 束对组成训练集。 3)计算价值函数：在组合距离分量的选择上，本文依据第2节的 94 J=) 理论，在实验中选取如下10个距离度量进行组合： d(x,y)=(x-y)1(x-y) 当其相对于上次价值函数值的改变量小于某个阈值时，算法停止。 4）=(x-)rx-y) 4)更新隶属度矩阵： 1 d0x=21s- uj= =1 2/(m-1) d(x,y)=】其中对于样本点x:,它与聚类中心c:之间的距 -31x 离使用如下公式计算： d6(x,y）=1-e2 d,=u,d(x,c） d(x,)=1-e 将上述聚类算法记为基于组合距离(hybrid dis- d(x,）=1-e tance)的FCM聚类算法(HDFCM)。 d,(x,)=1-eg 本节将上述HDCM算法与已有的经典距离学 dio(x,y)=1-e-lx12 习算法进行对比与分析。在使用组合距离进行聚类的算法中，本文将依 3.1实验设置据数据集的类别数给定聚类数目，初始隶属度矩阵本文使用了8个来自UCI机器学习数据库的随机生成。为了保证可比性，实验中所有的对比算真实数据集。其中4个为二类数据集，其余4个为法将使用相同的初始隶属度矩阵，训练集和其他参方法：１）初始化： ω ＝ ω （０）；２）计算距离矩阵：Ｄ（ｉ，ｋ）；３）计算二次规划参数Ｈ和ｆ：Ｈ＝ ∑ ｐｉ＝１ ∑ ｎｑ＝１∑ ｎｒ＝１ｄｉ，ｑｄｉ，ｒｙｑｙ ( ｒ) －１ｄ ∑ ｐｉ＝１ ∑ ｎｋ＝１ｙ ( ｋｄｉ，ｋ ) ２＋ｙ２ｋｆ＝１ｐ ∑ ｐｉ＝１ ∑ ｎｋ＝１ｙｋｄｉ，ｋ４）利用二次规划优化算法求解得到最优解： α ∗ ＝［α ∗ １ α ∗ ２ … α ∗ ｎ］Ｔ；５）计算集合ｐ＋和ｐ－：算法１；６）利用式（１５）计算 ω 。３实验为了与传统ＦＣＭ算法之间有可比性，本文将简单的以学习得到的距离函数替换传统ＦＣＭ算法中的欧式距离。根据传统ＦＣＭ算法的实现方法，本文将通过以下步骤实现聚类：１）初始化隶属度矩阵Ｕ，使得 ∑ ｃｉ＝１ｕｉｊ＝１，∀ｊ＝１，２，…，ｎ，ｕｉｊ ∈ [０，１] 。２）计算聚类中心：ｃｉ＝ ∑ Ｎｊ＝１ｕｍｉｊｘｊ ∑ Ｎｊ＝１ｕｍｉｊ。３）计算价值函数：Ｊ＝ ∑ ｃｉ＝１ ∑ Ｎｊ＝１ｕｍｉｊｄ２ｉｊ当其相对于上次价值函数值的改变量小于某个阈值时，算法停止。４）更新隶属度矩阵：ｕｉｊ＝１ ∑ ｃｋ＝１ｄｉｊｄｋｊ æ è ç ö ø ÷ ２／ (ｍ－１ ) 其中对于样本点ｘｊ，它与聚类中心ｃｉ之间的距离使用如下公式计算：ｄｉｊ＝ ∑ ｐｒ＝１ ωｒｄｒ（ｘｊ，ｃｉ）将上述聚类算法记为基于组合距离（ｈｙｂｒｉｄｄｉｓ⁃ ｔａｎｃｅ）的ＦＣＭ聚类算法（ＨＤＦＣＭ）。本节将上述ＨＤＦＣＭ算法与已有的经典距离学习算法进行对比与分析。３．１实验设置本文使用了８个来自ＵＣＩ机器学习数据库的真实数据集。其中４个为二类数据集，其余４个为多类数据集。各个数据集的信息如表１所示。表１实验中使用的数据集信息Ｔａｂｌｅ１Ｌｉｓｔｏｆｄａｔａｓｅｔｓ数据集样本数特征数类别数ｂｒｅａｓｔ６８３１０２ｓｏｎａｒ２０８６０２ｗｄｂｃ５６９３０２ｈｅａｒｔ２７０１２２ｗｉｎｅ１７８１３３ｃｍｃ１４７３９３ｔｈｙｒｏｉｄ２１５５３ｓｅｇｍｅｎｔ２３１０１９７在数据集的选择上基于以下考虑：首先，这些数据集的特征数和类别数都各不相同。另外，这些数据集是机器学习研究中被广泛使用的基准数据集，因而具有代表性。最后，由于数据集均为真实数据集，因此可以检验算法在真实应用中是否可行。文中所有实验均在ＭＡＴＬＡＢ平台下进行，所有训练数据集和测试数据集均先归一化至 [０，１] 内。带有边信息的训练集将通过如下方法产生：首先，随机选取数据集的１０％组成一个子集。然后，根据子集中样本点带有的类标是否相同来生成约束对ｘｋａ，ｘｋｂ，ｙｋ ( ) 集合。其中，类标相同的成对约束为正约束对，反之为负约束对。将取个数相同的正负约束对组成训练集。在组合距离分量的选择上，本文依据第２节的理论，在实验中选取如下１０个距离度量进行组合：ｄ１（ｘ，ｙ）＝（ｘ－ｙ）ＴＩ（ｘ－ｙ）ｄ３（ｘ，ｙ）＝（ｘ－ｙ）Ｔ３Ｉ σ ２（ｘ－ｙ）ｄ４（ｘ，ｙ）＝ ∑ ｄｉ＝１ｘｉ－ｙｉｄ５（ｘ，ｙ）＝ ∑ ｄｉ＝１ｘｉ－ｙｉ σ ２ｄ６（ｘ，ｙ）＝１－ｅ－３‖ｘ－ｙ‖２ σ ２ｄ７（ｘ，ｙ）＝１－ｅ－‖ｘ－ｙ‖２ σ ２ｄ８（ｘ，ｙ）＝１－ｅ－‖ｘ－ｙ‖２３σ ２ｄ９（ｘ，ｙ）＝１－ｅ－‖ｘ－ｙ‖２５σ ２ｄ１０（ｘ，ｙ）＝１－ｅ－‖ｘ－ｙ‖２在使用组合距离进行聚类的算法中，本文将依据数据集的类别数给定聚类数目，初始隶属度矩阵随机生成。为了保证可比性，实验中所有的对比算法将使用相同的初始隶属度矩阵，训练集和其他参第６期郭瑛洁，等：基于最大间隔理论的组合距离学习算法 ·８４７·

<<向上翻页向下翻页>>

点击下载：【人工智能基础】基于最大间隔理论的组合距离学习算法编辑部