正在加载图片...
·684· 北京科技大学学报 第34卷 聚类归结成一个带约束的非线性规划问题,通过优 用拉格朗日乘数法可求得式(1)达到最小值的 化求解获得数据集的模糊划分和聚类.在基于目标 函数的聚类算法中,传统的模糊C均值聚类算法存 必要条件、以“:=1为约束条件,构造如下新 在对分类数、初始划分矩阵敏感,易于陷入局部最优 的目标函数: 解的缺点,并且此算法的前提是假设样本数据的各 J(U,1,…,ye,入1,…,An)= 特征参数对聚类的贡献是一样的,但实际中往往并 非如此.针对此点,提出了基于特征加权模糊C均 值聚类算法.这种方法设计简单,经常用于模式识 别、图像处理和数据挖掘等研究,而且近些年来仍然 (店)+名(召- (4) 是一个研究的热点B-刀 式中,入(k=1,2,…,n)是拉格朗日乘子.对所有 输入参量求偏导,使得式(1)达到最小值的必要条 本文通过高炉雷达扫描得出的六维数据,把炉 件为 内情况以料面曲线的形式显现出来,分别采用模糊 C均值聚类和特征加权模糊C均值聚类对其进行分 ∑ux 类,建立标准模型数据库,并进行对比,再把目标料 p,= ,i=1,2,…,C (5) 面与标准模型库相匹配,为后续的控制提供依据. 和 1聚类和模糊识别 1 1.1模糊C均值聚类 高’i=1,2,,0 模糊C均值聚类(FCM)算法的主要思想是将 像 经典划分的定义模糊化,用隶属度来确定属于某个 k=1,2,…,n (6) 聚类程度的一种聚类方法网.它有两个参数:一个 由这两个必要条件可得到模糊C均值聚类算 是聚类数目c;另一个是模糊加权指数m.c>1且取 法的基本步骤如下: 值通常远小于聚类样本的总个数:m又称为平滑参 ①初始化隶属度矩阵U,使其满足式(3)的约 数,me(1,+∞).如果m取值过大,聚类效果不 束条件: 好,如果取值过小则会很接近硬聚类算法,通常m ②根据式(5)计算聚类中心V: 取0.5,2.5]. ③根据式(2)计算目标函数,如果相对上次的 模糊C均值聚类算法把n个向量x,CR分成c 结果该变量小于某个确定的阈值ε,则算法停止并 个组(k=1,2,…,n);s是向量xg的维数,并求得每 输出最终的隶属度矩阵U和聚类中心V,否则根据 个组的聚类中心.通过求解隶属度矩阵U= 式(6)计算新的隶属度矩阵,返回步骤② {u}xn对数据进行分类,其中u表示第k样本属 又由最终的隶属度矩阵U={“}cxm,计算得 于第i个聚类中心的属性度,其取值都在D,1]区间 i=ag四4k=l,2,…,n. (7) 上,且每个样本的隶属度之和等于1,具体数学表达 可看出,经过学习,把样本x聚类到i类,i=1,2, 如下.设 ,C V=y,2,…,y]T (1) 上述的分类,是建立在待分类向量x:的每维特 为c个聚类中心,其中y:=a2,…,]为s 征对分类的贡献是均匀的前提下,而实际情况往往 维的向量(i=1,2,,c),则目标函数J的一般化形 是不均匀的,因此聚类中必须考虑各维特征的不同 影响. 式为 1.2特征加权的计算 J(U,y1,…,y)= xd.(2) 假定s维向量xCR(k=1,2,…,n)每维特征 的贡献大小分为0,(q=1,2,…,s),且0,≥0,则可 式中:dk= (x-Ug)2为第k个模糊组与第i 设特征加权矩阵为 个聚类中心的欧几里得距离;m为模糊加权指数,且 0 m∈(1,+x),2≤c≤n,且 0 12 0 W= (8) 之uk=1,u∈(0,1). (3) 0 0北 京 科 技 大 学 学 报 第 34 卷 聚类归结成一个带约束的非线性规划问题,通过优 化求解获得数据集的模糊划分和聚类. 在基于目标 函数的聚类算法中,传统的模糊 C 均值聚类算法存 在对分类数、初始划分矩阵敏感,易于陷入局部最优 解的缺点,并且此算法的前提是假设样本数据的各 特征参数对聚类的贡献是一样的,但实际中往往并 非如此. 针对此点,提出了基于特征加权模糊 C 均 值聚类算法. 这种方法设计简单,经常用于模式识 别、图像处理和数据挖掘等研究,而且近些年来仍然 是一个研究的热点[3 - 7]. 本文通过高炉雷达扫描得出的六维数据,把炉 内情况以料面曲线的形式显现出来,分别采用模糊 C 均值聚类和特征加权模糊 C 均值聚类对其进行分 类,建立标准模型数据库,并进行对比,再把目标料 面与标准模型库相匹配,为后续的控制提供依据. 1 聚类和模糊识别 1. 1 模糊 C 均值聚类 模糊 C 均值聚类( FCM) 算法的主要思想是将 经典划分的定义模糊化,用隶属度来确定属于某个 聚类程度的一种聚类方法[8]. 它有两个参数: 一个 是聚类数目 c; 另一个是模糊加权指数 m. c > 1 且取 值通常远小于聚类样本的总个数; m 又称为平滑参 数,m∈( 1,+ ∞ ) . 如果 m 取值过大,聚类效果不 好,如果取值过小则会很接近硬聚类算法,通常 m 取[1. 5,2. 5]. 模糊 C 均值聚类算法把 n 个向量 xkRs 分成 c 个组( k = 1,2,…,n) ; s 是向量 xk 的维数,并求得每 个组 的 聚 类 中 心. 通过求解隶属度矩阵 U = { uik } c × n对数据进行分类,其中 uik表示第 k 样本属 于第 i 个聚类中心的属性度,其取值都在[0,1]区间 上,且每个样本的隶属度之和等于 1,具体数学表达 如下. 设 V =[v1,v2,…,vc ]T ( 1) 为 c 个聚类中心,其中 vi =[vi1,vi2,…,vis ]为 s 维的向量( i = 1,2,…,c) ,则目标函数 J 的一般化形 式为 J( U,v1,…,vc) = ∑ c i = 1 Ji = ∑ c i = 1 ∑ n k = 1 um ikd2 ik . ( 2) 式中: dik = ∑ s q = 1 ( xkq - viq ) 槡 2 为第 k 个模糊组与第 i 个聚类中心的欧几里得距离; m 为模糊加权指数,且 m∈( 1,+ ∞ ) ,2≤c≤n,且 ∑ c i = 1 uik = 1,uik∈( 0,1) . ( 3) 用拉格朗日乘数法可求得式( 1) 达到最小值的 必要条件. 以 ∑ c i = 1 uik = 1 为约束条件,构造如下新 的目标函数 J: J( U,v1,…,vc,λ1,…,λn ) = J( U,v1,…,vc) + ∑ n k = 1 λk ( ∑ c i = 1 uik - ) 1 = ∑ c i = ( 1 ∑ n k = 1 um ikd2 ik ) + ∑ n k = 1 λk ( ∑ c i = 1 uik - ) 1 . ( 4) 式中,λk ( k = 1,2,…,n) 是拉格朗日乘子. 对所有 输入参量求偏导,使得式( 1) 达到最小值的必要条 件为 vi = ∑ n k = 1 um ikxk ∑ n k = 1 um ik ,i = 1,2,…,c ( 5) 和 uik = 1 ∑ c j = ( 1 dik d ) jk 2 m-1 ,i = 1,2,…,c, k = 1,2,…,n. ( 6) 由这两个必要条件可得到模糊 C 均值聚类算 法的基本步骤如下: ① 初始化隶属度矩阵 U,使其满足式( 3) 的约 束条件; ② 根据式( 5) 计算聚类中心 V; ③ 根据式( 2) 计算目标函数,如果相对上次的 结果该变量小于某个确定的阈值 ε,则算法停止并 输出最终的隶属度矩阵 U 和聚类中心 V,否则根据 式( 6) 计算新的隶属度矩阵,返回步骤②. 又由最终的隶属度矩阵 U = { uik } c × n,计算得 i = arg max 1≤i≤c uik,k = 1,2,…,n. ( 7) 可看出,经过学习,把样本 xk 聚类到 i 类,i = 1,2, …,c. 上述的分类,是建立在待分类向量 xk 的每维特 征对分类的贡献是均匀的前提下,而实际情况往往 是不均匀的,因此聚类中必须考虑各维特征的不同 影响. 1. 2 特征加权的计算 假定 s 维向量 xkRs ( k = 1,2,…,n) 每维特征 的贡献大小分为 wq ( q = 1,2,…,s) ,且 wq≥0,则可 设特征加权矩阵为 W = w1 0 … 0 0 w2 … 0    0 0 … w            s . ( 8) ·684·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有