正在加载图片...
·262· 北京科技大学学报 第36卷 (7) p()p() p(zln:)×p(n)]= 式中表示观察点z4=,x门T在第i聚类(i= p(x,h)= 1,2,…,c)的隶属程度,m∈1,)是决定所产生模 名p,)= 糊聚类的加权指数;D(z,n:)表示数据点和聚类原 (n)xp(e.In)p(n). (13) 型的距离.通过此方法,令时间作为一个变量,将数 即 据建模为一个混合多元高斯分布,以此来减少数据 (14) 点z4=,x]T和聚类原型n:间的加权距离平 p(zln)=p(tln:)xp(xn:). 定义4由于距离D(z4,n:)和隶属概率p(zI 方和. n:)存在反比关系,则定义距离函数为 为了避免出现局部最优现象,达到聚类结果所 产,n)=a:xp4ln,)×p(x.In).(15) 1 要求的效率和精度,文中选择基于均值标准差的定 心法作为MTSCA聚类算法初始聚类中心,公式为 其中:第一项a:表示为聚类的先验概率;第二项p m=u-o+2-), (4ln:)表示为第k个数据点到第i次时间聚类中心 i=1,2,…,k:l=1,2,…,9. (8) 的距离,用公式表示为 式中,μ为均值,σ为标准差,k为第k个聚类,q为 多维数据的维度. )w." (16) 在主成分分析完成后,可以得到初始聚类原型 n:={,F:,t,σxp(n)},并通过最小化目标函数 第三项p(xk|n:)表示聚类原型到特征空间数据之 间的距离,用公式表示为 (7)获得聚类原型的最佳参数.其约束条件为: [U=μ.t]exyI u.k∈0,1],i,k; p(xn)=(2m)x det(F )x =1,: (9) ep[2(x-)'px-]}. (17) 式中,为特征空间中第i次时间聚类中心的坐标, l0<∑<N,i. r表示与i次聚类相关的距离所表示的模糊协方差 由此,聚类原型n:中的各个参数如下 矩阵F,的秩 聚类的先验概率: 通过上述公式,计算出D(z4,n),并通过迭代 (10) 更新矩阵: 聚类中心: a0= (18) D(zn:)/D(z,n]2-) ∑(u.)"(x4-W,y.) 式中,1≤i≤c,1≤k≤N.对l=1,2,…,进行迭代, V= (11) ( 当满足收敛条件‖U0-U1-)‖<ε时,迭代停止. 1.3多元时间序列聚类合并 时间模型参数,中心和标准差: 通过计算相邻分段之间的目标函数,反复合并 N 两个最低目标段并使其满足条件为止.通过采用递 、,)2 归聚类合并方法来评估相邻聚类之间的相似性,并 (i.)m 以此来合并相互相似的聚类.在这个合并和重新聚 类的过程中,聚类的数目逐渐减少,直到找到一个适 (12) 当的聚类数.这个合并过程基于主成分分析模型之 根据Gath-Geva聚类算法由p(z.ln:)表示隶属 间相似性模糊决策算法来进行控制. 于第i次聚类中数据点z4的概率,数据点z4=, 两个主成分模型的相似性可以通过主成分相似 x门T,则联合密度函数p(z)=p(x4,l4)中的两个相 因子SA来决定.数据集的两个部分S,和S的 互独立变量t:和x:可建模为一个n+1维的高斯混 PCA模型都由g个主成分构成,则相似因子S可 合函数,则有 表示为北 京 科 技 大 学 学 报 第 36 卷 J = ∑ c i = 1 ∑ N k = 1 ( μi,k ) m D2 ( zk,ηi ) . ( 7) 式中: μi,k表示观察点 zk =[tk,xT k]T 在第 i 聚类( i = 1,2,…,c) 的隶属程度,m∈[1,∞ ) 是决定所产生模 糊聚类的加权指数; D2 ( zk,ηi ) 表示数据点和聚类原 型的距离. 通过此方法,令时间作为一个变量,将数 据建模为一个混合多元高斯分布,以此来减少数据 点 zk = [tk,xT k]T 和聚类原型 ηi 间的加权距离平 方和. 为了避免出现局部最优现象,达到聚类结果所 要求的效率和精度,文中选择基于均值标准差的定 心法作为 MTSCA 聚类算法初始聚类中心,公式为 mil = ( μl - σl ) + 2σl k - 1( i - 1) , i = 1,2,…,k; l = 1,2,…,q. ( 8) 式中,μ 为均值,σ 为标准差,k 为第 k 个聚类,q 为 多维数据的维度. 在主成分分析完成后,可以得到初始聚类原型 ηi = { vx i ,Fi,v t i,σ2 i,x,p( ηi ) } ,并通过最小化目标函数 ( 7) 获得聚类原型的最佳参数. 其约束条件为: U = [μi,k ]c ×N | μi,k ∈[0,1],i,k; ∑ c i = 1 μi,k = 1,k; 0 < ∑ c i = 1 μi,k < N,        i. ( 9) 由此,聚类原型 ηi 中的各个参数如下. 聚类的先验概率: p( ηi ) = 1 N ∑ N k = 1 μi,k . ( 10) 聚类中心: vx i = ∑ N k = 1 ( μi,k ) m ( xk - Wi ,〈yi,k〉) ∑ N k = 1 ( μi,k ) m . ( 11) 时间模型参数,中心和标准差: v t i = ∑ N k = 1 ( μi,k ) m tk ∑ N k = 1 ( μi,k ) m ,σ2 i,x = ∑ N k = 1 ( μi,k ) m ( tk - vt k ) 2 ∑ N k = 1 ( μi,k ) m . ( 12) 根据 Gath-Geva 聚类算法由 p( zk | ηi ) 表示隶属 于第 i 次聚类中数据点 zk 的概率,数据点 zk =[tk, xT k]T ,则联合密度函数 p( zk ) = p( xk,tk ) 中的两个相 互独立变量 tk 和 xk 可建模为一个 n + 1 维的高斯混 合函数,则有 p( zk ) = ∑ c i = 1 p( zk,ηi ) = ∑ c i = 1 [p( zk | ηi ) × p( ηi ) ]= p( xk,tk ) = ∑ c i = 1 p( xk,tk,ηi ) = ∑ c i = 1 [p( tk | ηi ) × p( xk | ηi ) p( ηi ) ]. ( 13) 即 p( zk | ηi ) = p( tk | ηi ) × p( xk | ηi ) . ( 14) 定义 4 由于距离 D2 ( zk,ηi ) 和隶属概率 p( zk | ηi ) 存在反比关系,则定义距离函数为 1 D2 ( zk,ηi ) = ai × p( tk | ηi ) × p( xk | ηi ) . ( 15) 其中: 第一项 ai 表示为聚类的先验概率; 第二项 p ( tk | ηi ) 表示为第 k 个数据点到第 i 次时间聚类中心 v t i 的距离,用公式表示为 p( tk | ηi ) = 2 { πσ2 槡 i,t × exp [ 1 2 ·( tk - v t i ) 2 σ2 i, ] } t - 1 ; ( 16) 第三项 p( xk | ηi ) 表示聚类原型到特征空间数据之 间的距离,用公式表示为 p( xk | ηi ) = { ( 2π) r 2 × det 槡 ( Fi ) × [ exp 1 2 ( xk - v x i ) T F - 1 i ( xk - v x i ) ] } - 1 . ( 17) 式中,v x i 为特征空间中第 i 次时间聚类中心的坐标, r 表示与 i 次聚类相关的距离所表示的模糊协方差 矩阵 Fi 的秩. 通过上述公式,计算出 D2 ( zk,ηi ) ,并通过迭代 更新矩阵: μ ( l) i,k = 1 ∑ c j = 1 [D( zk,ηi ) /D( zk,ηj ) ]2 /( m -1) . ( 18) 式中,1≤i≤c,1≤k≤N. 对 l = 1,2,…,进行迭代, 当满足收敛条件‖U( l) - U( l - 1) ‖ < ε 时,迭代停止. 1. 3 多元时间序列聚类合并 通过计算相邻分段之间的目标函数,反复合并 两个最低目标段并使其满足条件为止. 通过采用递 归聚类合并方法来评估相邻聚类之间的相似性,并 以此来合并相互相似的聚类. 在这个合并和重新聚 类的过程中,聚类的数目逐渐减少,直到找到一个适 当的聚类数. 这个合并过程基于主成分分析模型之 间相似性模糊决策算法来进行控制. 两个主成分模型的相似性可以通过主成分相似 因子 SPCA 来决定. 数据集的两个部分 Si 和 Sj 的 PCA 模型都由 q 个主成分构成,则相似因子 Si,j PCA可 表示为 · 262 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有