多元时序模糊聚类分段挖掘算法

工业监控系统所采集到的多元时间序列在利用数据挖掘技术获取内部存在的未知模式的过程中，经常会出现原始数据庞杂、分段结果重复、交集过多和界限不清晰等问题，导致含有突变变量或数据间相关性差的数据集进行模式挖掘结果不理想.针对上述问题，本文提出了一种新的多元时序模糊聚类分段挖掘算法.实验结果表明，该算法克服了Gath-Geva算法聚类精度易受初始值影响的不足，能够较好地反映出原始数据中潜在的过程变化，从而有效地处理时间序列的分段问题并得到理想的挖掘结果.

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：429.34KB

第36卷第2期北京科技大学学报 Vol.36 No.2 2014年2月 Journal of University of Science and Technology Beijing Feb.2014 多元时序模糊聚类分段挖掘算法于重重12四，吴子琚”，谭励”，涂序彦，杨扬”，王璐” 1)北京工商大学计算机与信息工程学院，北京1000482)北京科技大学计算机与通信工程学院，北京100083 ☒通信作者，E-mail:chongzhy@vip.sina.com 摘要工业监控系统所采集到的多元时间序列在利用数据挖掘技术获取内部存在的未知模式的过程中，经常会出现原始数据庞杂、分段结果重复、交集过多和界限不清晰等问题，导致含有突变变量或数据间相关性差的数据集进行模式挖掘结果不理想.针对上述问题，本文提出了一种新的多元时序模糊聚类分段挖掘算法.实验结果表明，该算法克服了Gath-Geva算法聚类精度易受初始值影响的不足，能够较好地反映出原始数据中潜在的过程变化，从而有效地处理时间序列的分段问题并得到理想的挖掘结果关键词多元系统：时间序列：聚类算法：数据挖掘：主成分分析分类号TP391 Multivariate time series fuzzy clustering segmentation mining algorithm YU Chong-chong'2a,WU Zi-jun',TAN Li”,TUXu-yan2》,YANG Yang,WANG Lu” 1)School of Computer&Information Engineering,Beijing Technology and Business University,Beijing 100048,China 2)School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:chongzhy@vip.sina.com ABSTRACT Multivariate time series collected by industrial monitoring systems often have problems such as numerous raw data, repeated segmentation results,redundant intersections and blurry boundaries in the process of using data mining technologies to acquire internal existing unknown patterns,leading to unsatisfied mining results when the dataset involves mutation variables or inferior relevance among the data.To resolve these problems,this article introduces a new multiple time sequence clustering algorithm.Experi- mental results show that this algorithm can overcome the shortage that the accuracy of clustering is often affected by initial values in the Gath-Geva algorithm.It can exhibit the potential variation of raw data and thus efficiently deal with segmentation in multivariate time series to get ideal mining results. KEY WORDS multivariable systems:time series;clustering algorithms;data mining:principal component analysis 时间序列是指按照时间顺序取得的一系列的观目前对于子序列的处理主要采用聚类方法，而在工测值四.在工业监控过程中，观测值往往是多变量业领域中广泛使用的聚类算法为均值法四，虽然其相互影响和相互联系的，并且每个变量均为时间序聚类过程比较简单，效率较高，但在使用中存在需要列数据，因此为了寻求原始数据中所蕴含的未知模事先确定聚类数目，容易陷入局部最优等问题.本式，预测未来的变化趋势，多元时间序列作为一种数文提出了一种以Gath-Geva聚类算法为基础的多据对象逐渐受到人们的重视.由于多元时间序列具元时序模糊分段的聚类算法（multiple timing 有多变量、序列长度长、数据容量大、局部含有隐藏 sequence clustering algorithm,MTSCA),通过在数据结构变化等特点，需对其行分段处理并对分段后的处理阶段进行归一化、等长度子序列分割以及主成子序列进行聚类、分类、异常检测等相关处理习分分析，实现对多元时间序列的聚类挖掘和聚类合收稿日期：2012-12-30 基金项目：国家自然科学基金资助项目(61070182)：北京市组织部优秀人才资助项目(2010D005003000008) DOI:10.13374/j.issn1001-053x.2014.02.019:http://journals.ustb.edu.cn

第 36 卷第 2 期 2014 年 2 月北京科技大学学报 Journal of University of Science and Technology Beijing Vol． 36 No． 2 Feb． 2014 多元时序模糊聚类分段挖掘算法于重重1，2) ，吴子珺1) ，谭励1) ，涂序彦2) ，杨扬2) ，王璐1) 1) 北京工商大学计算机与信息工程学院，北京 100048 2) 北京科技大学计算机与通信工程学院，北京 100083  通信作者，E-mail: chongzhy@ vip． sina． com 摘要工业监控系统所采集到的多元时间序列在利用数据挖掘技术获取内部存在的未知模式的过程中，经常会出现原始数据庞杂、分段结果重复、交集过多和界限不清晰等问题，导致含有突变变量或数据间相关性差的数据集进行模式挖掘结果不理想．针对上述问题，本文提出了一种新的多元时序模糊聚类分段挖掘算法．实验结果表明，该算法克服了 Gath-Geva 算法聚类精度易受初始值影响的不足，能够较好地反映出原始数据中潜在的过程变化，从而有效地处理时间序列的分段问题并得到理想的挖掘结果．关键词多元系统; 时间序列; 聚类算法; 数据挖掘; 主成分分析分类号 TP 391 Multivariate time series fuzzy clustering segmentation mining algorithm YU Chong-chong1，2)  ，WU Zi-jun1) ，TAN Li1) ，TU Xu-yan2) ，YANG Yang2) ，WANG Lu1) 1) School of Computer ＆ Information Engineering，Beijing Technology and Business University，Beijing 100048，China 2) School of Computer and Communication Engineering，University of Science and Technology Beijing，Beijing 100083，China  Corresponding author，E-mail: chongzhy@ vip． sina． com ABSTＲACT Multivariate time series collected by industrial monitoring systems often have problems such as numerous raw data， repeated segmentation results，redundant intersections and blurry boundaries in the process of using data mining technologies to acquire internal existing unknown patterns，leading to unsatisfied mining results when the dataset involves mutation variables or inferior relevance among the data． To resolve these problems，this article introduces a new multiple time sequence clustering algorithm． Experimental results show that this algorithm can overcome the shortage that the accuracy of clustering is often affected by initial values in the Gath-Geva algorithm． It can exhibit the potential variation of raw data and thus efficiently deal with segmentation in multivariate time series to get ideal mining results． KEY WOＲDS multivariable systems; time series; clustering algorithms; data mining; principal component analysis 收稿日期: 2012--12--30 基金项目: 国家自然科学基金资助项目( 61070182) ; 北京市组织部优秀人才资助项目( 2010D005003000008) DOI: 10． 13374 /j． issn1001--053x． 2014． 02． 019; http: / /journals． ustb． edu． cn 时间序列是指按照时间顺序取得的一系列的观测值［1］．在工业监控过程中，观测值往往是多变量相互影响和相互联系的，并且每个变量均为时间序列数据，因此为了寻求原始数据中所蕴含的未知模式，预测未来的变化趋势，多元时间序列作为一种数据对象逐渐受到人们的重视．由于多元时间序列具有多变量、序列长度长、数据容量大、局部含有隐藏结构变化等特点，需对其行分段处理并对分段后的子序列进行聚类、分类、异常检测等相关处理［2--3］．目前对于子序列的处理主要采用聚类方法，而在工业领域中广泛使用的聚类算法为均值法［4］，虽然其聚类过程比较简单，效率较高，但在使用中存在需要事先确定聚类数目，容易陷入局部最优等问题．本文提出了一种以 Gath-Geva 聚类算法［5］为基础的多元时序模糊分段的聚类算法 ( multiple timing sequence clustering algorithm，MTSCA) ，通过在数据处理阶段进行归一化、等长度子序列分割以及主成分分析，实现对多元时间序列的聚类挖掘和聚类合

第2期于重重等：多元时序模糊聚类分段挖掘算法 ·261· 并.为验证算法有效性，本文以“可再生能源与建筑 …,xnN）. 集成”项目中实时监测到的海量数据为对象，进行 1.1.3主成分分析多元时序模糊聚类分段挖掘，并对实验结果进行了在对多变量数据进行研究时，变量的增加会导分析比较，结果表明该算法能够较为快速地检测出致数据分析工作的难度和复杂性成倍增加.因此，多元时间序列中隐藏结构的变化将原有的多变量经过一系列的运算和变换变成较少的变量是十分必要的.为保证这些变量能够尽可能 1多元时序模糊分段聚类算法地保留原有变量所反应的信息，同时满足上述要求，由于时间序列具有大长度、多数据点等特性，为因此引入主成分分析网了描述其在某个时间段内的局部特征，提高数据挖通过使用马氏距离来调整变量之间的相关性，掘的效率，需要先根据用户指定的模式长度和时间并得到相应的协方差矩阵F: 粒度，完成原始时间序列的分割，分割时一般将其分割成等长度的子序列或不重叠的子序列集合，为后 (u(x-）)(x4-）T F.= (2) 续计算降低复杂程度.由于变量的变化具有模糊 ∑（μ.）m 性，所以在对时间序列进行分段过程中给出清晰的界定是不切实际的因.考虑到在时间序列中数据聚式中：u.4表示第k个数据点属于第i次聚类的先验类中的点必须来自于连续的时间点，因此在聚类的概率，即初始隶属值；m表示模糊参数：表示聚类过程中要同时考虑数据的时间坐标.本文提出的算中心法，其主体思想是把数据建模为一个混合的多元高通过协方差矩阵F得到其特征值和特征向量，斯分布，并采用高斯隶属函数来表示时间序列的模并根据数据变化的贡献在陡坡图上有序的绘制出特糊分段. 征值入，然后分析陡坡图上特征值贡献率C0的幅多元时序模糊聚类分段挖掘的具体步骤为：度和综合的累积率CU以选择合适的主成分数目. (1)多元时间序列归一化、等长度子序列分段分割其中：处理；(2)时间序列的主成分分析；(3)算法实现聚 C0= (3) 类合并：(4)时间序列模糊分段 1.1多元时间序列预处理台 i 1.1.1时间序列分段描述 SA = 定义1时间序列为T={x1≤k≤N},其中 CU= (4) N为时间序列的数据长度，x=x,x2k,…,x] ∑AH = 为按时间点t,2,…,tw标记的N个样本的有限集，若协方差矩阵F:有q个非零的特征值，则可以则连续时间点S(a,b)=a≤k≤b,x。,xa+1,…,x6表被分解为示为T中的任意一个分段团. F=UAU =0I+WW. (5) 定义2S={S:(a,b:)I1≤i≤c}定义为对时式中，间序列T分段成不重叠的c个时间片段，其中a,= 1,b.=V,a:=b:-1+1. 入时由于一个时间序列分段可以看作为一个具有约因此，在使用主成分分析方法对协方差矩阵F, 束的聚类，因此可以在连续的条件下对所取得的数进行降维处理后的观测向量x:转变为据按照其相似性进行聚类处理 y.k=W1(x)=W(x). (6) 1.1.2时间序列归一化式中，W为权重矩阵，W=U.,(Ag-σ.I)nR, 为了保证时间序列在聚类处理的收敛速度，增 R,是一个任意q×q正交旋转矩阵. 加样本间的统计分布性，采用归一化来完成数据的 1.2多元时间序列聚类挖掘预处理，公式如下：由于要考虑实际时间序列与拟合分段片段函数 x.-minx (1) 之间的距离，根据数据点与聚类原型的加权距离平 x=- maxx minx 方和的标准来对目标函数进行定义回式中：xn=n1,xn.2,,xaN],n为数据维度：minx. 定义3数据点与聚类原型的加权距离平方和为min(xn1,xn,2,…,xnN）;marn为max（xa1'xa2, J的计算公式为

第 2 期于重重等: 多元时序模糊聚类分段挖掘算法并．为验证算法有效性，本文以“可再生能源与建筑集成”项目中实时监测到的海量数据为对象，进行多元时序模糊聚类分段挖掘，并对实验结果进行了分析比较，结果表明该算法能够较为快速地检测出多元时间序列中隐藏结构的变化． 1 多元时序模糊分段聚类算法由于时间序列具有大长度、多数据点等特性，为了描述其在某个时间段内的局部特征，提高数据挖掘的效率，需要先根据用户指定的模式长度和时间粒度，完成原始时间序列的分割，分割时一般将其分割成等长度的子序列或不重叠的子序列集合，为后续计算降低复杂程度．由于变量的变化具有模糊性，所以在对时间序列进行分段过程中给出清晰的界定是不切实际的［6］．考虑到在时间序列中数据聚类中的点必须来自于连续的时间点，因此在聚类的过程中要同时考虑数据的时间坐标．本文提出的算法，其主体思想是把数据建模为一个混合的多元高斯分布，并采用高斯隶属函数来表示时间序列的模糊分段．多元时序模糊聚类分段挖掘的具体步骤为: ( 1) 多元时间序列归一化、等长度子序列分段分割处理; ( 2) 时间序列的主成分分析; ( 3) 算法实现聚类合并; ( 4) 时间序列模糊分段． 1. 1 多元时间序列预处理 1. 1. 1 时间序列分段描述定义 1 时间序列为 T = { xk | 1≤k≤N} ，其中 N 为时间序列的数据长度，xk =［x1，k，x2，k，…，xn，k］T 为按时间点 t1，t2，…，tN 标记的 N 个样本的有限集，则连续时间点 S( a，b) = a≤k≤b，xa，xa + 1，…，xb 表示为 T 中的任意一个分段［7］．定义 2 Sc T = { Si ( ai，bi ) | 1≤i≤c} 定义为对时间序列 T 分段成不重叠的 c 个时间片段，其中 a1 = 1，bc = N，ai = bi － 1 + 1．由于一个时间序列分段可以看作为一个具有约束的聚类，因此可以在连续的条件下对所取得的数据按照其相似性进行聚类处理． 1. 1. 2 时间序列归一化为了保证时间序列在聚类处理的收敛速度，增加样本间的统计分布性，采用归一化来完成数据的预处理，公式如下: x' n = xn － minxn maxxn － minxn ． ( 1) 式中: xn =［xn，1，xn，2，…，xn，N］，n 为数据维度; minxn 为 min( xn，1，xn，2，…，xn，N ) ; maxxn 为 max ( xn，1，xn，2， …，xn，N) ． 1. 1. 3 主成分分析在对多变量数据进行研究时，变量的增加会导致数据分析工作的难度和复杂性成倍增加．因此，将原有的多变量经过一系列的运算和变换变成较少的变量是十分必要的．为保证这些变量能够尽可能地保留原有变量所反应的信息，同时满足上述要求，因此引入主成分分析［8］．通过使用马氏距离来调整变量之间的相关性，并得到相应的协方差矩阵 Fi : Fi = ∑ N k = 1 ( μi，k ) m ( xk － vx i ) ( xk － vx i ) T ∑ N k = 1 ( μi，k ) m ． ( 2) 式中: μi，k表示第 k 个数据点属于第 i 次聚类的先验概率，即初始隶属值; m 表示模糊参数; vx i 表示聚类中心．通过协方差矩阵 Fi 得到其特征值和特征向量，并根据数据变化的贡献在陡坡图上有序的绘制出特征值 λk，然后分析陡坡图上特征值贡献率 CO 的幅度和综合的累积率 CU 以选择合适的主成分数目．其中: CO = λi ∑ p k = 1 λk ， ( 3) CU = ∑ i k = 1 λk ∑ p k = 1 λk ． ( 4) 若协方差矩阵 Fi 有 q 个非零的特征值，则可以被分解为 Fi = UiΛiUT i = σ2 i，x I + WiWT i ． ( 5) 式中， σ2 i，x = 1 n － q ∑ n j = q +1 λi，j ．因此，在使用主成分分析方法对协方差矩阵 Fi 进行降维处理后的观测向量 xk 转变为 yi，k = W － 1 i ( xk ) = WT i ( xk ) ． ( 6) 式中，Wi 为权重矩阵，Wi = Ui，q ( Λi，q － σ2 i，x I) 1 /2 Ｒi，Ｒi 是一个任意 q × q 正交旋转矩阵． 1. 2 多元时间序列聚类挖掘由于要考虑实际时间序列与拟合分段片段函数之间的距离，根据数据点与聚类原型的加权距离平方和的标准来对目标函数进行定义［9］．定义 3 数据点与聚类原型的加权距离平方和 J 的计算公式为 · 162 ·

·262· 北京科技大学学报第36卷 (7) p()p() p(zln:)×p(n)]= 式中表示观察点z4=,x门T在第i聚类(i= p(x,h)= 1,2,…,c）的隶属程度，m∈1，）是决定所产生模名p,）= 糊聚类的加权指数；D(z,n:)表示数据点和聚类原 (n)xp(e.In)p(n). (13) 型的距离.通过此方法，令时间作为一个变量，将数即据建模为一个混合多元高斯分布，以此来减少数据 (14) 点z4=,x]T和聚类原型n:间的加权距离平 p(zln)=p(tln:)xp(xn:). 定义4由于距离D(z4,n:)和隶属概率p(zI 方和. n:)存在反比关系，则定义距离函数为为了避免出现局部最优现象，达到聚类结果所产，n)=a:xp4ln,）×p(x.In）.(15) 1 要求的效率和精度，文中选择基于均值标准差的定心法作为MTSCA聚类算法初始聚类中心，公式为其中：第一项a:表示为聚类的先验概率；第二项p m=u-o+2-）, (4ln:)表示为第k个数据点到第i次时间聚类中心 i=1,2,…,k:l=1,2,…,9. (8) 的距离，用公式表示为式中，μ为均值，σ为标准差，k为第k个聚类，q为多维数据的维度. )w." (16) 在主成分分析完成后，可以得到初始聚类原型 n:={,F:,t,σxp(n)},并通过最小化目标函数第三项p(xk|n:)表示聚类原型到特征空间数据之间的距离，用公式表示为 (7)获得聚类原型的最佳参数.其约束条件为： [U=μ.t]exyI u.k∈0,1]，i,k; p(xn)=(2m)x det(F )x =1,: (9) ep[2(x-)'px-]}. (17) 式中，为特征空间中第i次时间聚类中心的坐标， l0<∑<N,i. r表示与i次聚类相关的距离所表示的模糊协方差由此，聚类原型n:中的各个参数如下矩阵F,的秩聚类的先验概率：通过上述公式，计算出D(z4,n),并通过迭代 (10) 更新矩阵：聚类中心： a0= (18) D(zn:)/D(z,n]2-) ∑(u.)"(x4-W,y.) 式中，1≤i≤c,1≤k≤N.对l=1,2,…,进行迭代， V= (11) ( 当满足收敛条件‖U0-U1-)‖<ε时，迭代停止. 1.3多元时间序列聚类合并时间模型参数，中心和标准差：通过计算相邻分段之间的目标函数，反复合并 N 两个最低目标段并使其满足条件为止.通过采用递、，)2 归聚类合并方法来评估相邻聚类之间的相似性，并 (i.)m 以此来合并相互相似的聚类.在这个合并和重新聚类的过程中，聚类的数目逐渐减少，直到找到一个适 (12) 当的聚类数.这个合并过程基于主成分分析模型之根据Gath-Geva聚类算法由p(z.ln:)表示隶属间相似性模糊决策算法来进行控制. 于第i次聚类中数据点z4的概率，数据点z4=, 两个主成分模型的相似性可以通过主成分相似 x门T,则联合密度函数p(z)=p(x4,l4)中的两个相因子SA来决定.数据集的两个部分S,和S的互独立变量t:和x:可建模为一个n+1维的高斯混 PCA模型都由g个主成分构成，则相似因子S可合函数，则有表示为

北京科技大学学报第 36 卷 J = ∑ c i = 1 ∑ N k = 1 ( μi，k ) m D2 ( zk，ηi ) ． ( 7) 式中: μi，k表示观察点 zk =［tk，xT k］T 在第 i 聚类( i = 1，2，…，c) 的隶属程度，m∈［1，∞ ) 是决定所产生模糊聚类的加权指数; D2 ( zk，ηi ) 表示数据点和聚类原型的距离．通过此方法，令时间作为一个变量，将数据建模为一个混合多元高斯分布，以此来减少数据点 zk = ［tk，xT k］T 和聚类原型 ηi 间的加权距离平方和．为了避免出现局部最优现象，达到聚类结果所要求的效率和精度，文中选择基于均值标准差的定心法作为 MTSCA 聚类算法初始聚类中心，公式为 mil = ( μl － σl ) + 2σl k － 1( i － 1) ， i = 1，2，…，k; l = 1，2，…，q． ( 8) 式中，μ 为均值，σ 为标准差，k 为第 k 个聚类，q 为多维数据的维度．在主成分分析完成后，可以得到初始聚类原型 ηi = { vx i ，Fi，v t i，σ2 i，x，p( ηi ) } ，并通过最小化目标函数 ( 7) 获得聚类原型的最佳参数．其约束条件为: U = ［μi，k ］c ×N | μi，k ∈［0，1］，i，k; ∑ c i = 1 μi，k = 1，k; 0 ＜ ∑ c i = 1 μi，k ＜ N，        i． ( 9) 由此，聚类原型 ηi 中的各个参数如下．聚类的先验概率: p( ηi ) = 1 N ∑ N k = 1 μi，k ． ( 10) 聚类中心: vx i = ∑ N k = 1 ( μi，k ) m ( xk － Wi ，〈yi，k〉) ∑ N k = 1 ( μi，k ) m ． ( 11) 时间模型参数，中心和标准差: v t i = ∑ N k = 1 ( μi，k ) m tk ∑ N k = 1 ( μi，k ) m ，σ2 i，x = ∑ N k = 1 ( μi，k ) m ( tk － vt k ) 2 ∑ N k = 1 ( μi，k ) m ． ( 12) 根据 Gath-Geva 聚类算法由 p( zk | ηi ) 表示隶属于第 i 次聚类中数据点 zk 的概率，数据点 zk =［tk， xT k］T ，则联合密度函数 p( zk ) = p( xk，tk ) 中的两个相互独立变量 tk 和 xk 可建模为一个 n + 1 维的高斯混合函数，则有 p( zk ) = ∑ c i = 1 p( zk，ηi ) = ∑ c i = 1 ［p( zk | ηi ) × p( ηi ) ］= p( xk，tk ) = ∑ c i = 1 p( xk，tk，ηi ) = ∑ c i = 1 ［p( tk | ηi ) × p( xk | ηi ) p( ηi ) ］． ( 13) 即 p( zk | ηi ) = p( tk | ηi ) × p( xk | ηi ) ． ( 14) 定义 4 由于距离 D2 ( zk，ηi ) 和隶属概率 p( zk | ηi ) 存在反比关系，则定义距离函数为 1 D2 ( zk，ηi ) = ai × p( tk | ηi ) × p( xk | ηi ) ． ( 15) 其中: 第一项 ai 表示为聚类的先验概率; 第二项 p ( tk | ηi ) 表示为第 k 个数据点到第 i 次时间聚类中心 v t i 的距离，用公式表示为 p( tk | ηi ) = 2 { πσ2 槡 i，t × exp [ 1 2 ·( tk － v t i ) 2 σ2 i， ] } t － 1 ; ( 16) 第三项 p( xk | ηi ) 表示聚类原型到特征空间数据之间的距离，用公式表示为 p( xk | ηi ) = { ( 2π) r 2 × det 槡 ( Fi ) × [ exp 1 2 ( xk － v x i ) T F － 1 i ( xk － v x i ) ] } － 1 ． ( 17) 式中，v x i 为特征空间中第 i 次时间聚类中心的坐标， r 表示与 i 次聚类相关的距离所表示的模糊协方差矩阵 Fi 的秩．通过上述公式，计算出 D2 ( zk，ηi ) ，并通过迭代更新矩阵: μ ( l) i，k = 1 ∑ c j = 1 ［D( zk，ηi ) /D( zk，ηj ) ］2 /( m －1) ． ( 18) 式中，1≤i≤c，1≤k≤N．对 l = 1，2，…，进行迭代，当满足收敛条件‖U( l) － U( l － 1) ‖ ＜ ε 时，迭代停止． 1. 3 多元时间序列聚类合并通过计算相邻分段之间的目标函数，反复合并两个最低目标段并使其满足条件为止．通过采用递归聚类合并方法来评估相邻聚类之间的相似性，并以此来合并相互相似的聚类．在这个合并和重新聚类的过程中，聚类的数目逐渐减少，直到找到一个适当的聚类数．这个合并过程基于主成分分析模型之间相似性模糊决策算法来进行控制．两个主成分模型的相似性可以通过主成分相似因子 SPCA 来决定．数据集的两个部分 Si 和 Sj 的 PCA 模型都由 q 个主成分构成，则相似因子 Si，j PCA可表示为 · 262 ·

第2期于重重等：多元时序模糊聚类分段挖掘算法 ·263· S=(UL,U..U.,U.). (19) 若聚类所对应的O+1值高于阈值y,则对最相似的 0 一组相邻聚类进行合并，当上述算法在到达终止容式中，U,和U,为数据集中占最大变化的g个主成限ε或不再需要聚类合并时即完成了对多元时间序分的子空间. 列的模糊分段为了检测出变量平均值的变化，同时也需要考虑聚类中心之间的距离： 2实验 D(,)=I-I. (20) 为了验证MTSCA算法在数据挖掘中的有效因此，相似性标准要考虑两个因子c=S兕和= 性，以“可再生能源与建筑集成”项目中实时监测到 D(,) 的海量数据为基础，选取其中两组具有代表性的数由于相似性标准量化了聚类各方面的相似性，据进行测试.在此过程中所选取的测试样本如表1 应通过聚合过程获得整体的聚类的相似性，因此还所示.其中，宁夏“清水湾”住宅区一期工程中所选要用到一个模糊决策方法.在这里引入包含有并行取的数据参数为一号机补水温度、一号机用水温度、度，和临近度，的隶属函数，其中和的值二号机补水温度、二号机用水温度、一号机水泵功率由平均相似性给出： (W)、二号机水泵功率(W)、太阳辐照度(W·m2)、 =e(e-1) 累计辐照量(M·m2)和风速(m·s1).河北建设服务中心办公楼工程中所选取的数据参数为主机供 (21) 水温度、主机回水温度、主机瞬时温度、循环温度、循而整体聚类相似性通过上述两个参数来确定的.决环湿度和主机功率.上述指标在研究开发可再生能策过程的结果为整体聚类相似性矩阵O,其元素源与建筑集成技术中尤为重要，能够直接体现节能 0为建筑预期效果与实际情况的差异，因此针对不同能 112 源类型的两组实验结果为采用时序分析法对经济指 0 )2+（u)2 (22) 标的预测奠定了基础。表1可再生能源与建筑集成项目数据表 Table 1 Renewable energy and building integrated project data sheet 数据项目项目类型选取时段监测领率样本数目点样本类型宁夏“清水湾”住宅区一期工程太阳能光热利用工程2010-07-16T00:00:00一13：20：00 1s1 47345 数据相关性较好河北建设服务中心办公楼地源热泵应用工程 2009-08-01-2009-08-09 I min- 12674 数据相关性较差 2.1实验数据准备 15000 2.1.1数据间相关性较好的数据 5000 选取宁夏“清水湾”住宅区一期工程中的数据 -5000 (共47345点，相关性较好)，并将其输入程序，预设 1.0 初始化被测数据的分段数，c=10,则通过初始环节 0.6 协方差矩阵的特征值绘出陡坡图，如图1所示.要 456 7 主成分数目满足98%的准确度近似条件，则由图可确定出主成图1宁夏“清水湾”住宅区一期工程协方差矩阵陡坡图分数目q=3,并设定模糊参数m=2,终止容限ε≤ Fig.I Covariance matrix steep slope graph of a residential area of 10-4,由时间序列的均匀性可定矩阵0相似性阈值 Ningxia Qing Shui Wan 0.3<y<0.75. 2.1.2数据间相关性较差的数据由时间序列的均匀性可定矩阵0相似性阈值0.3< 选取河北建设服务中心办公楼工程中的数据 y<0.75. (共12674点，相关性较差)，并将其输入程序，初始 2.2实验结果及分析化被测数据的分段数，c=10,并通过初始环节协方宁夏“清水湾”住宅区一期工程中数据采用多差矩阵的特征值绘出陡坡图如图2所示.要满足元时序模糊聚类分段的聚类算法所得分段结果，如 98%的准确度近似条件，则由图可确定出主成分数图3所示.同时计算出相邻聚类的相似因子S” 目g=3,并设定模糊参数m=2,终止容限e≤10-4，分别为0.6273、0.0961、0.6013和0.6341，相似性指

第 2 期于重重等: 多元时序模糊聚类分段挖掘算法 Si，j PCA = 1 q tr( UT i，qUj，qUT j，qUi，q ) ． ( 19) 式中，Ui，q和 Uj，q为数据集中占最大变化的 q 个主成分的子空间．为了检测出变量平均值的变化，同时也需要考虑聚类中心之间的距离: D( vx i ，vx j ) = ‖vx i － vx j ‖． ( 20) 因此，相似性标准要考虑两个因子 c 1 i，j = Si，j PCA和 c 2 i，j = D( vx i ，vx j ) ．由于相似性标准量化了聚类各方面的相似性，应通过聚合过程获得整体的聚类的相似性，因此还要用到一个模糊决策方法．在这里引入包含有并行度 μ1 i，j和临近度 μ2 i，j的隶属函数，其中 μ1 i，j和 μ2 i，j的值由平均相似性给出: μ1 i，j = 1 c( c － 1) ∑ c i = 1 ∑ c j = 1 j≠i c 1 ij，μ2 i，j = 1 c( c － 1) ∑ c i = 1 ∑ c j = 1 j≠i c 2 ij． ( 21) 而整体聚类相似性通过上述两个参数来确定的．决策过程的结果为整体聚类相似性矩阵 O，其元素 Oi，j为 Oi，j = [ ( μ1 i，j ) 2 + ( μ2 i，j ) 2 ] 2 1 /2 ． ( 22) 若聚类所对应的 Oi，i + 1值高于阈值 γ，则对最相似的一组相邻聚类进行合并，当上述算法在到达终止容限 ε 或不再需要聚类合并时即完成了对多元时间序列的模糊分段． 2 实验为了验证 MTSCA 算法在数据挖掘中的有效性，以“可再生能源与建筑集成”项目中实时监测到的海量数据为基础，选取其中两组具有代表性的数据进行测试．在此过程中所选取的测试样本如表 1 所示．其中，宁夏“清水湾”住宅区一期工程中所选取的数据参数为一号机补水温度、一号机用水温度、二号机补水温度、二号机用水温度、一号机水泵功率 ( W) 、二号机水泵功率( W) 、太阳辐照度( W·m － 2 ) 、累计辐照量( MJ·m － 2 ) 和风速( m·s － 1 ) ．河北建设服务中心办公楼工程中所选取的数据参数为主机供水温度、主机回水温度、主机瞬时温度、循环温度、循环湿度和主机功率．上述指标在研究开发可再生能源与建筑集成技术中尤为重要，能够直接体现节能建筑预期效果与实际情况的差异，因此针对不同能源类型的两组实验结果为采用时序分析法对经济指标的预测奠定了基础．表 1 可再生能源与建筑集成项目数据表 Table 1 Ｒenewable energy and building integrated project data sheet 数据项目项目类型选取时段监测频率样本数目点样本类型宁夏“清水湾”住宅区一期工程太阳能光热利用工程 2010--07--16T00: 00: 00—13: 20: 00 1 s － 1 47345 数据相关性较好河北建设服务中心办公楼地源热泵应用工程 2009--08--01—2009--08--09 1 min － 1 12674 数据相关性较差 2. 1 实验数据准备 2. 1. 1 数据间相关性较好的数据选取宁夏“清水湾”住宅区一期工程中的数据 ( 共 47345 点，相关性较好) ，并将其输入程序，预设初始化被测数据的分段数，c = 10，则通过初始环节协方差矩阵的特征值绘出陡坡图，如图 1 所示．要满足 98% 的准确度近似条件，则由图可确定出主成分数目 q = 3，并设定模糊参数 m = 2，终止容限 ε≤ 10 － 4，由时间序列的均匀性可定矩阵 O 相似性阈值 0. 3 ＜ γ ＜ 0. 75． 2. 1. 2 数据间相关性较差的数据选取河北建设服务中心办公楼工程中的数据 ( 共 12674 点，相关性较差) ，并将其输入程序，初始化被测数据的分段数，c = 10，并通过初始环节协方差矩阵的特征值绘出陡坡图如图 2 所示．要满足 98% 的准确度近似条件，则由图可确定出主成分数目 q = 3，并设定模糊参数 m = 2，终止容限 ε≤10 － 4，图 1 宁夏“清水湾”住宅区一期工程协方差矩阵陡坡图 Fig． 1 Covariance matrix steep slope graph of a residential area of Ningxia Qing Shui Wan 由时间序列的均匀性可定矩阵 O 相似性阈值 0. 3 ＜ γ ＜ 0. 75． 2. 2 实验结果及分析宁夏“清水湾”住宅区一期工程中数据采用多元时序模糊聚类分段的聚类算法所得分段结果，如图 3 所示．同时计算出相邻聚类的相似因子 Si( i + 1) PCA 分别为 0. 6273、0. 0961、0. 6013 和 0. 6341，相似性指 · 362 ·

·264 北京科技大学学报第36卷 15000 5000 -5000 鳞1.00e 0.95 50001000015000200002500030000350004000045000 时间/ 0.85 图4基于Hotelling T算法的“清水湾”住宅区一期工程分段结主成分数目果图 Fig.4 Segmentation result of Ningxia Qing Shui Wan residential area 图2河北建设服务中心办公楼工程协方差矩阵陡坡图 Fig.2 Covariance matrix steep slope graph of Hebei Construction project based on Hotelling T2 algorithm Service Center Office Building engineering 在4800min附近，相邻聚类的相似因子最小且相似数分别为0.6341、0.0168、0.4706和0.6306.从图3 性指数为0.3745，在图5中可以清晰地看出在这附可以看出最终的分段数目为5.在第二段与第三段近无交集，表明在该点附近变量之间的相似性发生之间，即在32000s附近，相邻聚类的相似因子最小了最大的改变，变量间突变现象较严重：而在第七段且相似性指数为0.0168，在图2中可以清晰地看出与第八段(9000min点左右)之间相似因子较大，相在这附近无交集，表明在该点附近变量之间的相似似性指数高，说明变量间的变化趋势基本一致，主要性发生了最大的改变，变量间突变现象较严重：而在是平均值发生了变化. 第一段与第二段、第四段与第五段(23000s、44000s 1.0 左右)之间相似因子较大，相似性指数高，说明变量间的变化趋势基本一致，主要是平均值发生了变化. 0 2000 4000 6000 8000 10000 12000 时间/min 68 图5基于MTSCA算法的河北建设服务中心办公楼工程分段结 04 果图 Fig.5 Segmentation result of Hebei Construction Service Center Of- 50001000015000200002500030000350004000045000 时间/s fice Building projeet based on MTSCA algorithm 图3基于MTSCA算法的宁夏“清水湾”住宅区一期工程分段结同样与基于多元统计分析Hotelling T算法的果图自底向上分段方法进行比较，基于Hotelling T的自 Fig.3 Segmentation result of Ningxia Qing Shui Wan residential area 底向上算法的分段结果如图6所示 project based on MTSCA algorithm 为了进一步验证分段结果的准确性，本文将结果与基于多元统计分析Hotelling T2算法的自底向上分段方法no进行比较.基于Hotelling T2的自底 0 2000 4000600080001000012000 向上算法的分段结果如图4所示. 时间/min 经过对比发现MTSCA算法在处理相关性较图6基于Hotelling T2算法的河北建设服务中心办公楼工程分好的数据时不仅可以得到基于Hotelling T的自底段结果图向上方法获得的分段结果且能够同时发现检测到 Fig.6 Segmentation result of Hebei Construction Service Center Of- 潜在过程变化和数据点的突变，如在32000s和 fice Building project based on Hotelling T2 algorithm 39000s处. 通过比较可以发现基于模糊分段算法开发的聚河北建设服务中心办公楼工程中数据采用多元类分析大体上不仅可以得到基于Hotelling T的自时序模糊聚类分段的聚类算法所得分段结果，如图底向上方法获得的分段结果（在数据点3200min、 5所示.计算出相邻聚类的相似因子S”分别为 4100min、4700min和6900min左右)：且能够同时发 0.4137、0.5929、0.5602、0.3640、0.6273、0.6399、现检测到潜在过程变化和数据点的突变，如在300 0.9283和0.4062，相似性指数分别为：0、0、0、 min和9200min左右处 0.3745、0.6844、0.6922、0.7236和0.从图中可以看通过上述两组不同相关性数据的实验可以得出出最终的分段数目为9.在第四段与第五段之间，即结论：无论数据间是否具有相关性，多元时序模糊分

北京科技大学学报第 36 卷图 2 河北建设服务中心办公楼工程协方差矩阵陡坡图 Fig． 2 Covariance matrix steep slope graph of Hebei Construction Service Center Office Building engineering 数分别为 0. 6341、0. 0168、0. 4706 和 0. 6306．从图 3 可以看出最终的分段数目为 5．在第二段与第三段之间，即在 32000 s 附近，相邻聚类的相似因子最小且相似性指数为 0. 0168，在图 2 中可以清晰地看出在这附近无交集，表明在该点附近变量之间的相似性发生了最大的改变，变量间突变现象较严重; 而在第一段与第二段、第四段与第五段( 23000 s、44000 s 左右) 之间相似因子较大，相似性指数高，说明变量间的变化趋势基本一致，主要是平均值发生了变化．图 3 基于 MTSCA 算法的宁夏“清水湾”住宅区一期工程分段结果图 Fig． 3 Segmentation result of Ningxia Qing Shui Wan residential area project based on MTSCA algorithm 为了进一步验证分段结果的准确性，本文将结果与基于多元统计分析 Hotelling T2 算法的自底向上分段方法［10］进行比较．基于 Hotelling T2 的自底向上算法的分段结果如图 4 所示．经过对比发现 MTSCA 算法在处理相关性较好的数据时不仅可以得到基于 Hotelling T2 的自底向上方法获得的分段结果且能够同时发现检测到潜在过程变化和数据点的突变，如在 32000 s 和 39000 s 处．河北建设服务中心办公楼工程中数据采用多元时序模糊聚类分段的聚类算法所得分段结果，如图 5 所示．计算出相邻聚类的相似因子 Si( i + 1) PCA 分别为 0. 4137、0. 5929、0. 5602、0. 3640、0. 6273、0. 6399、 0. 9283 和 0. 4062，相似性指数分别为: 0、0、0、 0. 3745、0. 6844、0. 6922、0. 7236 和0．从图中可以看出最终的分段数目为 9．在第四段与第五段之间，即图 4 基于 Hotelling T2 算法的“清水湾”住宅区一期工程分段结果图 Fig． 4 Segmentation result of Ningxia Qing Shui Wan residential area project based on Hotelling T2 algorithm 在 4800 min 附近，相邻聚类的相似因子最小且相似性指数为 0. 3745，在图 5 中可以清晰地看出在这附近无交集，表明在该点附近变量之间的相似性发生了最大的改变，变量间突变现象较严重; 而在第七段与第八段( 9000 min 点左右) 之间相似因子较大，相似性指数高，说明变量间的变化趋势基本一致，主要是平均值发生了变化．图 5 基于 MTSCA 算法的河北建设服务中心办公楼工程分段结果图 Fig． 5 Segmentation result of Hebei Construction Service Center Office Building project based on MTSCA algorithm 同样与基于多元统计分析 Hotelling T2 算法的自底向上分段方法进行比较，基于 Hotelling T2 的自底向上算法的分段结果如图 6 所示．图 6 基于 Hotelling T2算法的河北建设服务中心办公楼工程分段结果图 Fig． 6 Segmentation result of Hebei Construction Service Center Office Building project based on Hotelling T2 algorithm 通过比较可以发现基于模糊分段算法开发的聚类分析大体上不仅可以得到基于 Hotelling T2 的自底向上方法获得的分段结果( 在数据点 3200 min、 4100 min、4700 min 和6900 min 左右) ; 且能够同时发现检测到潜在过程变化和数据点的突变，如在 300 min 和 9200 min 左右处．通过上述两组不同相关性数据的实验可以得出结论: 无论数据间是否具有相关性，多元时序模糊分 · 462 ·

第2期于重重等：多元时序模糊聚类分段挖掘算法 ·265· 段方法均能够有效地区分各个分段之间的模糊界 B]Jia P T,He H C,Liu L,et al.Overview of time series data min- 限，检测到其潜在过程变化和数据点的突变，为“可 ing.Appl Res Comput,2007,24(11)15 (贾澎涛，何华灿，刘丽，等.时间序列数据挖掘综述.计算机再生能源与建筑集成”项目中技术经济指标的预测应用研究，2007,24(11)：15) 奠定了基础. [4]Gao Y,Liu D Y,Qi H,et al.Semi-supervised K-means cluste- 3结论 ring algorithm for multi-ype relational data.Softcare,2008,19 (11):2814 (1)通过实验证明MTSCA算法在处理多变量 (高滢，刘大有，齐红，等。一种半监督K均值多关系数据聚类算法.软件学报，2008,19(11)：2814) 时序数据时具有良好的效果，能够较清晰地显示出 [Abonyi J,Feil B,Nemeth S,et al.Modified Gath-Geva clustering 分段结果并发现其模式 for fuzzy segmentation of multivariate time-series.Fuzzy Sets Syst, (2)MTSCA算法能够有效地减小Gath-Geva算 2005,149(1):39 法对于初始值的敏感性，从而根本上保证分段结果 6]Keogh E.Data mining and machine learning in time series data- 的准确性. bases /Tenth ACM SIGKDD International Conference Knowledge (3)MTSCA算法能够清晰地反映出原始数据 Discovery and Data Mining.Seattle,2004 Li A C.Qin Z.On-ine segmentation of time-series data.I Sofi- 中潜在的过程变化，为“可再生能源与建筑集成”项 re,2004,15(11):1671 目中技术经济指标的预测提供了可行的分段保障， (李爱国，覃征.在线分割时间序列数据.软件学报，2004，说明该算法在多元时序模糊聚类分段挖掘的实际应 15(11):1671) 用中具有较高的应用价值. [8]Hua J Z,Wang J G,Yang J Y.A novel approach to edge detec- tion based on PCA.J Image Graph,2009,14(5):912 (华继钊，王建国，杨静宇.基于PCA的边缘检测方法.中国参考文献图象图形学报，2009,14(5)：912) Mao Y J.Research and Implementation of Multidimensional Time- ] Li M,Xu J W,Yang JH,et al.Prediction for chaotic time series Series Data Mining Methods [Dissertation].Shanghai:Shanghai based on phase reconstruction of multivariate time series.Uni Jiao Tong University,2007 Sci Technol Beijing,2008,32(2):208 (毛云建.多维时间序列数据挖掘的方法研究及应用[学位论 (黎敏，徐金梧，阳建宏，等.基于多变量相重构的混沌时间文].上海：上海交通大学，2007) 序列预测.北京科技大学学报，2008,32(2)：208) Chen XT,Li M L,Chen Y J.Summaly of application research [10]Chen X L,Yang L M.Partitioning machine learning sample set based on clustering of time series similarity.Comput Eng Des, using similarity to mean vector.J Cent South Univ Sci Technol, 2010,31(3):577 2009,40(6)：1636 (陈湘涛，李明亮，陈玉娟.基于时间序列相似性聚类的应用 (陈先来，杨路明.基于均矢量相似性的机器学习样本集划研究综述.计算机工程与设计，2010,31(3)：577) 分.中南大学学报：自然科学版，2009,40(6)：1636)

第 2 期于重重等: 多元时序模糊聚类分段挖掘算法段方法均能够有效地区分各个分段之间的模糊界限，检测到其潜在过程变化和数据点的突变，为“可再生能源与建筑集成”项目中技术经济指标的预测奠定了基础． 3 结论 ( 1) 通过实验证明 MTSCA 算法在处理多变量时序数据时具有良好的效果，能够较清晰地显示出分段结果并发现其模式． ( 2) MTSCA 算法能够有效地减小 Gath-Geva 算法对于初始值的敏感性，从而根本上保证分段结果的准确性． ( 3) MTSCA 算法能够清晰地反映出原始数据中潜在的过程变化，为“可再生能源与建筑集成”项目中技术经济指标的预测提供了可行的分段保障，说明该算法在多元时序模糊聚类分段挖掘的实际应用中具有较高的应用价值．参考文献［1］ Mao Y J．Ｒesearch and Implementation of Multidimensional TimeSeries Data Mining Methods ［Dissertation］． Shanghai: Shanghai Jiao Tong University，2007 ( 毛云建．多维时间序列数据挖掘的方法研究及应用［学位论文］．上海: 上海交通大学，2007) ［2］ Chen X T，Li M L，Chen Y J． Summaly of application research based on clustering of time series similarity． Comput Eng Des， 2010，31( 3) : 577 ( 陈湘涛，李明亮，陈玉娟．基于时间序列相似性聚类的应用研究综述．计算机工程与设计，2010，31( 3) : 577) ［3］ Jia P T，He H C，Liu L，et al． Overview of time series data mining． Appl Ｒes Comput，2007，24( 11) : 15 ( 贾澎涛，何华灿，刘丽，等．时间序列数据挖掘综述．计算机应用研究，2007，24( 11) : 15) ［4］ Gao Y，Liu D Y，Qi H，et al． Semi-supervised K-means clustering algorithm for multi-type relational data． J Software，2008，19 ( 11) : 2814 ( 高滢，刘大有，齐红，等．一种半监督 K 均值多关系数据聚类算法．软件学报，2008，19( 11) : 2814) ［5］ Abonyi J，Feil B，Nemeth S，et al． Modified Gath-Geva clustering for fuzzy segmentation of multivariate time-series． Fuzzy Sets Syst， 2005，149( 1) : 39 ［6］ Keogh E． Data mining and machine learning in time series databases / / Tenth ACM SIGKDD International Conference Knowledge Discovery and Data Mining． Seattle，2004 ［7］ Li A G，Qin Z． On-line segmentation of time-series data． J Software，2004，15( 11) : 1671 ( 李爱国，覃征．在线分割时间序列数据．软件学报，2004， 15( 11) : 1671) ［8］ Hua J Z，Wang J G，Yang J Y． A novel approach to edge detection based on PCA． J Image Graph，2009，14( 5) : 912 ( 华继钊，王建国，杨静宇．基于 PCA 的边缘检测方法．中国图象图形学报，2009，14( 5) : 912) ［9］ Li M，Xu J W，Yang J H，et al． Prediction for chaotic time series based on phase reconstruction of multivariate time series． J Univ Sci Technol Beijing，2008，32( 2) : 208 ( 黎敏，徐金梧，阳建宏，等．基于多变量相重构的混沌时间序列预测．北京科技大学学报，2008，32( 2) : 208) ［10］ Chen X L，Yang L M． Partitioning machine learning sample set using similarity to mean vector． J Cent South Univ Sci Technol， 2009，40( 6) : 1636 ( 陈先来，杨路明．基于均矢量相似性的机器学习样本集划分．中南大学学报: 自然科学版，2009，40( 6) : 1636) · 562 ·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

多元时序模糊聚类分段挖掘算法