正在加载图片...
第2期 于重重等:多元时序模糊聚类分段挖掘算法 ·261· 并.为验证算法有效性,本文以“可再生能源与建筑 …,xnN). 集成”项目中实时监测到的海量数据为对象,进行 1.1.3主成分分析 多元时序模糊聚类分段挖掘,并对实验结果进行了 在对多变量数据进行研究时,变量的增加会导 分析比较,结果表明该算法能够较为快速地检测出 致数据分析工作的难度和复杂性成倍增加.因此, 多元时间序列中隐藏结构的变化 将原有的多变量经过一系列的运算和变换变成较少 的变量是十分必要的.为保证这些变量能够尽可能 1多元时序模糊分段聚类算法 地保留原有变量所反应的信息,同时满足上述要求, 由于时间序列具有大长度、多数据点等特性,为 因此引入主成分分析网 了描述其在某个时间段内的局部特征,提高数据挖 通过使用马氏距离来调整变量之间的相关性, 掘的效率,需要先根据用户指定的模式长度和时间 并得到相应的协方差矩阵F: 粒度,完成原始时间序列的分割,分割时一般将其分 割成等长度的子序列或不重叠的子序列集合,为后 (u(x-))(x4-)T F.= (2) 续计算降低复杂程度.由于变量的变化具有模糊 ∑(μ.)m 性,所以在对时间序列进行分段过程中给出清晰的 界定是不切实际的因.考虑到在时间序列中数据聚 式中:u.4表示第k个数据点属于第i次聚类的先验 类中的点必须来自于连续的时间点,因此在聚类的 概率,即初始隶属值;m表示模糊参数:表示聚类 过程中要同时考虑数据的时间坐标.本文提出的算 中心 法,其主体思想是把数据建模为一个混合的多元高 通过协方差矩阵F得到其特征值和特征向量, 斯分布,并采用高斯隶属函数来表示时间序列的模 并根据数据变化的贡献在陡坡图上有序的绘制出特 糊分段. 征值入,然后分析陡坡图上特征值贡献率C0的幅 多元时序模糊聚类分段挖掘的具体步骤为: 度和综合的累积率CU以选择合适的主成分数目. (1)多元时间序列归一化、等长度子序列分段分割 其中: 处理;(2)时间序列的主成分分析;(3)算法实现聚 C0= (3) 类合并:(4)时间序列模糊分段 1.1多元时间序列预处理 台 i 1.1.1时间序列分段描述 SA = 定义1时间序列为T={x1≤k≤N},其中 CU= (4) N为时间序列的数据长度,x=x,x2k,…,x] ∑AH = 为按时间点t,2,…,tw标记的N个样本的有限集, 若协方差矩阵F:有q个非零的特征值,则可以 则连续时间点S(a,b)=a≤k≤b,x。,xa+1,…,x6表 被分解为 示为T中的任意一个分段团. F=UAU =0I+WW. (5) 定义2S={S:(a,b:)I1≤i≤c}定义为对时 式中, 间序列T分段成不重叠的c个时间片段,其中a,= 1,b.=V,a:=b:-1+1. 入时 由于一个时间序列分段可以看作为一个具有约 因此,在使用主成分分析方法对协方差矩阵F, 束的聚类,因此可以在连续的条件下对所取得的数 进行降维处理后的观测向量x:转变为 据按照其相似性进行聚类处理 y.k=W1(x)=W(x). (6) 1.1.2时间序列归一化 式中,W为权重矩阵,W=U.,(Ag-σ.I)nR, 为了保证时间序列在聚类处理的收敛速度,增 R,是一个任意q×q正交旋转矩阵. 加样本间的统计分布性,采用归一化来完成数据的 1.2多元时间序列聚类挖掘 预处理,公式如下: 由于要考虑实际时间序列与拟合分段片段函数 x.-minx (1) 之间的距离,根据数据点与聚类原型的加权距离平 x=- maxx minx 方和的标准来对目标函数进行定义回 式中:xn=n1,xn.2,,xaN],n为数据维度:minx. 定义3数据点与聚类原型的加权距离平方和 为min(xn1,xn,2,…,xnN);marn为max(xa1'xa2, J的计算公式为第 2 期 于重重等: 多元时序模糊聚类分段挖掘算法 并. 为验证算法有效性,本文以“可再生能源与建筑 集成”项目中实时监测到的海量数据为对象,进行 多元时序模糊聚类分段挖掘,并对实验结果进行了 分析比较,结果表明该算法能够较为快速地检测出 多元时间序列中隐藏结构的变化. 1 多元时序模糊分段聚类算法 由于时间序列具有大长度、多数据点等特性,为 了描述其在某个时间段内的局部特征,提高数据挖 掘的效率,需要先根据用户指定的模式长度和时间 粒度,完成原始时间序列的分割,分割时一般将其分 割成等长度的子序列或不重叠的子序列集合,为后 续计算降低复杂程度. 由于变量的变化具有模糊 性,所以在对时间序列进行分段过程中给出清晰的 界定是不切实际的[6]. 考虑到在时间序列中数据聚 类中的点必须来自于连续的时间点,因此在聚类的 过程中要同时考虑数据的时间坐标. 本文提出的算 法,其主体思想是把数据建模为一个混合的多元高 斯分布,并采用高斯隶属函数来表示时间序列的模 糊分段. 多元时序模糊聚类分段挖掘的具体步骤为: ( 1) 多元时间序列归一化、等长度子序列分段分割 处理; ( 2) 时间序列的主成分分析; ( 3) 算法实现聚 类合并; ( 4) 时间序列模糊分段. 1. 1 多元时间序列预处理 1. 1. 1 时间序列分段描述 定义 1 时间序列为 T = { xk | 1≤k≤N} ,其中 N 为时间序列的数据长度,xk =[x1,k,x2,k,…,xn,k]T 为按时间点 t1,t2,…,tN 标记的 N 个样本的有限集, 则连续时间点 S( a,b) = a≤k≤b,xa,xa + 1,…,xb 表 示为 T 中的任意一个分段[7]. 定义 2 Sc T = { Si ( ai,bi ) | 1≤i≤c} 定义为对时 间序列 T 分段成不重叠的 c 个时间片段,其中 a1 = 1,bc = N,ai = bi - 1 + 1. 由于一个时间序列分段可以看作为一个具有约 束的聚类,因此可以在连续的条件下对所取得的数 据按照其相似性进行聚类处理. 1. 1. 2 时间序列归一化 为了保证时间序列在聚类处理的收敛速度,增 加样本间的统计分布性,采用归一化来完成数据的 预处理,公式如下: x' n = xn - minxn maxxn - minxn . ( 1) 式中: xn =[xn,1,xn,2,…,xn,N],n 为数据维度; minxn 为 min( xn,1,xn,2,…,xn,N ) ; maxxn 为 max ( xn,1,xn,2, …,xn,N) . 1. 1. 3 主成分分析 在对多变量数据进行研究时,变量的增加会导 致数据分析工作的难度和复杂性成倍增加. 因此, 将原有的多变量经过一系列的运算和变换变成较少 的变量是十分必要的. 为保证这些变量能够尽可能 地保留原有变量所反应的信息,同时满足上述要求, 因此引入主成分分析[8]. 通过使用马氏距离来调整变量之间的相关性, 并得到相应的协方差矩阵 Fi : Fi = ∑ N k = 1 ( μi,k ) m ( xk - vx i ) ( xk - vx i ) T ∑ N k = 1 ( μi,k ) m . ( 2) 式中: μi,k表示第 k 个数据点属于第 i 次聚类的先验 概率,即初始隶属值; m 表示模糊参数; vx i 表示聚类 中心. 通过协方差矩阵 Fi 得到其特征值和特征向量, 并根据数据变化的贡献在陡坡图上有序的绘制出特 征值 λk,然后分析陡坡图上特征值贡献率 CO 的幅 度和综合的累积率 CU 以选择合适的主成分数目. 其中: CO = λi ∑ p k = 1 λk , ( 3) CU = ∑ i k = 1 λk ∑ p k = 1 λk . ( 4) 若协方差矩阵 Fi 有 q 个非零的特征值,则可以 被分解为 Fi = UiΛiUT i = σ2 i,x I + WiWT i . ( 5) 式中, σ2 i,x = 1 n - q ∑ n j = q +1 λi,j . 因此,在使用主成分分析方法对协方差矩阵 Fi 进行降维处理后的观测向量 xk 转变为 yi,k = W - 1 i ( xk ) = WT i ( xk ) . ( 6) 式中,Wi 为权重矩阵,Wi = Ui,q ( Λi,q - σ2 i,x I) 1 /2 Ri, Ri 是一个任意 q × q 正交旋转矩阵. 1. 2 多元时间序列聚类挖掘 由于要考虑实际时间序列与拟合分段片段函数 之间的距离,根据数据点与聚类原型的加权距离平 方和的标准来对目标函数进行定义[9]. 定义 3 数据点与聚类原型的加权距离平方和 J 的计算公式为 · 162 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有