正在加载图片...
第3期 李海林,等:基于特征矩阵的多元时间序列最小距离度量方法 443· 常利用数据变换的方法来实现数据处理,达到减噪 方法,是基于某种类型的投影机制,将高维的数据向 降冗的效果,例如奇异值分解4]、独立成分分 低维空间(特征空间)投影,并期望在特征空间中数 析和主成分分析0等。其中,主成分分析 据的方差最大。通过选择占有绝大部分信息的主成 (principal component analysis,PCA)是多元时间序 分来实现数据降维,同时进行特征表示。换句话说, 列数据降维和特征表示中最常用的方法之一[山),它 如果把所有的点映射在一起,则几乎所有的原始信 通过对多元时间序列的协方差矩阵进行特征分解, 息都将丢失:若映射后数据的方差尽可能大,则数据 实现数据空间变换得到方差最大的主成分作为原始 点将被分开,使得距离信息保留得更多。因此,传统 数据的特征。同时,根据方差大小选择对应的前几 的主成分分析方法通过方差的大小来选择主成分。 个主成分作为多元时间序列的数据特征,从而实现 对于多元时间序列X=[X,X2…X]可以 原始多元时间序列的变量属性维度的降维。 表示成一个n×m的矩阵,即X=(x写)xm。其 在多元时间序列数据挖掘前期任务中,除了进 中,X,表示第个变量属性所形成的序列,x:表 行数据降维和特征表示外,相似性(或距离)度量也 示多元时间序列第i个时间点第j个变量的观测 是一项重要的工作,其度量质量直接影响着后期数 值,n和m分别表示多元时间序列的时间维度 据挖掘技术的性能和挖掘质量。例如,多元时间序 (长度)和变量维度。 列的聚类、分类、相似性查找和匹配、异常检测等都 根据主成分分析原理,首先需要计算多元时间 需要进行距离度量。在时间序列数据挖掘中,最常 序列变量之间的协方差,得到一个协方差矩阵 用的2种方法是欧氏距离(Euclidean distance)[和 Smxm,再通过奇异值分解对协方差矩阵Smxm进行特 动态时间弯曲方法(dynamic time warping, 征值和特征向量分解,得到以特征值大小排列形成 DTW))。前者能较快地计算序列之间的相似性, 特征值对角矩阵Σmxm=diag(入1,d2,…,入m)和对 适用于等长时间序列的相似性度量:后者对不等长 应的特征矩阵Umxm=[山1山2…u】,故有 时间序列的距离度量具有较强的鲁棒性,但需要二 Snkm=UxΣxnUExm (1) 阶的时间和空间复杂度,不利用大量较长时间序列 利用主成分分析方法对多元时间序列Xxm进 的相似性度量。针对主成分分析方法得到的特征数 行特征分解,可以得到相应的特征值和特征矩阵。 据,存在许多距离度量方法来实现特征数据的相似 同时,根据特征值(即方差)的大小,可以选择对应 性计算。其中,较为常用的是一种被称为EOs的距 的特征向量作为特征空间中的坐标轴,进而得到相 离度量方法[1,它利用夹角公式来度量2个特征向 应的主成分。选取前k(k<m)个主成分作为该多 量之间的关系,同时以相应的方差作为权重,较好地 元时间序列的特征,即 描述了多元时间序列经过特征变换后特征数据之间 Ynxt=X.xmUmxt (2) 的差异性。然而,Eos是根据特征序列方差大小来 与原始多元时间序列Xxm相比,由于k<m, 选择相应特征向量进行匹配,迫使较大方差对应的 特征序列Y4实现了数据降维.同时,其对原始数据 特征向量被用来计算相似性。另外,权重是由方差 信息的保存量为e=∑,A,/∑,A。然而,特征 的大小决定,使得Eos因过分强调方差的重要性而 序列Y4虽然对多元时间序列进行了降维处理,但 忽视了特征空间之间的差异性。 仅局限于从变量属性维度进行数据压缩,没有实现 针对上述问题,本文提出一种基于特征矩阵的 从时间属性维度方向的数据降维。鉴于此,部分学 多元时间序列最小距离度量方法,它利用主成分分 者通过比较数据降维后的特征空间来区分原始多元 析对多元时间序列进行特征表示,并获得相应的特 时间序列的数据分布特征[4。 征矩阵并构建相应的正交坐标系。另外,通过夹角 Eos距离度量方法就是一种基于特征空间的多 公式来度量2个多元时间序列对应正交坐标系中不 元时间序列相似性度量方法4。它利用主成分分 同坐标轴之间的距离,并结合匈牙利算法计算它们 析方法对多元时间序列进行特征分解,得到相应的 之间的最小距离。该方法不依赖于方差的大小来选 特征值和特征矩阵。同时,根据特征值的大小,选取 择夹角向量,而是通过度量正交坐标系之间的相似 对应的特征向量形成特征空间坐标系,并且结合综 性来反映原始多元时间序列的差异,进而克服了传 合权重W来计算2个多元时间序列A和B对应特征 统Eros方法的局限性。 空间坐标系之间的相似性,即 1 主成分分析与Eros距离度量 Eros(A,B,W)= ∑10,cos0 主成分分析(PCA)是一种最常用的线性降维 (3)常利用数据变换的方法来实现数据处理,达到减噪 降冗的 效 果, 例 如 奇 异 值 分 解[4⁃6] 、 独 立 成 分 分 析[7⁃8]和 主 成 分 分 析[9⁃10] 等。 其 中, 主 成 分 分 析 (principal component analysis, PCA) 是多元时间序 列数据降维和特征表示中最常用的方法之一[11] ,它 通过对多元时间序列的协方差矩阵进行特征分解, 实现数据空间变换得到方差最大的主成分作为原始 数据的特征。 同时,根据方差大小选择对应的前几 个主成分作为多元时间序列的数据特征,从而实现 原始多元时间序列的变量属性维度的降维。 在多元时间序列数据挖掘前期任务中,除了进 行数据降维和特征表示外,相似性(或距离)度量也 是一项重要的工作,其度量质量直接影响着后期数 据挖掘技术的性能和挖掘质量。 例如,多元时间序 列的聚类、分类、相似性查找和匹配、异常检测等都 需要进行距离度量。 在时间序列数据挖掘中,最常 用的 2 种方法是欧氏距离(Euclidean distance) [12]和 动 态 时 间 弯 曲 方 法 ( dynamic time warping, DTW) [13] 。 前者能较快地计算序列之间的相似性, 适用于等长时间序列的相似性度量;后者对不等长 时间序列的距离度量具有较强的鲁棒性,但需要二 阶的时间和空间复杂度,不利用大量较长时间序列 的相似性度量。 针对主成分分析方法得到的特征数 据,存在许多距离度量方法来实现特征数据的相似 性计算。 其中,较为常用的是一种被称为 Eros 的距 离度量方法[14] ,它利用夹角公式来度量 2 个特征向 量之间的关系,同时以相应的方差作为权重,较好地 描述了多元时间序列经过特征变换后特征数据之间 的差异性。 然而,Eros 是根据特征序列方差大小来 选择相应特征向量进行匹配,迫使较大方差对应的 特征向量被用来计算相似性。 另外,权重是由方差 的大小决定,使得 Eros 因过分强调方差的重要性而 忽视了特征空间之间的差异性。 针对上述问题,本文提出一种基于特征矩阵的 多元时间序列最小距离度量方法,它利用主成分分 析对多元时间序列进行特征表示,并获得相应的特 征矩阵并构建相应的正交坐标系。 另外,通过夹角 公式来度量 2 个多元时间序列对应正交坐标系中不 同坐标轴之间的距离,并结合匈牙利算法计算它们 之间的最小距离。 该方法不依赖于方差的大小来选 择夹角向量,而是通过度量正交坐标系之间的相似 性来反映原始多元时间序列的差异,进而克服了传 统 Eros 方法的局限性。 1 主成分分析与 Eros 距离度量 主成分分析( PCA) 是一种最常用的线性降维 方法,是基于某种类型的投影机制,将高维的数据向 低维空间(特征空间)投影,并期望在特征空间中数 据的方差最大。 通过选择占有绝大部分信息的主成 分来实现数据降维,同时进行特征表示。 换句话说, 如果把所有的点映射在一起,则几乎所有的原始信 息都将丢失;若映射后数据的方差尽可能大,则数据 点将被分开,使得距离信息保留得更多。 因此,传统 的主成分分析方法通过方差的大小来选择主成分。 对于多元时间序列 X = X1 X2 … Xm [ ] 可以 表示成一个 n × m 的矩阵,即 X = ( xij) n ×m 。 其 中, Xj 表示第 j 个变量属性所形成的序列, xij 表 示多元时间序列第 i 个时间点第 j 个变量的观测 值, n 和 m 分别表示多元时间序列的时间维度 (长度)和变量维度。 根据主成分分析原理,首先需要计算多元时间 序列变 量 之 间 的 协 方 差, 得 到 一 个 协 方 差 矩 阵 Sm×m ,再通过奇异值分解对协方差矩阵 Sm×m 进行特 征值和特征向量分解,得到以特征值大小排列形成 特征值对角矩阵 Σ m×m = diag λ1 ,λ2 ,…,λ m ( ) 和对 应的特征矩阵 Um×m = u1 u2 … um [ ] ,故有 Sm×m = Um×m Σ m×m U T m×m (1) 利用主成分分析方法对多元时间序列 Xn×m 进 行特征分解,可以得到相应的特征值和特征矩阵。 同时,根据特征值(即方差)的大小,可以选择对应 的特征向量作为特征空间中的坐标轴,进而得到相 应的主成分。 选取前 k(k < m) 个主成分作为该多 元时间序列的特征,即 Yn×k = Xn×m Um×k (2) 与原始多元时间序列 Xn×m 相比,由于 k < m , 特征序列 Yn×k 实现了数据降维.同时,其对原始数据 信息的保存量为 e =∑ k i = 1 λi /∑ m j = 1 λj 。 然而,特征 序列 Yn×k 虽然对多元时间序列进行了降维处理,但 仅局限于从变量属性维度进行数据压缩,没有实现 从时间属性维度方向的数据降维。 鉴于此,部分学 者通过比较数据降维后的特征空间来区分原始多元 时间序列的数据分布特征[14] 。 Eros 距离度量方法就是一种基于特征空间的多 元时间序列相似性度量方法[14] 。 它利用主成分分 析方法对多元时间序列进行特征分解,得到相应的 特征值和特征矩阵。 同时,根据特征值的大小,选取 对应的特征向量形成特征空间坐标系,并且结合综 合权重 W 来计算2 个多元时间序列 A 和 B 对应特征 空间坐标系之间的相似性,即 Eros(A,B,W) = ∑ k i = 1 wi | < u a i ,u b i > | = ∑ k i = 1 wi cos θi (3) 第 3 期 李海林,等:基于特征矩阵的多元时间序列最小距离度量方法 ·443·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有