正在加载图片...
·250· 智能系统学报 第11卷 的相似性,其度量质量能较好地反映数据之间的异 在减小数据存储和提高计算效率方面起到了很大的 步关系[o]。然而,由于DTW需要在代价矩阵中计 作用。通过对长度为n的序列S=(s1,s2,…,sn)转 算最优弯曲路径,使其具有较高的时间复杂度或较 化为另一条长度为m的序列Q=(q1,92,…,9m), 好的度量精度[)。 实现时间序列的数据降维和特征表示,其中n>m, 时间序列降维表示是通过某种方法将原始序列 且令k=n/m。新序列中任意元素q:满足: 进行转换或者特征提取,以达到将原始时间序列在 低维度表示的目的。由于直接使用和计算原始时间 1≤i≤m(1) 序列可能需要付出较大的代价,如消耗较多存储空 对序列S进行分段后求出每段的均值,每段均值 间,运行效率低等问题,加上原始时间序列包含很多 形成序列Q,进而达到序列S数据降维的目的。如图 “噪音点”,容易导致相似性度量结果不准确。因 1,子图(a)显示了长度为60的时间序列S通过PAA 此,为简化数据模型和算法的复杂性,提高数据挖掘 被平均分成10段,每段均值代表相应片段的特征:子 技术的性能,有必要对原始时间序列进行降维处理, 图(b)显示由10个均值组成的新序列Q。 达到效率和准确性的平衡。目前,针对时间序列降 2 1.0 维的方法已有很多且较为成熟,如分段聚合近似 (piecewise aggregate approximation,PAA)【],该方 法通过将时间序列进行平均分段,并以分段均值反 映分段信息,最终达到数据降维的目的:分段线性近 似(piecewise liner approximation,PLA)【I利用线性 -1.0 模型对时间序列进行分割,根据不同的分割策略可 2040 60 246810 时间戳/s 时间戳/s 以得到不同的时间序列降维效果:基于域变换的离 (a)时间序列及其分段均值 (b)时间序列的特征表示 散傅里叶变换(discrete fourier transform,DFT)【u6和 图1基于PAA的时间序列数据降维和特征表示 离散小波变换(discrete wavelet transform, Fig.1 Dimensionality reduction and feature represen- DWT)【1),利用变换后的系数对时间序列进行特征 tation of time series based on PAA 表示;奇异值分解(singular value decomposition, 分段聚合近似方法通过均值来表示序列片段的 SVD)[1),利用数值计算将高维数据转换到低维空 特征,容易忽略数据的局部形态变化情况。然而,在 间,不仅应用在时间序列数据降维及索引,而且也被 实际运用中,时间序列的整体形态通常是关注和研 广泛地应用于模式识别、图像压缩等等。由于降维 究的重点。PAA得到的序列特征不仅能够很好地 方法对整个研究过程起着十分关键的作用,不仅要 反映较长时间序列数据形态的整体变化趋势,而且 求算法能够尽可能简单快速,以降低时间消耗,也要 还能对时间序列数据进行数据降维,起到提高相关 尽量充分反映时间序列的信息。因此研究过程中应 数据挖掘算法效率的作用。 选择合适的降维方法来解决问题。 1.2动态时间弯曲 鉴于传统DTW方法在度量时间序列相似性时 动态时间弯曲最初被应用于语音识别中,常被 具有计算时间效率较低和缺少考虑序列的形态(即 运用到比较2条时间序列的相似性。针对2条时间 凹凸性)等问题,并且从使用较为简单的数据降维 方法以简化模型的角度出发,本文提出通过利用分 序列S=(s1s2,…,sn)和Q=(91,92,…,9m),对任 意两点之间的距离构建一个n×m的距离矩阵D, 段聚合近似(PAA)方法对时间序列进行数据降维, 获得保持原始序列主要特征的数据序列,再构造基 其中d(i,)表示时间序列数据点s:和g之间的距 于数据点的一阶导数的新特征序列,结合动态时间 离,即d(i,)=(s:-g)。DTW的基本思想就是从 弯曲提出一种新的距离度量方法,即近似导数动态 距离矩阵中寻找一条使得2条序列之间的累计距离 时间弯曲方法。数值实验分类结果和效率分析表 最小的路径,其最小累积距离值为 明,该方法能从形态视角出发,较好地从数据集中找 DTw(s.)=min() (2) 出相似序列,提高数据挖掘领域中分类算法的质量, 具有一定的优越性。 弯曲路径是一条具有连续K个距离矩阵元素 的集合W=(01,w2,…,0x),第k个元素为0g= 1 相关理论基础 (i,j)k且max(n,m)≤K≤n+m-1。与此同时, 1.1分段聚合近似(PAA) 弯曲路径通常要遵循着3个条件: 分段聚合近似是一种有效的数据降维方法,其 1)边界性:w1=(1,1),0k=(n,m);的相似性,其度量质量能较好地反映数据之间的异 步关系[10] 。 然而,由于 DTW 需要在代价矩阵中计 算最优弯曲路径,使其具有较高的时间复杂度或较 好的度量精度[11⁃13] 。 时间序列降维表示是通过某种方法将原始序列 进行转换或者特征提取,以达到将原始时间序列在 低维度表示的目的。 由于直接使用和计算原始时间 序列可能需要付出较大的代价,如消耗较多存储空 间,运行效率低等问题,加上原始时间序列包含很多 “噪音点”,容易导致相似性度量结果不准确。 因 此,为简化数据模型和算法的复杂性,提高数据挖掘 技术的性能,有必要对原始时间序列进行降维处理, 达到效率和准确性的平衡。 目前,针对时间序列降 维的方法已有很多且较为成熟,如分段聚合近似 (piecewise aggregate approximation, PAA) [14] ,该方 法通过将时间序列进行平均分段,并以分段均值反 映分段信息,最终达到数据降维的目的;分段线性近 似(piecewise liner approximation, PLA) [15]利用线性 模型对时间序列进行分割,根据不同的分割策略可 以得到不同的时间序列降维效果;基于域变换的离 散傅里叶变换(discrete fourier transform, DFT) [16]和 离 散 小 波 变 换 ( discrete wavelet transform, DWT) [17] ,利用变换后的系数对时间序列进行特征 表示; 奇 异 值 分 解 ( singular value decomposition, SVD) [18] ,利用数值计算将高维数据转换到低维空 间,不仅应用在时间序列数据降维及索引,而且也被 广泛地应用于模式识别、图像压缩等等。 由于降维 方法对整个研究过程起着十分关键的作用,不仅要 求算法能够尽可能简单快速,以降低时间消耗,也要 尽量充分反映时间序列的信息。 因此研究过程中应 选择合适的降维方法来解决问题。 鉴于传统 DTW 方法在度量时间序列相似性时 具有计算时间效率较低和缺少考虑序列的形态(即 凹凸性)等问题,并且从使用较为简单的数据降维 方法以简化模型的角度出发,本文提出通过利用分 段聚合近似(PAA)方法对时间序列进行数据降维, 获得保持原始序列主要特征的数据序列,再构造基 于数据点的一阶导数的新特征序列,结合动态时间 弯曲提出一种新的距离度量方法,即近似导数动态 时间弯曲方法。 数值实验分类结果和效率分析表 明,该方法能从形态视角出发,较好地从数据集中找 出相似序列,提高数据挖掘领域中分类算法的质量, 具有一定的优越性。 1 相关理论基础 1.1 分段聚合近似(PAA) 分段聚合近似是一种有效的数据降维方法,其 在减小数据存储和提高计算效率方面起到了很大的 作用。 通过对长度为 n 的序列 S = (s1 ,s2 ,…,sn ) 转 化为另一条长度为 m 的序列 Q = (q1 ,q2 ,…,qm ) , 实现时间序列的数据降维和特征表示,其中 n > m , 且令 k = n / m 。 新序列中任意元素 qi 满足: qi = 1 k ∑ k∗i j = k∗(i-1) +1 si, 1 ≤ i ≤ m (1) 对序列 S 进行分段后求出每段的均值,每段均值 形成序列 Q ,进而达到序列 S 数据降维的目的。 如图 1,子图(a)显示了长度为 60 的时间序列 S 通过 PAA 被平均分成 10 段,每段均值代表相应片段的特征;子 图(b)显示由 10 个均值组成的新序列 Q 。 图 1 基于 PAA 的时间序列数据降维和特征表示 Fig.1 Dimensionality reduction and feature represen⁃ tation of time series based on PAA 分段聚合近似方法通过均值来表示序列片段的 特征,容易忽略数据的局部形态变化情况。 然而,在 实际运用中,时间序列的整体形态通常是关注和研 究的重点。 PAA 得到的序列特征不仅能够很好地 反映较长时间序列数据形态的整体变化趋势,而且 还能对时间序列数据进行数据降维,起到提高相关 数据挖掘算法效率的作用。 1.2 动态时间弯曲 动态时间弯曲最初被应用于语音识别中,常被 运用到比较 2 条时间序列的相似性。 针对 2 条时间 序列 S = (s1 ,s2 ,…,sn ) 和 Q = (q1 ,q2 ,…,qm ) ,对任 意两点之间的距离构建一个 n × m 的距离矩阵 D , 其中 d(i,j) 表示时间序列数据点 si 和 qj 之间的距 离,即 d(i,j) = (si - qj) 2 。 DTW 的基本思想就是从 距离矩阵中寻找一条使得 2 条序列之间的累计距离 最小的路径,其最小累积距离值为 DTW(S,Q) = min W (∑ K k = 1 wk) (2) 弯曲路径是一条具有连续 K 个距离矩阵元素 的集合 W = (w1 ,w2 ,…,wK ) ,第 k 个元素为 wk = (i,j)k 且 max(n,m) ≤ K ≤ n + m - 1。 与此同时, 弯曲路径通常要遵循着 3 个条件: 1)边界性: w1 = (1,1) , wk = (n,m) ; ·250· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有