的相似性，其度量质量能较好地反映数据之间的异步关系［１０］。然而，由

正在加载图片...

·250· 智能系统学报第11卷的相似性，其度量质量能较好地反映数据之间的异在减小数据存储和提高计算效率方面起到了很大的步关系[o]。然而，由于DTW需要在代价矩阵中计作用。通过对长度为n的序列S=(s1,s2,…,sn)转算最优弯曲路径，使其具有较高的时间复杂度或较化为另一条长度为m的序列Q=(q1,92,…,9m), 好的度量精度[)。实现时间序列的数据降维和特征表示，其中n>m, 时间序列降维表示是通过某种方法将原始序列且令k=n/m。新序列中任意元素q:满足：进行转换或者特征提取，以达到将原始时间序列在低维度表示的目的。由于直接使用和计算原始时间 1≤i≤m(1) 序列可能需要付出较大的代价，如消耗较多存储空对序列S进行分段后求出每段的均值，每段均值间，运行效率低等问题，加上原始时间序列包含很多形成序列Q,进而达到序列S数据降维的目的。如图 “噪音点”，容易导致相似性度量结果不准确。因 1,子图(a)显示了长度为60的时间序列S通过PAA 此，为简化数据模型和算法的复杂性，提高数据挖掘被平均分成10段，每段均值代表相应片段的特征：子技术的性能，有必要对原始时间序列进行降维处理，图(b)显示由10个均值组成的新序列Q。达到效率和准确性的平衡。目前，针对时间序列降 2 1.0 维的方法已有很多且较为成熟，如分段聚合近似 (piecewise aggregate approximation,PAA)【],该方法通过将时间序列进行平均分段，并以分段均值反映分段信息，最终达到数据降维的目的：分段线性近似(piecewise liner approximation,PLA)【I利用线性 -1.0 模型对时间序列进行分割，根据不同的分割策略可 2040 60 246810 时间戳/s 时间戳/s 以得到不同的时间序列降维效果：基于域变换的离 (a)时间序列及其分段均值 (b)时间序列的特征表示散傅里叶变换(discrete fourier transform,DFT)【u6和图1基于PAA的时间序列数据降维和特征表示离散小波变换(discrete wavelet transform, Fig.1 Dimensionality reduction and feature represen- DWT)【1),利用变换后的系数对时间序列进行特征 tation of time series based on PAA 表示；奇异值分解(singular value decomposition, 分段聚合近似方法通过均值来表示序列片段的 SVD)[1),利用数值计算将高维数据转换到低维空特征，容易忽略数据的局部形态变化情况。然而，在间，不仅应用在时间序列数据降维及索引，而且也被实际运用中，时间序列的整体形态通常是关注和研广泛地应用于模式识别、图像压缩等等。由于降维究的重点。PAA得到的序列特征不仅能够很好地方法对整个研究过程起着十分关键的作用，不仅要反映较长时间序列数据形态的整体变化趋势，而且求算法能够尽可能简单快速，以降低时间消耗，也要还能对时间序列数据进行数据降维，起到提高相关尽量充分反映时间序列的信息。因此研究过程中应数据挖掘算法效率的作用。选择合适的降维方法来解决问题。 1.2动态时间弯曲鉴于传统DTW方法在度量时间序列相似性时动态时间弯曲最初被应用于语音识别中，常被具有计算时间效率较低和缺少考虑序列的形态（即运用到比较2条时间序列的相似性。针对2条时间凹凸性)等问题，并且从使用较为简单的数据降维方法以简化模型的角度出发，本文提出通过利用分序列S=(s1s2,…,sn)和Q=(91,92,…,9m),对任意两点之间的距离构建一个n×m的距离矩阵D, 段聚合近似(PAA)方法对时间序列进行数据降维，获得保持原始序列主要特征的数据序列，再构造基其中d(i,)表示时间序列数据点s:和g之间的距于数据点的一阶导数的新特征序列，结合动态时间离，即d(i,)=(s:-g)。DTW的基本思想就是从弯曲提出一种新的距离度量方法，即近似导数动态距离矩阵中寻找一条使得2条序列之间的累计距离时间弯曲方法。数值实验分类结果和效率分析表最小的路径，其最小累积距离值为明，该方法能从形态视角出发，较好地从数据集中找 DTw(s.)=min() (2) 出相似序列，提高数据挖掘领域中分类算法的质量，具有一定的优越性。弯曲路径是一条具有连续K个距离矩阵元素的集合W=（01,w2,…,0x),第k个元素为0g= 1 相关理论基础 (i,j)k且max(n,m)≤K≤n+m-1。与此同时， 1.1分段聚合近似(PAA) 弯曲路径通常要遵循着3个条件：分段聚合近似是一种有效的数据降维方法，其 1)边界性：w1=（1,1),0k=（n,m);的相似性，其度量质量能较好地反映数据之间的异步关系［１０］。然而，由于ＤＴＷ需要在代价矩阵中计算最优弯曲路径，使其具有较高的时间复杂度或较好的度量精度［１１⁃１３］。时间序列降维表示是通过某种方法将原始序列进行转换或者特征提取，以达到将原始时间序列在低维度表示的目的。由于直接使用和计算原始时间序列可能需要付出较大的代价，如消耗较多存储空间，运行效率低等问题，加上原始时间序列包含很多 “噪音点”，容易导致相似性度量结果不准确。因此，为简化数据模型和算法的复杂性，提高数据挖掘技术的性能，有必要对原始时间序列进行降维处理，达到效率和准确性的平衡。目前，针对时间序列降维的方法已有很多且较为成熟，如分段聚合近似（ｐｉｅｃｅｗｉｓｅａｇｇｒｅｇａｔｅａｐｐｒｏｘｉｍａｔｉｏｎ，ＰＡＡ）［１４］，该方法通过将时间序列进行平均分段，并以分段均值反映分段信息，最终达到数据降维的目的；分段线性近似（ｐｉｅｃｅｗｉｓｅｌｉｎｅｒａｐｐｒｏｘｉｍａｔｉｏｎ，ＰＬＡ）［１５］利用线性模型对时间序列进行分割，根据不同的分割策略可以得到不同的时间序列降维效果；基于域变换的离散傅里叶变换（ｄｉｓｃｒｅｔｅｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ，ＤＦＴ）［１６］和离散小波变换（ｄｉｓｃｒｅｔｅｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ，ＤＷＴ）［１７］，利用变换后的系数对时间序列进行特征表示；奇异值分解（ｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ，ＳＶＤ）［１８］，利用数值计算将高维数据转换到低维空间，不仅应用在时间序列数据降维及索引，而且也被广泛地应用于模式识别、图像压缩等等。由于降维方法对整个研究过程起着十分关键的作用，不仅要求算法能够尽可能简单快速，以降低时间消耗，也要尽量充分反映时间序列的信息。因此研究过程中应选择合适的降维方法来解决问题。鉴于传统ＤＴＷ方法在度量时间序列相似性时具有计算时间效率较低和缺少考虑序列的形态（即凹凸性）等问题，并且从使用较为简单的数据降维方法以简化模型的角度出发，本文提出通过利用分段聚合近似（ＰＡＡ）方法对时间序列进行数据降维，获得保持原始序列主要特征的数据序列，再构造基于数据点的一阶导数的新特征序列，结合动态时间弯曲提出一种新的距离度量方法，即近似导数动态时间弯曲方法。数值实验分类结果和效率分析表明，该方法能从形态视角出发，较好地从数据集中找出相似序列，提高数据挖掘领域中分类算法的质量，具有一定的优越性。１相关理论基础１．１分段聚合近似（ＰＡＡ）分段聚合近似是一种有效的数据降维方法，其在减小数据存储和提高计算效率方面起到了很大的作用。通过对长度为ｎ的序列Ｓ＝（ｓ１，ｓ２，…，ｓｎ）转化为另一条长度为ｍ的序列Ｑ＝（ｑ１，ｑ２，…，ｑｍ），实现时间序列的数据降维和特征表示，其中ｎ＞ｍ，且令ｋ＝ｎ／ｍ。新序列中任意元素ｑｉ满足：ｑｉ＝１ｋ ∑ ｋ∗ｉｊ＝ｋ∗（ｉ－１）＋１ｓｉ，１ ≤ ｉ ≤ ｍ（１）对序列Ｓ进行分段后求出每段的均值，每段均值形成序列Ｑ，进而达到序列Ｓ数据降维的目的。如图１，子图（ａ）显示了长度为６０的时间序列Ｓ通过ＰＡＡ被平均分成１０段，每段均值代表相应片段的特征；子图（ｂ）显示由１０个均值组成的新序列Ｑ。图１基于ＰＡＡ的时间序列数据降维和特征表示Ｆｉｇ．１Ｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎａｎｄｆｅａｔｕｒｅｒｅｐｒｅｓｅｎ⁃ ｔａｔｉｏｎｏｆｔｉｍｅｓｅｒｉｅｓｂａｓｅｄｏｎＰＡＡ分段聚合近似方法通过均值来表示序列片段的特征，容易忽略数据的局部形态变化情况。然而，在实际运用中，时间序列的整体形态通常是关注和研究的重点。ＰＡＡ得到的序列特征不仅能够很好地反映较长时间序列数据形态的整体变化趋势，而且还能对时间序列数据进行数据降维，起到提高相关数据挖掘算法效率的作用。１．２动态时间弯曲动态时间弯曲最初被应用于语音识别中，常被运用到比较２条时间序列的相似性。针对２条时间序列Ｓ＝（ｓ１，ｓ２，…，ｓｎ）和Ｑ＝（ｑ１，ｑ２，…，ｑｍ），对任意两点之间的距离构建一个ｎ × ｍ的距离矩阵Ｄ，其中ｄ（ｉ，ｊ）表示时间序列数据点ｓｉ和ｑｊ之间的距离，即ｄ（ｉ，ｊ）＝（ｓｉ－ｑｊ）２。ＤＴＷ的基本思想就是从距离矩阵中寻找一条使得２条序列之间的累计距离最小的路径，其最小累积距离值为ＤＴＷ（Ｓ，Ｑ）＝ｍｉｎＷ（∑ Ｋｋ＝１ｗｋ）（２）弯曲路径是一条具有连续Ｋ个距离矩阵元素的集合Ｗ＝（ｗ１，ｗ２，…，ｗＫ），第ｋ个元素为ｗｋ＝（ｉ，ｊ）ｋ且ｍａｘ（ｎ，ｍ） ≤ Ｋ ≤ ｎ＋ｍ－１。与此同时，弯曲路径通常要遵循着３个条件：１）边界性：ｗ１＝（１，１），ｗｋ＝（ｎ，ｍ）； ·２５０· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【人工智能基础】分段聚合近似和数值导数的动态时间弯曲方法编辑部