人工智能基础：基于特征矩阵的多元时间序列最小距离度量方法

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：562.85KB

第10卷第3期智能系统学报 Vol.10 No.3 2015年6月 CAAI Transactions on Intelligent Systems Jun.2015 D0:10.3969/j.issn.1673-4785.201405047 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.tp.20150401.1459.001.html 基于特征矩阵的多元时间序列最小距离度量方法李海林，郭韧，万校基 (华侨大学信息管理系，福建泉州362021) 摘要：相似性度量是多元时间序列数据挖掘任务过程中一项重要的前期工作，度量质量直接影响到后期整个数据挖掘的性能和结果。利用主成分分析方法对数据集中的每个多元时间序列数据进行特征分析，提取其特征矩阵并且构建相应的新正交坐标系。通过夹角公式来度量2个正交坐标系之间距离，并且结合匈牙利算法计算它们之间的最小距离，进而实现了一种基于特征矩阵的多元时间序列最小距离度量方法。实验结果表明，与传统方法相比，新方法具有较好的相似性度量质量，提高了多元时间序列的数据挖掘效果。关键词：多元时间序列：相似性度量：特征矩阵：最小距离：主成分分析：匈牙利算法；数据挖掘中图分类号：TP301文献标志码：A文章编号：1673-4785(2015)03-0442-06 中文引用格式：李海林，郭韧，万校基.基于特征矩阵的多元时间序列最小距离度量方法[J].智能系统学报，2015,10(3)：442447. 英文引用格式：LI Hailin,GUO Ren,WAN Xiaoji..A minimum distance measurement method for a multivariate time series based on the feature matrix[J].CAAI Transactions on Intelligent Systems,2015,10(3):442-447. A minimum distance measurement method for a multivariate time series based on the feature matrix LI Hailin,GUO Ren,WAN Xiaoji (Department of Information Management,Huaqiao University,Quanzhou 362021,China) Abstract:Similarity measurement is one of the most important preliminary works in the process of multivariate data mining.Its quality directly influences the performance and result of the later tasks of data mining.The data of every multivariate time series in dataset can be analyzed by the principal component analysis.The feature matrices are ex- tracted to construct the corresponding new orthogonal coordinate systems whose distance can be measured by cosine value of the angles between two axes.Meanwhile,the Hungary algorithm is applied to the minimum distance com- putation of the two coordinate systems.In this way,the minimum distance measurement method for the multivariate time series based on the feature matrix is achieved.The results of experiment demonstrated that the proposed meth- od has better quality of similarity measurement than the traditional ones and improves the effects of data mining for the multivariate time series. Keywords:multivariate time series;similarity measurement;feature matrix;minimum distance;principal compo- nent analysis;Hungary algorithm;data mining 多元时间序列是数据挖掘领域中常见的一种数 2种高维特性，即时间属性维度和变量属性维度，它据类型，广泛存在于经济、金融、医疗卫生、电子信息们决定了多元时间序列数据的复杂性，同时也影响和航空航天等行业中山.与其他数据类型相比，它有着数据挖掘技术在多元时间序列数据中的应用性能。为了解决多元时间序列的维灾问题，许多学者收稿日期：2014-05-23.网络出版日期：2015-04-01. 基金项目：国家自然科学基金资助项目(61300139)：福建省中青年提出利用数据降维和特征表示等方法结合相关技术教师教育科研项目(JAS14024)：华侨大学中青年教师科来提高多元时间序列的数据挖掘性能[2)。除了简研提升资助计划项目(ZQN-PY220). 通信作者：李海林.E-mail:hailin@(mail.dut.cdu.cn. 单运用一元时间序列的降维技术和特征表示外，通

第１０卷第３期智能系统学报Ｖｏｌ．１０ №．３２０１５年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１５ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１４０５０４７网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１５０４０１．１４５９．００１．ｈｔｍｌ基于特征矩阵的多元时间序列最小距离度量方法李海林，郭韧，万校基（华侨大学信息管理系，福建泉州３６２０２１）摘要：相似性度量是多元时间序列数据挖掘任务过程中一项重要的前期工作，度量质量直接影响到后期整个数据挖掘的性能和结果。利用主成分分析方法对数据集中的每个多元时间序列数据进行特征分析，提取其特征矩阵并且构建相应的新正交坐标系。通过夹角公式来度量２个正交坐标系之间距离，并且结合匈牙利算法计算它们之间的最小距离，进而实现了一种基于特征矩阵的多元时间序列最小距离度量方法。实验结果表明，与传统方法相比，新方法具有较好的相似性度量质量，提高了多元时间序列的数据挖掘效果。关键词：多元时间序列；相似性度量；特征矩阵；最小距离；主成分分析；匈牙利算法；数据挖掘中图分类号：ＴＰ３０１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０３⁃０４４２⁃０６中文引用格式：李海林，郭韧，万校基．基于特征矩阵的多元时间序列最小距离度量方法［Ｊ］．智能系统学报，２０１５，１０（３）：４４２⁃４４７．英文引用格式：ＬＩＨａｉｌｉｎ，ＧＵＯＲｅｎ，ＷＡＮＸｉａｏｊｉ．Ａｍｉｎｉｍｕｍｄｉｓｔａｎｃｅｍｅａｓｕｒｅｍｅｎｔｍｅｔｈｏｄｆｏｒａｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓｂａｓｅｄｏｎｔｈｅｆｅａｔｕｒｅｍａｔｒｉｘ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（３）：４４２⁃４４７．ＡｍｉｎｉｍｕｍｄｉｓｔａｎｃｅｍｅａｓｕｒｅｍｅｎｔｍｅｔｈｏｄｆｏｒａｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓｂａｓｅｄｏｎｔｈｅｆｅａｔｕｒｅｍａｔｒｉｘＬＩＨａｉｌｉｎ，ＧＵＯＲｅｎ，ＷＡＮＸｉａｏｊｉ（ＤｅｐａｒｔｍｅｎｔｏｆＩｎｆｏｒｍａｔｉｏｎＭａｎａｇｅｍｅｎｔ，ＨｕａｑｉａｏＵｎｉｖｅｒｓｉｔｙ，Ｑｕａｎｚｈｏｕ３６２０２１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｍｅｎｔｉｓｏｎｅｏｆｔｈｅｍｏｓｔｉｍｐｏｒｔａｎｔｐｒｅｌｉｍｉｎａｒｙｗｏｒｋｓｉｎｔｈｅｐｒｏｃｅｓｓｏｆｍｕｌｔｉｖａｒｉａｔｅｄａｔａｍｉｎｉｎｇ．Ｉｔｓｑｕａｌｉｔｙｄｉｒｅｃｔｌｙｉｎｆｌｕｅｎｃｅｓｔｈｅｐｅｒｆｏｒｍａｎｃｅａｎｄｒｅｓｕｌｔｏｆｔｈｅｌａｔｅｒｔａｓｋｓｏｆｄａｔａｍｉｎｉｎｇ．Ｔｈｅｄａｔａｏｆｅｖｅｒｙｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓｉｎｄａｔａｓｅｔｃａｎｂｅａｎａｌｙｚｅｄｂｙｔｈｅｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ．Ｔｈｅｆｅａｔｕｒｅｍａｔｒｉｃｅｓａｒｅｅｘ⁃ ｔｒａｃｔｅｄｔｏｃｏｎｓｔｒｕｃｔｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｎｅｗｏｒｔｈｏｇｏｎａｌｃｏｏｒｄｉｎａｔｅｓｙｓｔｅｍｓｗｈｏｓｅｄｉｓｔａｎｃｅｃａｎｂｅｍｅａｓｕｒｅｄｂｙｃｏｓｉｎｅｖａｌｕｅｏｆｔｈｅａｎｇｌｅｓｂｅｔｗｅｅｎｔｗｏａｘｅｓ．Ｍｅａｎｗｈｉｌｅ，ｔｈｅＨｕｎｇａｒｙａｌｇｏｒｉｔｈｍｉｓａｐｐｌｉｅｄｔｏｔｈｅｍｉｎｉｍｕｍｄｉｓｔａｎｃｅｃｏｍ⁃ ｐｕｔａｔｉｏｎｏｆｔｈｅｔｗｏｃｏｏｒｄｉｎａｔｅｓｙｓｔｅｍｓ．Ｉｎｔｈｉｓｗａｙ，ｔｈｅｍｉｎｉｍｕｍｄｉｓｔａｎｃｅｍｅａｓｕｒｅｍｅｎｔｍｅｔｈｏｄｆｏｒｔｈｅｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓｂａｓｅｄｏｎｔｈｅｆｅａｔｕｒｅｍａｔｒｉｘｉｓａｃｈｉｅｖｅｄ．Ｔｈｅｒｅｓｕｌｔｓｏｆｅｘｐｅｒｉｍｅｎｔｄｅｍｏｎｓｔｒａｔｅｄｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈ⁃ ｏｄｈａｓｂｅｔｔｅｒｑｕａｌｉｔｙｏｆｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｍｅｎｔｔｈａｎｔｈｅｔｒａｄｉｔｉｏｎａｌｏｎｅｓａｎｄｉｍｐｒｏｖｅｓｔｈｅｅｆｆｅｃｔｓｏｆｄａｔａｍｉｎｉｎｇｆｏｒｔｈｅｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓ．Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓ；ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｍｅｎｔ；ｆｅａｔｕｒｅｍａｔｒｉｘ；ｍｉｎｉｍｕｍｄｉｓｔａｎｃｅ；ｐｒｉｎｃｉｐａｌｃｏｍｐｏ⁃ ｎｅｎｔａｎａｌｙｓｉｓ；Ｈｕｎｇａｒｙａｌｇｏｒｉｔｈｍ；ｄａｔａｍｉｎｉｎｇ收稿日期：２０１４⁃０５⁃２３．网络出版日期：２０１５⁃０４⁃０１．基金项目：国家自然科学基金资助项目（６１３００１３９）；福建省中青年教师教育科研项目（ＪＡＳ１４０２４）；华侨大学中青年教师科研提升资助计划项目（ＺＱＮ⁃ＰＹ２２０）．通信作者：李海林．Ｅ⁃ｍａｉｌ：ｈａｉｌｉｎ＠ｍａｉｌ．ｄｌｕｔ．ｅｄｕ．ｃｎ．多元时间序列是数据挖掘领域中常见的一种数据类型，广泛存在于经济、金融、医疗卫生、电子信息和航空航天等行业中［１］．与其他数据类型相比，它有２种高维特性，即时间属性维度和变量属性维度，它们决定了多元时间序列数据的复杂性，同时也影响着数据挖掘技术在多元时间序列数据中的应用性能。为了解决多元时间序列的维灾问题，许多学者提出利用数据降维和特征表示等方法结合相关技术来提高多元时间序列的数据挖掘性能［２⁃３］。除了简单运用一元时间序列的降维技术和特征表示外，通

第3期李海林，等：基于特征矩阵的多元时间序列最小距离度量方法 443· 常利用数据变换的方法来实现数据处理，达到减噪方法，是基于某种类型的投影机制，将高维的数据向降冗的效果，例如奇异值分解4]、独立成分分低维空间（特征空间）投影，并期望在特征空间中数析和主成分分析0等。其中，主成分分析据的方差最大。通过选择占有绝大部分信息的主成 (principal component analysis,PCA)是多元时间序分来实现数据降维，同时进行特征表示。换句话说，列数据降维和特征表示中最常用的方法之一[山)，它如果把所有的点映射在一起，则几乎所有的原始信通过对多元时间序列的协方差矩阵进行特征分解，息都将丢失：若映射后数据的方差尽可能大，则数据实现数据空间变换得到方差最大的主成分作为原始点将被分开，使得距离信息保留得更多。因此，传统数据的特征。同时，根据方差大小选择对应的前几的主成分分析方法通过方差的大小来选择主成分。个主成分作为多元时间序列的数据特征，从而实现对于多元时间序列X=[X,X2…X]可以原始多元时间序列的变量属性维度的降维。表示成一个n×m的矩阵，即X=(x写)xm。其在多元时间序列数据挖掘前期任务中，除了进中，X,表示第个变量属性所形成的序列，x:表行数据降维和特征表示外，相似性（或距离）度量也示多元时间序列第i个时间点第j个变量的观测是一项重要的工作，其度量质量直接影响着后期数值，n和m分别表示多元时间序列的时间维度据挖掘技术的性能和挖掘质量。例如，多元时间序 (长度)和变量维度。列的聚类、分类、相似性查找和匹配、异常检测等都根据主成分分析原理，首先需要计算多元时间需要进行距离度量。在时间序列数据挖掘中，最常序列变量之间的协方差，得到一个协方差矩阵用的2种方法是欧氏距离(Euclidean distance)[和 Smxm,再通过奇异值分解对协方差矩阵Smxm进行特动态时间弯曲方法(dynamic time warping, 征值和特征向量分解，得到以特征值大小排列形成 DTW))。前者能较快地计算序列之间的相似性，特征值对角矩阵Σmxm=diag(入1，d2,…,入m)和对适用于等长时间序列的相似性度量：后者对不等长应的特征矩阵Umxm=[山1山2…u】,故有时间序列的距离度量具有较强的鲁棒性，但需要二 Snkm=UxΣxnUExm (1) 阶的时间和空间复杂度，不利用大量较长时间序列利用主成分分析方法对多元时间序列Xxm进的相似性度量。针对主成分分析方法得到的特征数行特征分解，可以得到相应的特征值和特征矩阵。据，存在许多距离度量方法来实现特征数据的相似同时，根据特征值（即方差）的大小，可以选择对应性计算。其中，较为常用的是一种被称为EOs的距的特征向量作为特征空间中的坐标轴，进而得到相离度量方法[1，它利用夹角公式来度量2个特征向应的主成分。选取前k(k<m)个主成分作为该多量之间的关系，同时以相应的方差作为权重，较好地元时间序列的特征，即描述了多元时间序列经过特征变换后特征数据之间 Ynxt=X.xmUmxt (2) 的差异性。然而，Eos是根据特征序列方差大小来与原始多元时间序列Xxm相比，由于k<m, 选择相应特征向量进行匹配，迫使较大方差对应的特征序列Y4实现了数据降维.同时，其对原始数据特征向量被用来计算相似性。另外，权重是由方差信息的保存量为e=∑，A,/∑，A。然而，特征的大小决定，使得Eos因过分强调方差的重要性而序列Y4虽然对多元时间序列进行了降维处理，但忽视了特征空间之间的差异性。仅局限于从变量属性维度进行数据压缩，没有实现针对上述问题，本文提出一种基于特征矩阵的从时间属性维度方向的数据降维。鉴于此，部分学多元时间序列最小距离度量方法，它利用主成分分者通过比较数据降维后的特征空间来区分原始多元析对多元时间序列进行特征表示，并获得相应的特时间序列的数据分布特征[4。征矩阵并构建相应的正交坐标系。另外，通过夹角 Eos距离度量方法就是一种基于特征空间的多公式来度量2个多元时间序列对应正交坐标系中不元时间序列相似性度量方法4。它利用主成分分同坐标轴之间的距离，并结合匈牙利算法计算它们析方法对多元时间序列进行特征分解，得到相应的之间的最小距离。该方法不依赖于方差的大小来选特征值和特征矩阵。同时，根据特征值的大小，选取择夹角向量，而是通过度量正交坐标系之间的相似对应的特征向量形成特征空间坐标系，并且结合综性来反映原始多元时间序列的差异，进而克服了传合权重W来计算2个多元时间序列A和B对应特征统Eros方法的局限性。空间坐标系之间的相似性，即 1 主成分分析与Eros距离度量 Eros(A,B,W)= ∑10，cos0 主成分分析(PCA)是一种最常用的线性降维 (3)

常利用数据变换的方法来实现数据处理，达到减噪降冗的效果，例如奇异值分解［４⁃６］、独立成分分析［７⁃８］和主成分分析［９⁃１０］等。其中，主成分分析（ｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ，ＰＣＡ）是多元时间序列数据降维和特征表示中最常用的方法之一［１１］，它通过对多元时间序列的协方差矩阵进行特征分解，实现数据空间变换得到方差最大的主成分作为原始数据的特征。同时，根据方差大小选择对应的前几个主成分作为多元时间序列的数据特征，从而实现原始多元时间序列的变量属性维度的降维。在多元时间序列数据挖掘前期任务中，除了进行数据降维和特征表示外，相似性（或距离）度量也是一项重要的工作，其度量质量直接影响着后期数据挖掘技术的性能和挖掘质量。例如，多元时间序列的聚类、分类、相似性查找和匹配、异常检测等都需要进行距离度量。在时间序列数据挖掘中，最常用的２种方法是欧氏距离（Ｅｕｃｌｉｄｅａｎｄｉｓｔａｎｃｅ）［１２］和动态时间弯曲方法（ｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ，ＤＴＷ）［１３］。前者能较快地计算序列之间的相似性，适用于等长时间序列的相似性度量；后者对不等长时间序列的距离度量具有较强的鲁棒性，但需要二阶的时间和空间复杂度，不利用大量较长时间序列的相似性度量。针对主成分分析方法得到的特征数据，存在许多距离度量方法来实现特征数据的相似性计算。其中，较为常用的是一种被称为Ｅｒｏｓ的距离度量方法［１４］，它利用夹角公式来度量２个特征向量之间的关系，同时以相应的方差作为权重，较好地描述了多元时间序列经过特征变换后特征数据之间的差异性。然而，Ｅｒｏｓ是根据特征序列方差大小来选择相应特征向量进行匹配，迫使较大方差对应的特征向量被用来计算相似性。另外，权重是由方差的大小决定，使得Ｅｒｏｓ因过分强调方差的重要性而忽视了特征空间之间的差异性。针对上述问题，本文提出一种基于特征矩阵的多元时间序列最小距离度量方法，它利用主成分分析对多元时间序列进行特征表示，并获得相应的特征矩阵并构建相应的正交坐标系。另外，通过夹角公式来度量２个多元时间序列对应正交坐标系中不同坐标轴之间的距离，并结合匈牙利算法计算它们之间的最小距离。该方法不依赖于方差的大小来选择夹角向量，而是通过度量正交坐标系之间的相似性来反映原始多元时间序列的差异，进而克服了传统Ｅｒｏｓ方法的局限性。１主成分分析与Ｅｒｏｓ距离度量主成分分析（ＰＣＡ）是一种最常用的线性降维方法，是基于某种类型的投影机制，将高维的数据向低维空间（特征空间）投影，并期望在特征空间中数据的方差最大。通过选择占有绝大部分信息的主成分来实现数据降维，同时进行特征表示。换句话说，如果把所有的点映射在一起，则几乎所有的原始信息都将丢失；若映射后数据的方差尽可能大，则数据点将被分开，使得距离信息保留得更多。因此，传统的主成分分析方法通过方差的大小来选择主成分。对于多元时间序列Ｘ＝Ｘ１Ｘ２ … Ｘｍ [ ] 可以表示成一个ｎ × ｍ的矩阵，即Ｘ＝（ｘｉｊ）ｎ ×ｍ。其中，Ｘｊ表示第ｊ个变量属性所形成的序列，ｘｉｊ表示多元时间序列第ｉ个时间点第ｊ个变量的观测值，ｎ和ｍ分别表示多元时间序列的时间维度（长度）和变量维度。根据主成分分析原理，首先需要计算多元时间序列变量之间的协方差，得到一个协方差矩阵Ｓｍ×ｍ，再通过奇异值分解对协方差矩阵Ｓｍ×ｍ进行特征值和特征向量分解，得到以特征值大小排列形成特征值对角矩阵 Σ ｍ×ｍ＝ｄｉａｇ λ１，λ２，…，λ ｍ ( ) 和对应的特征矩阵Ｕｍ×ｍ＝ｕ１ｕ２ … ｕｍ [ ] ，故有Ｓｍ×ｍ＝Ｕｍ×ｍ Σ ｍ×ｍＵＴｍ×ｍ（１）利用主成分分析方法对多元时间序列Ｘｎ×ｍ进行特征分解，可以得到相应的特征值和特征矩阵。同时，根据特征值（即方差）的大小，可以选择对应的特征向量作为特征空间中的坐标轴，进而得到相应的主成分。选取前ｋ（ｋ＜ｍ）个主成分作为该多元时间序列的特征，即Ｙｎ×ｋ＝Ｘｎ×ｍＵｍ×ｋ（２）与原始多元时间序列Ｘｎ×ｍ相比，由于ｋ＜ｍ，特征序列Ｙｎ×ｋ实现了数据降维．同时，其对原始数据信息的保存量为ｅ＝∑ ｋｉ＝１ λｉ／∑ ｍｊ＝１ λｊ。然而，特征序列Ｙｎ×ｋ虽然对多元时间序列进行了降维处理，但仅局限于从变量属性维度进行数据压缩，没有实现从时间属性维度方向的数据降维。鉴于此，部分学者通过比较数据降维后的特征空间来区分原始多元时间序列的数据分布特征［１４］。Ｅｒｏｓ距离度量方法就是一种基于特征空间的多元时间序列相似性度量方法［１４］。它利用主成分分析方法对多元时间序列进行特征分解，得到相应的特征值和特征矩阵。同时，根据特征值的大小，选取对应的特征向量形成特征空间坐标系，并且结合综合权重Ｗ来计算２个多元时间序列Ａ和Ｂ对应特征空间坐标系之间的相似性，即Ｅｒｏｓ（Ａ，Ｂ，Ｗ）＝ ∑ ｋｉ＝１ｗｉ｜＜ｕａｉ，ｕｂｉ＞｜＝ ∑ ｋｉ＝１ｗｉｃｏｓ θｉ（３）第３期李海林，等：基于特征矩阵的多元时间序列最小距离度量方法 ·４４３·

·444. 智能系统学报第10卷式中：0：∈0是利用主成分分析对所有多元时间序量。因此，该思路可以归纳为一个线性规划问题：列进行特征分解后其第讠组特征值在前k组特征值中的比率，即0，=∑r(.0/∑∑rG, MEros(A,B,k)=min (6) )。N表示数据库中多元时间序列的数目， W(,)表示第j个多元时间序列经主成分分析后的 s.t. 第i个特征值，即W,i)=}。式中：{c}xk是一个二元矩阵，且当c=1时，表示 2最小距离度量方法夹角距离矩阵D中元素d(i,)对最小距离度量具有贡献值。 Eros距离度量方法是一种基于特征空间坐标系上述线性规划问题实质是一个线性任务分配问的相似性度量方法，让2个多元时间序列经PCA转题，即k个人分配k项任务，一个人只能分配一项任换后前k个坐标轴根据它们的特征值大小进行相应务，一项任务只能分配给一个人。为此，选取匈牙利的夹角度量，即一个多元时间序列第i个特征向量算法[1)来解决该线性任务分配问题，该算法是用来与另一个多元时间序列的第i个特征向量进行夹角解决二分图最小匹配问题的经典算法。对于多元时度量。然而，在某些情况下，一个多元时间序列的第间序列的主成分之间的最小夹角距离可以从矩阵D i个特征向量可能与另一个多元时间序列的第j个出发，把该矩阵的各行和各列分别视为线性任务分特征向量的夹角更相似。鉴于此种情况，提出基于配问题中的人员和任务，即如何从距离矩阵D中把特征矩阵的多元时间序列最小距离度量方法。第列的任务分配给第i行的对象，使得最终每个人最小距离度量方法的主要思想就是利用主成分完成一项任务，且所有人员完成所有任务后花费的分析方法对数据库中的每个多元时间序列进行特征代价要求最小。分解，得到相应的特征向量。通过夹角公式分别计算由于多元时间序列经过主成分分析方法进行变 2个多元时间序列对应前k个特征向量中任意2个向换后，不同多元时间序列的特征向量可以构成不同量之间的相似性，并建立夹角距离矩阵。最后通过匈的坐标系，不同坐标系的维表示的意义各不相同。牙利算法[5]对该距离矩阵实现最小距离度量。由于若简单按照各特征值大小顺序来构建坐标系，并且该方法是基于传统Eos的多元时间序列距离度量方比较对应坐标系之间的夹角来描述多元时间序列特法，故亦可称之为MEros(minimum Eros)。征的差异性，将显得不合理。针对此问题，利用匹配假设2个多元时间序列A,xm和Bxm,通过主不同时间序列的特征向量构建的坐标系之间的最小成分分析方法得到相应的特征矩阵为U。和U。,且距离，便可以使得2个坐标系中最相似的维被相互 U。=[uu…u]和U。=[…],则利用比较，进而更为灵活有效地对多元时间序列的特征夹角公式来计算由特征矩阵U,和U。中向量所形成进行距离度量。的坐标系中前k个坐标轴之间的相似性，即综上所述，基于特征矩阵的多元时间序列最小 Sim(i,j)=(u,u2 =I cos 0 I (4) 距离度量算法如下。由于|cos0:|∈[0,1]，故任意2条坐标轴之间的相算法：最小距离度量da=MEros(A,B,k)。似性Sim(i,)可以转化为相应的距离度量公式，即输入：多元时间序列A与B,降维后的维度k。 d(i,j)=1 Sim(i,j)=1 -1 cos 0I (5) 输出：最小距离度量dn。通过夹角公式计算2个多元时间序列对应前k个特步骤：征向量中任意2个向量之间的夹角距离矩阵为 1)对多元时间序列A与B计算协方差矩阵，即「d(1,1)d(1,2)…d(1,k) S=E[(A-E[A])(A-E[A])T]S=E[(B- d(2,1)d(2,2)…d(2,k) E[B])(B-E[B])]; 2)利用奇异值分解方法对协方差矩阵进行特 Ld(k,1)d(k,2)…d(k,k)」征分解，使得Sa=UE4UA和SB=UEUB,其中最小距离度量方法就是基于夹角距离矩阵D, U4和U。分别为2个协方差矩阵的特征矩阵，且向根据传统EOs思想找到一组最优匹配，使得该匹配量按特征值大小排列：具有最小的距离。即通过PCA降维后，一个多元时 3)分别在U。和Ug中选取前k个特征向量作间序列的前k个特征向量能够与另一个多元时间序为新坐标系的坐标轴，根据距离度量式(5)，建立夹列的前k个特征向量对应比较，并取得最小距离度角距离矩阵D;

式中：ｗｉ ∈ ｗ是利用主成分分析对所有多元时间序列进行特征分解后其第ｉ组特征值在前ｋ组特征值中的比率，即ｗｉ＝ ∑ ｉｊ＝１Ｗ（ｊ，ｉ）／∑ ｋｌ＝１∑ Ｎｊ＝１Ｗ（ｊ，ｌ）。Ｎ表示数据库中多元时间序列的数目，Ｗ(ｊ，ｉ) 表示第ｊ个多元时间序列经主成分分析后的第ｉ个特征值，即Ｗ（ｊ，ｉ）＝ λ ｊｉ。２最小距离度量方法Ｅｒｏｓ距离度量方法是一种基于特征空间坐标系的相似性度量方法，让２个多元时间序列经ＰＣＡ转换后前ｋ个坐标轴根据它们的特征值大小进行相应的夹角度量，即一个多元时间序列第ｉ个特征向量与另一个多元时间序列的第ｉ个特征向量进行夹角度量。然而，在某些情况下，一个多元时间序列的第ｉ个特征向量可能与另一个多元时间序列的第ｊ个特征向量的夹角更相似。鉴于此种情况，提出基于特征矩阵的多元时间序列最小距离度量方法。最小距离度量方法的主要思想就是利用主成分分析方法对数据库中的每个多元时间序列进行特征分解，得到相应的特征向量。通过夹角公式分别计算２个多元时间序列对应前ｋ个特征向量中任意２个向量之间的相似性，并建立夹角距离矩阵。最后通过匈牙利算法［１５］对该距离矩阵实现最小距离度量。由于该方法是基于传统Ｅｒｏｓ的多元时间序列距离度量方法，故亦可称之为ＭＥｒｏｓ（ｍｉｎｉｍｕｍＥｒｏｓ）。假设２个多元时间序列Ａｎ１ ×ｍ和Ｂｎ２ ×ｍ，通过主成分分析方法得到相应的特征矩阵为Ｕａ和Ｕｂ，且Ｕａ＝ｕａ１ｕａ２ … ｕａｍ [ ] 和Ｕｂ＝ｕｂ１ｕｂ２ … ｕｂｍ [ ] ，则利用夹角公式来计算由特征矩阵Ｕａ和Ｕｂ中向量所形成的坐标系中前ｋ个坐标轴之间的相似性，即Ｓｉｍ(ｉ，ｊ) ＝〈ｕａｉ，ｕｂｊ〉＝｜ｃｏｓ θｉｊ｜（４）由于ｃｏｓ θｉｊ ∈ [０，１] ，故任意２条坐标轴之间的相似性Ｓｉｍ(ｉ，ｊ) 可以转化为相应的距离度量公式，即ｄ(ｉ，ｊ) ＝１－Ｓｉｍ(ｉ，ｊ) ＝１－｜ｃｏｓ θｉｊ｜（５）通过夹角公式计算２个多元时间序列对应前ｋ个特征向量中任意２个向量之间的夹角距离矩阵为Ｄｋ×ｋ＝ｄ（１，１）ｄ（１，２） … ｄ（１，ｋ）ｄ（２，１）ｄ（２，２） … ｄ（２，ｋ） ︙ ︙ ︙ ︙ ｄ（ｋ，１）ｄ（ｋ，２） … ｄ（ｋ，ｋ） é ë ê ê ê ê ê ù û ú ú ú ú ú 最小距离度量方法就是基于夹角距离矩阵Ｄ，根据传统Ｅｒｏｓ思想找到一组最优匹配，使得该匹配具有最小的距离。即通过ＰＣＡ降维后，一个多元时间序列的前ｋ个特征向量能够与另一个多元时间序列的前ｋ个特征向量对应比较，并取得最小距离度量。因此，该思路可以归纳为一个线性规划问题：ＭＥｒｏｓ(Ａ，Ｂ，ｋ) ＝ｍｉｎ ∑ ｋｉ＝１ ∑ ｋｊ＝１ｃｉｊｄ(ｉ，ｊ) ｓ．ｔ． ∑ ｋｉ＝１ｃｉｊ＝１，∑ ｋｊ＝１ｃｉｊ＝１ ì î í ï ïï ï ï （６）式中：ｃｉｊ { } ｋ×ｋ是一个二元矩阵，且当ｃｉｊ＝１时，表示夹角距离矩阵Ｄ中元素ｄ(ｉ，ｊ) 对最小距离度量具有贡献值。上述线性规划问题实质是一个线性任务分配问题，即ｋ个人分配ｋ项任务，一个人只能分配一项任务，一项任务只能分配给一个人。为此，选取匈牙利算法［１５］来解决该线性任务分配问题，该算法是用来解决二分图最小匹配问题的经典算法。对于多元时间序列的主成分之间的最小夹角距离可以从矩阵Ｄ出发，把该矩阵的各行和各列分别视为线性任务分配问题中的人员和任务，即如何从距离矩阵Ｄ中把第ｊ列的任务分配给第ｉ行的对象，使得最终每个人完成一项任务，且所有人员完成所有任务后花费的代价要求最小。由于多元时间序列经过主成分分析方法进行变换后，不同多元时间序列的特征向量可以构成不同的坐标系，不同坐标系的维表示的意义各不相同。若简单按照各特征值大小顺序来构建坐标系，并且比较对应坐标系之间的夹角来描述多元时间序列特征的差异性，将显得不合理。针对此问题，利用匹配不同时间序列的特征向量构建的坐标系之间的最小距离，便可以使得２个坐标系中最相似的维被相互比较，进而更为灵活有效地对多元时间序列的特征进行距离度量。综上所述，基于特征矩阵的多元时间序列最小距离度量算法如下。算法：最小距离度量ｄｍｉｎ＝ＭＥｒｏｓ(Ａ，Ｂ，ｋ) 。输入：多元时间序列Ａ与Ｂ，降维后的维度ｋ。输出：最小距离度量ｄｍｉｎ。步骤：１）对多元时间序列Ａ与Ｂ计算协方差矩阵，即ＳＡ＝Ｅ［（Ａ－Ｅ［Ａ］）（Ａ－Ｅ［Ａ］）Ｔ］和ＳＢ＝Ｅ［（Ｂ－Ｅ［Ｂ］）（Ｂ－Ｅ［Ｂ］）Ｔ］；２）利用奇异值分解方法对协方差矩阵进行特征分解，使得ＳＡ＝ＵＡΣ ＡＵＴＡ和ＳＢ＝ＵＢΣ ＢＵＴＢ，其中ＵＡ和ＵＢ分别为２个协方差矩阵的特征矩阵，且向量按特征值大小排列；３）分别在ＵＡ和ＵＢ中选取前ｋ个特征向量作为新坐标系的坐标轴，根据距离度量式（５），建立夹角距离矩阵Ｄ； ·４４４· 智能系统学报第１０卷

第3期李海林，等：基于特征矩阵的多元时间序列最小距离度量方法 445· 4)利用匈牙利算法对夹角距离矩阵进行最小误地归为一类。然而，本文提出的距离度量方法距离计算，即da=munkres(D),其中，munkres为 MEros能够很好地将2类数据成功归类，如图1(b) 匈牙利算法求解二分图最小匹配问题的函数。所示，前后10个数据对象分别被归成一类，符合实基于特征矩阵的多元时间序列最小距离度量方际分类情况。因此，可以说MEos具有较好的距离法能够有效地描述原始多元时间序列之间的相似度量质量，能够提高多元时间序列数据的聚类性能。性。同时，与传统Eos方法相比，最小距离度量方法MEros不受其他多元时间序列经PCA转化后特征值的影响。通过比较特征向量所形成的坐标系之间的差异性来区分不同多元时间序列的特征，不仅能够有效地对多元时间序列进行特征描述，而且还能从时间维度和变量维度2个方向进行数据降维，即原来n×m维降至k×k维.通常情况下，k<n和 k<m。需要说明的是，最小距离度量方法利用匈牙利 0 0.5 0 0.5 0 0.5 算法对夹角距离矩阵进行最优化匹配求解，最坏情 (a)Eros (b)MEros (c)Euclidean 况下，其消耗的时间复杂度为O(k3)。然而，在大图13种度量方法对等长多元时间序列的聚类结果多数情况下，经过PCA转化后，较小的k值所对应 Fig.I The clustering results of the tree measurements for 的主成分也能保留原始多元时间序列的大部分信 multivariate time series with different lengths 息，使得最小距离度量能够快速有效地对多元时间 3.2数据分类序列进行相似性度量。聚类分析实验采用等长多元时间序列EEG数据集和另外一个不等长多元时间序列EEGEye数据 3 数值实验集[16]，它们都是具有2类标签的多元时间序列数据为了有效地评估MEos方法的性能，利用多元集。同时，EEGEye数据集中包含24个长度不等的时间序列聚类和分类算法进行距离度量质量检测，多元时间序列，其长度范围21~2051，具有14个观同时比较了几种方法的计算时间效率。测属性。 3.1数据聚类利用最近邻分类方法比较MEros、Eros和欧氏层次聚类方法能够较好地从视觉角度表达聚类距离Euclidean或动态时间弯曲DTW等方法在多元结果的层次关系，并且能够很好地评估数据距离度时间序列数据集的度量效果，通过分类错误率来评量方法的准确性。本次实验能过层次聚类算法和3 价距离度量方法的质量。让多元时间序列数据集中种距离度量方法(MEros、Eros和欧氏距离Euclide- 的每个序列都与其他序列进行距离度量，查找与之 an)来对等长多元时间序列进行聚类分析，进而比最相似的序列作为检测序列，并通过比较检测序列较3种距离度量方法的度量质量与被检测序列之间的标签来判断分类结果的正确实验数据为EEG多元时间序列数据集，它具有性，最终通过平均分类错误率来衡量距离度量方法 2类标签且包含了20个多元时间序列，每个时间序在分类实验中的应用性能。列具有相同的观测时间，即时间序列长度相同且为另外，选取不同的降维维度来比较距离度量方 256,是对64个部位进行观测的序列数据，可视为法在分类实验中的性能，即通过比较不同维度k的 256×64的数据矩阵。同时，前后10个多元时间序坐标系来考察距离度量的质量。对等长时间序列数列分别为同一类数据，即序号为1,2,3,4,5,6,7,8，据集EEG和不等长时间序列数据集EEGEye的分 9,10}为同一类，其余{11,12,13,14,15,16,17,18，类结果如图2和3所示。从分类实验结果可以发 19,20}为另外一类。在本次实验中，选取k=3为主现，与传统方法Eros相比，新方法MEros具有较好成分分析降维后的维度，并将相应的特征数据用于的分类结果，说明它具有更好地距离度量质量，能够考查MEros和Eros的度量性能，其聚类分析结果如提高多元时间序列数据挖掘的挖掘效果。另外，由图1所示。从层次聚类结果视图中分析易知，距离于Euclidean和DTW分别善于对等长和不等长时间度量方法Eros和欧氏距离Euclidean对等长多元时序列的相似性度量，故在实验中比较它们与新方法间序列数据的聚类出现明显的错误归类，如图1(a) 的分类效果。在图2分类结果中发现，MEos具有和1(c)中粗连线所示，它们将不同类的数据对象错最好的分类结果，而在图3分类结果中可以知道，在

４）利用匈牙利算法对夹角距离矩阵进行最小距离计算，即ｄｍｉｎ＝ｍｕｎｋｒｅｓ（Ｄ），其中，ｍｕｎｋｒｅｓ为匈牙利算法求解二分图最小匹配问题的函数。基于特征矩阵的多元时间序列最小距离度量方法能够有效地描述原始多元时间序列之间的相似性。同时，与传统Ｅｒｏｓ方法相比，最小距离度量方法ＭＥｒｏｓ不受其他多元时间序列经ＰＣＡ转化后特征值的影响。通过比较特征向量所形成的坐标系之间的差异性来区分不同多元时间序列的特征，不仅能够有效地对多元时间序列进行特征描述，而且还能从时间维度和变量维度２个方向进行数据降维，即原来ｎ × ｍ维降至ｋ × ｋ维．通常情况下，ｋ＜ｎ和ｋ＜ｍ。需要说明的是，最小距离度量方法利用匈牙利算法对夹角距离矩阵进行最优化匹配求解，最坏情况下，其消耗的时间复杂度为Ｏ（ｋ３）。然而，在大多数情况下，经过ＰＣＡ转化后，较小的ｋ值所对应的主成分也能保留原始多元时间序列的大部分信息，使得最小距离度量能够快速有效地对多元时间序列进行相似性度量。３数值实验为了有效地评估ＭＥｒｏｓ方法的性能，利用多元时间序列聚类和分类算法进行距离度量质量检测，同时比较了几种方法的计算时间效率。３．１数据聚类层次聚类方法能够较好地从视觉角度表达聚类结果的层次关系，并且能够很好地评估数据距离度量方法的准确性。本次实验能过层次聚类算法和３种距离度量方法（ＭＥｒｏｓ、Ｅｒｏｓ和欧氏距离Ｅｕｃｌｉｄｅ⁃ ａｎ）来对等长多元时间序列进行聚类分析，进而比较３种距离度量方法的度量质量．实验数据为ＥＥＧ多元时间序列数据集，它具有２类标签且包含了２０个多元时间序列，每个时间序列具有相同的观测时间，即时间序列长度相同且为２５６，是对６４个部位进行观测的序列数据，可视为２５６ × ６４的数据矩阵。同时，前后１０个多元时间序列分别为同一类数据，即序号为｛１，２，３，４，５，６，７，８，９，１０｝为同一类，其余｛１１，１２，１３，１４，１５，１６，１７，１８，１９，２０｝为另外一类。在本次实验中，选取ｋ＝３为主成分分析降维后的维度，并将相应的特征数据用于考查ＭＥｒｏｓ和Ｅｒｏｓ的度量性能，其聚类分析结果如图１所示。从层次聚类结果视图中分析易知，距离度量方法Ｅｒｏｓ和欧氏距离Ｅｕｃｌｉｄｅａｎ对等长多元时间序列数据的聚类出现明显的错误归类，如图１（ａ）和１（ｃ）中粗连线所示，它们将不同类的数据对象错误地归为一类。然而，本文提出的距离度量方法ＭＥｒｏｓ能够很好地将２类数据成功归类，如图１（ｂ）所示，前后１０个数据对象分别被归成一类，符合实际分类情况。因此，可以说ＭＥｒｏｓ具有较好的距离度量质量，能够提高多元时间序列数据的聚类性能。图１３种度量方法对等长多元时间序列的聚类结果Ｆｉｇ．１Ｔｈｅｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓｏｆｔｈｅｔｒｅｅｍｅａｓｕｒｅｍｅｎｔｓｆｏｒｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓｗｉｔｈｄｉｆｆｅｒｅｎｔｌｅｎｇｔｈｓ３．２数据分类聚类分析实验采用等长多元时间序列ＥＥＧ数据集和另外一个不等长多元时间序列ＥＥＧＥｙｅ数据集［１６］，它们都是具有２类标签的多元时间序列数据集。同时，ＥＥＧＥｙｅ数据集中包含２４个长度不等的多元时间序列，其长度范围２１～２０５１，具有１４个观测属性。利用最近邻分类方法比较ＭＥｒｏｓ、Ｅｒｏｓ和欧氏距离Ｅｕｃｌｉｄｅａｎ或动态时间弯曲ＤＴＷ等方法在多元时间序列数据集的度量效果，通过分类错误率来评价距离度量方法的质量。让多元时间序列数据集中的每个序列都与其他序列进行距离度量，查找与之最相似的序列作为检测序列，并通过比较检测序列与被检测序列之间的标签来判断分类结果的正确性，最终通过平均分类错误率来衡量距离度量方法在分类实验中的应用性能。另外，选取不同的降维维度来比较距离度量方法在分类实验中的性能，即通过比较不同维度ｋ的坐标系来考察距离度量的质量。对等长时间序列数据集ＥＥＧ和不等长时间序列数据集ＥＥＧＥｙｅ的分类结果如图２和３所示。从分类实验结果可以发现，与传统方法Ｅｒｏｓ相比，新方法ＭＥｒｏｓ具有较好的分类结果，说明它具有更好地距离度量质量，能够提高多元时间序列数据挖掘的挖掘效果。另外，由于Ｅｕｃｌｉｄｅａｎ和ＤＴＷ分别善于对等长和不等长时间序列的相似性度量，故在实验中比较它们与新方法的分类效果。在图２分类结果中发现，ＭＥｒｏｓ具有最好的分类结果，而在图３分类结果中可以知道，在第３期李海林，等：基于特征矩阵的多元时间序列最小距离度量方法 ·４４５·

·446 智能系统学报第10卷对不等时间序列相似性比较时，DTW的分类质量优的分类实验结果，可以说明新方法MEOs是一种较为于MEros,其原因是EEGEye数据集的形态特征区快速且更为有效的多元时间序列相似性度量方法。分较为明显，利用DTW通过最优化路径选择并产 4*103 生相应的距离值，它能够使其取得较好的分类效果，日一Eros 3 e—MEros 但从时间效率比较实验中易知，DTW时间消耗不适 Euclidean 合于大量高维时间序列的数据挖掘。 2 0.5 日—Eros 0.4 -eMEros t一Euclidean 3 5 7 91113 0.2 图43种方法对EEG数据集的时间代价尔0.1 Fig.4 The time cost of the three methods for EEG B 9 9 9 5 > 9 1113 10 2.0,×103 +一DTW -B-Eros 图23种方法对EEG数据集的分类结果 8 1.5 -e-MEros 0 Fig.2 The classification results of three methods for EEG 之1.0 0. 日日日日 Eros 日0.5冲 0.4 MEros 0电日日日日日日 DTW 1357913 135791113 0.3 彩 (a)DTW (b)Eros和MEros 0.24 图53种方法对EEGEye数据集的时间代价 0.10 Fig.5 The time cost of the three methods for EEGEye 5 791113 k 图33种方法对EEGEye数据集的分类结果 4 结束语 Fig.3 The classification results of three methods for EEGEye 文章提出了一种基于特征矩阵的多元时间序列 3.3效率比较最小距离度量方法。该方法是基于主成分分析特征为了更好地比较距离度量方法之间的性能，除表示的距离度量方法，首先利用主成分分析对多元了评价它们在多元时间序列数据挖掘中的挖掘质时间序列进行特征分解，根据特征值的大小选择相量，还需要评估其实际实验中的运行效率。根据上应的特征向量构建反映多元时间序列数据特征的坐面实验步骤，记录每个检测序列与被检测序列之间标系，并且通过比较坐标系之间的差异性来度量多相互匹配的CPU计算时间，将平均消耗时间作为最元时间序列之间的距离。该方法不依赖于特征值终的评估时间代价。另外，根据不同的k值，观测距 (方差)的大小来选择夹角向量，而是通过度量正交离度量方法的时间消耗情况。坐标系之间的相似性来反映原始多元时间序列的差 3种距离度量方法对2组时间序列数据集的异，进而克服了传统Eos方法的局限性。同时，通 CPU时间代价如图4和5所示。容易发现，与E- 过匈牙利算法，把线性规划问题转化为求解二分图 clidean和Eros相比，新方法MEros需要消耗较多的最小匹配问题，其计算原理简单明了。最后，数值实计算时间。然而，从实验结果中的纵轴数据量大小验结果表明，新方法MEos是一种快速有效的多元易知，这3种方法仅需要10-3秒级的时间。然而，时间序列距离度量方法。对于不等长时间序列度量来说，DTW需要平均消耗与传统Eros相比，新方法MEros具有较高的度 7.2s左右的时间。相比之下，适合计算不等长时间量质量，但其时间效率略低。MEos算法主要包括序列之间距离的其他2种方法(Eros和MEros)的计了多元时间序列的协方差矩阵、特征矩阵、距离矩阵算效率明显较好。另外，如图4和5(b)所示，MEos 和匈牙利算法等计算过程，其中前3个矩阵在传统的计算时间随着降维后维度k值的增长而变大，其 Eros算法中都需要被运算，因此MEros的额外计算原因是MEos算法过程中的匈牙利方法计算速度依时间代价主要是由匈牙利算法求解二分图最小匹配赖于k值，即O(k3)。k值越大，其计算时间代价越问题引起的。另外，匈牙利算法对距离矩阵的求解高，但其运算速度保持在10-3秒级。因此，结合前面效率依赖于多元时间序列的降维后维度k,其最坏

对不等时间序列相似性比较时，ＤＴＷ的分类质量优于ＭＥｒｏｓ，其原因是ＥＥＧＥｙｅ数据集的形态特征区分较为明显，利用ＤＴＷ通过最优化路径选择并产生相应的距离值，它能够使其取得较好的分类效果，但从时间效率比较实验中易知，ＤＴＷ时间消耗不适合于大量高维时间序列的数据挖掘。图２３种方法对ＥＥＧ数据集的分类结果Ｆｉｇ．２ＴｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｓｕｌｔｓｏｆｔｈｒｅｅｍｅｔｈｏｄｓｆｏｒＥＥＧ图３３种方法对ＥＥＧＥｙｅ数据集的分类结果Ｆｉｇ．３ＴｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｓｕｌｔｓｏｆｔｈｒｅｅｍｅｔｈｏｄｓｆｏｒＥＥＧＥｙｅ３．３效率比较为了更好地比较距离度量方法之间的性能，除了评价它们在多元时间序列数据挖掘中的挖掘质量，还需要评估其实际实验中的运行效率。根据上面实验步骤，记录每个检测序列与被检测序列之间相互匹配的ＣＰＵ计算时间，将平均消耗时间作为最终的评估时间代价。另外，根据不同的ｋ值，观测距离度量方法的时间消耗情况。３种距离度量方法对２组时间序列数据集的ＣＰＵ时间代价如图４和５所示。容易发现，与Ｅｕ⁃ ｃｌｉｄｅａｎ和Ｅｒｏｓ相比，新方法ＭＥｒｏｓ需要消耗较多的计算时间。然而，从实验结果中的纵轴数据量大小易知，这３种方法仅需要１０－３秒级的时间。然而，对于不等长时间序列度量来说，ＤＴＷ需要平均消耗７．２ｓ左右的时间。相比之下，适合计算不等长时间序列之间距离的其他２种方法（Ｅｒｏｓ和ＭＥｒｏｓ）的计算效率明显较好。另外，如图４和５（ｂ）所示，ＭＥｒｏｓ的计算时间随着降维后维度ｋ值的增长而变大，其原因是ＭＥｒｏｓ算法过程中的匈牙利方法计算速度依赖于ｋ值，即Ｏ（ｋ３）。ｋ值越大，其计算时间代价越高，但其运算速度保持在１０－３秒级。因此，结合前面的分类实验结果，可以说明新方法ＭＥｒｏｓ是一种较为快速且更为有效的多元时间序列相似性度量方法。图４３种方法对ＥＥＧ数据集的时间代价Ｆｉｇ．４ＴｈｅｔｉｍｅｃｏｓｔｏｆｔｈｅｔｈｒｅｅｍｅｔｈｏｄｓｆｏｒＥＥＧ图５３种方法对ＥＥＧＥｙｅ数据集的时间代价Ｆｉｇ．５ＴｈｅｔｉｍｅｃｏｓｔｏｆｔｈｅｔｈｒｅｅｍｅｔｈｏｄｓｆｏｒＥＥＧＥｙｅ４结束语文章提出了一种基于特征矩阵的多元时间序列最小距离度量方法。该方法是基于主成分分析特征表示的距离度量方法，首先利用主成分分析对多元时间序列进行特征分解，根据特征值的大小选择相应的特征向量构建反映多元时间序列数据特征的坐标系，并且通过比较坐标系之间的差异性来度量多元时间序列之间的距离。该方法不依赖于特征值（方差）的大小来选择夹角向量，而是通过度量正交坐标系之间的相似性来反映原始多元时间序列的差异，进而克服了传统Ｅｒｏｓ方法的局限性。同时，通过匈牙利算法，把线性规划问题转化为求解二分图最小匹配问题，其计算原理简单明了。最后，数值实验结果表明，新方法ＭＥｒｏｓ是一种快速有效的多元时间序列距离度量方法。与传统Ｅｒｏｓ相比，新方法ＭＥｒｏｓ具有较高的度量质量，但其时间效率略低。ＭＥｏｒｓ算法主要包括了多元时间序列的协方差矩阵、特征矩阵、距离矩阵和匈牙利算法等计算过程，其中前３个矩阵在传统Ｅｒｏｓ算法中都需要被运算，因此ＭＥｒｏｓ的额外计算时间代价主要是由匈牙利算法求解二分图最小匹配问题引起的。另外，匈牙利算法对距离矩阵的求解效率依赖于多元时间序列的降维后维度ｋ，其最坏 ·４４６· 智能系统学报第１０卷

第3期李海林，等：基于特征矩阵的多元时间序列最小距离度量方法 447· 情况下的计算时间效率为O(k3)。因此，如何提升 sion reduction method for multivariate time series based on 匈牙利算法的计算时间或研究一种能够快速求解式 common principal component [J].Control and Decision, (6)的算法是将来有待研究的问题。 2013,28(4):531-536. [10]李正欣，张凤鸣，张晓丰，等.多元时间序列特征降维参考文献：方法研究[J].小型微型计算机系统，2013,34(2)： 338-346. [1]ESLING P,AGON C.Time-series data mining[J].ACM LI Zhengxin,ZHANG Fengming,ZHANG Xiaofeng.Re- Computing Surverys,2012,45(1):11-12. search on feature dimension reduction method for multivari- [2]李海林，杨丽彬.时间序列数据降维及特征表示新方法 ate time series[J].Journal of Chinese Computer Systems, [J].控制与决策，2013,28(11)：1718-1722 LI Hailin,YANG Libin.Novel method of dimensionality re- 2013,34(2):338-346. duction and feature representation for time series[J].Con- [11]LI Hailin.Asynchronism-based principal component analy- sis for time series data mining[J].Expert Systems with trol and Decision,2013,28(11):1718-1722. Applications,2014,41(6):2842-2850. [3]YANG K,SHAHABI C.An efficient nearest neighbor [12]YANKOV D,KEOGH E,REBBAPRAGADA U.Disk a- search for multivariate time series[J].Information and ware discord discovery:finding unusual time series in ter- Computation,2007,205(1):65-98. abyte sized datasetsJ.Knowledge and Information Sys- [4]韩敏，李德才.基于EOF-SVD模型的多元时间序列相关 tems,2007,17(2):381-390. 性研究及预测[J].系统仿真学报，2008,20(7)：1669- [13]CHEN Yanping,HU Bing,KEOGH E,et al.DTW-D: 1672 time series semi-supervised learning from a single example HAN Min,LI Decai.Multiple time series correlation extrac- [C]//Proceedings of the 19th ACM SIGKDD International tion and prediction based on EOF-SVD model[J].Journal of Conference on Knowledge Discovery and Data Mining.Chi- System Simulation,2008,20(7):1669-1672. cag0,USA,2013:383-391. [5]WENG Xiaoqing,SHEN Junyi.Classification of multivariate [14]YANG K,SHAHABI C.A PCA-based similarity measure time series using two dimensional singular value decomposi- tion[J].Knowledge-Based Systems.2008,21(7):535- for multivariate time series[C]//Proceedings of the 2nd ACM International Workshop on Multimedia Databases. 539. Washington,DC,USA,2004:65-74. 「6]吴虎胜，张风鸣，钟斌.基于二维奇异值分解的多元时 [15]何坚勇.运筹学基础[M].北京：清华大学出版社间序列相似匹配方法[J].电子与信息学报，2014,36 2006:217-220. (4):847-854. [16]BACHE K,LICHMAN M.UCI machine learning repository WU Husheng,ZHANG Fengming,ZHONG Bin.Similar [EB/0L].(2013-12-21)[2014-04-28].http:/archive. pattern matching method for multivariate time series based ics.uci.edu/ml. on two-dimensional singular value decomposition[J].Jour- 作者简介： nal of Electronics Information Technology,2014,36(4): 李海林，男，1982年生，副教授，博 847-854. 士，主要研究方向为数据挖掘与决策支 [7]樊继聪，王友清，秦泗钊.联合指标独立成分分析在多持，主持国家自然科学基金和省部级青变量过程故障诊断中的应用[J].自动化学报，2013,39 年基金各1项，发表学术论文30余篇， (5):494-501. 其中被SCI检索7篇、EI检索10余篇。 FAN Jicong,WANG Youqing,QIN Sizhao.Combined indi- ces for ICA and their applications to multivariate process fault diagnosis[J].Acta Automatica Sinica,2013,39(5): 郭韧，女，1975年生，讲师，博士研 494-501. 究生，主要研究方向为知识管理与数据 [8]梁胜杰，张志华，崔立林，等.基于主成分分析与核独挖掘，发表学术论文近20篇，其中被立成分分析的降维方法[J].系统工程与电子技术， CSSCI检索9篇。 2011,33(9):2144-2148. LIANG Shengjie,ZHANG Zhihua,CUI Lilin,et al.Dimen- sionality reduction method based on PCA and KICA[J]. Systems Engineering and Electronics,2011,33(9):2144- 万校基，男，1982年生，讲师，博士， 2148. 主要研究方向为数据挖掘与决策支持， [9]李正欣，郭建胜，惠晓滨，等.基于共同主成分的多元发表学术论文10余篇。时间序列降维方法[J刀].控制与决策，2013,28(4)：531- 536. LI Zhengxin,GUO Jiansheng,HUI Xiaobin,et al.Dimen-

情况下的计算时间效率为Ｏ（ｋ３）。因此，如何提升匈牙利算法的计算时间或研究一种能够快速求解式（６）的算法是将来有待研究的问题。参考文献：［１］ＥＳＬＩＮＧＰ，ＡＧＯＮＣ．Ｔｉｍｅ⁃ｓｅｒｉｅｓｄａｔａｍｉｎｉｎｇ［Ｊ］．ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｒｙｓ，２０１２，４５（１）：１１⁃１２．［２］李海林，杨丽彬．时间序列数据降维及特征表示新方法［Ｊ］．控制与决策，２０１３，２８（１１）：１７１８⁃１７２２．ＬＩＨａｉｌｉｎ，ＹＡＮＧＬｉｂｉｎ．Ｎｏｖｅｌｍｅｔｈｏｄｏｆｄｉｍｅｎｓｉｏｎａｌｉｔｙｒｅ⁃ ｄｕｃｔｉｏｎａｎｄｆｅａｔｕｒｅｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒｔｉｍｅｓｅｒｉｅｓ［Ｊ］．Ｃｏｎ⁃ ｔｒｏｌａｎｄＤｅｃｉｓｉｏｎ，２０１３，２８（１１）：１７１８⁃１７２２．［３］ＹＡＮＧＫ，ＳＨＡＨＡＢＩＣ．Ａｎｅｆｆｉｃｉｅｎｔｋｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｅａｒｃｈｆｏｒｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓ［Ｊ］．ＩｎｆｏｒｍａｔｉｏｎａｎｄＣｏｍｐｕｔａｔｉｏｎ，２００７，２０５（１）：６５⁃９８．［４］韩敏，李德才．基于ＥＯＦ⁃ＳＶＤ模型的多元时间序列相关性研究及预测［Ｊ］．系统仿真学报，２００８，２０（７）：１６６９⁃ １６７２ＨＡＮＭｉｎ，ＬＩＤｅｃａｉ．Ｍｕｌｔｉｐｌｅｔｉｍｅｓｅｒｉｅｓｃｏｒｒｅｌａｔｉｏｎｅｘｔｒａｃ⁃ ｔｉｏｎａｎｄｐｒｅｄｉｃｔｉｏｎｂａｓｅｄｏｎＥＯＦ⁃ＳＶＤｍｏｄｅｌ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｙｓｔｅｍＳｉｍｕｌａｔｉｏｎ，２００８，２０（７）：１６６９⁃１６７２．［５］ＷＥＮＧＸｉａｏｑｉｎｇ，ＳＨＥＮＪｕｎｙｉ．Ｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓｕｓｉｎｇｔｗｏｄｉｍｅｎｓｉｏｎａｌｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉ⁃ ｔｉｏｎ［Ｊ］．Ｋｎｏｗｌｅｄｇｅ⁃ＢａｓｅｄＳｙｓｔｅｍｓ．２００８，２１（７）：５３５⁃ ５３９．［６］吴虎胜，张凤鸣，钟斌．基于二维奇异值分解的多元时间序列相似匹配方法［Ｊ］．电子与信息学报，２０１４，３６（４）：８４７⁃８５４．ＷＵＨｕｓｈｅｎｇ，ＺＨＡＮＧＦｅｎｇｍｉｎｇ，ＺＨＯＮＧＢｉｎ．Ｓｉｍｉｌａｒｐａｔｔｅｒｎｍａｔｃｈｉｎｇｍｅｔｈｏｄｆｏｒｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓｂａｓｅｄｏｎｔｗｏ⁃ｄｉｍｅｎｓｉｏｎａｌｓｉｎｇｕｌａｒｖａｌｕｅｄｅｃｏｍｐｏｓｉｔｉｏｎ［Ｊ］．Ｊｏｕｒ⁃ ｎａｌｏｆＥｌｅｃｔｒｏｎｉｃｓ＆ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，２０１４，３６（４）：８４７⁃８５４．［７］樊继聪，王友清，秦泗钊．联合指标独立成分分析在多变量过程故障诊断中的应用［Ｊ］．自动化学报，２０１３，３９（５）：４９４⁃５０１．ＦＡＮＪｉｃｏｎｇ，ＷＡＮＧＹｏｕｑｉｎｇ，ＱＩＮＳｉｚｈａｏ．Ｃｏｍｂｉｎｅｄｉｎｄｉ⁃ ｃｅｓｆｏｒＩＣＡａｎｄｔｈｅｉｒａｐｐｌｉｃａｔｉｏｎｓｔｏｍｕｌｔｉｖａｒｉａｔｅｐｒｏｃｅｓｓｆａｕｌｔｄｉａｇｎｏｓｉｓ［Ｊ］．ＡｃｔａＡｕｔｏｍａｔｉｃａＳｉｎｉｃａ，２０１３，３９（５）：４９４⁃５０１．［８］梁胜杰，张志华，崔立林，等．基于主成分分析与核独立成分分析的降维方法［Ｊ］．系统工程与电子技术，２０１１，３３（９）：２１４４⁃２１４８．ＬＩＡＮＧＳｈｅｎｇｊｉｅ，ＺＨＡＮＧＺｈｉｈｕａ，ＣＵＩＬｉｌｉｎ，ｅｔａｌ．Ｄｉｍｅｎ⁃ ｓｉｏｎａｌｉｔｙｒｅｄｕｃｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎＰＣＡａｎｄＫＩＣＡ［Ｊ］．ＳｙｓｔｅｍｓＥｎｇｉｎｅｅｒｉｎｇａｎｄＥｌｅｃｔｒｏｎｉｃｓ，２０１１，３３（９）：２１４４⁃ ２１４８．［９］李正欣，郭建胜，惠晓滨，等．基于共同主成分的多元时间序列降维方法［Ｊ］．控制与决策，２０１３，２８（４）：５３１⁃ ５３６．ＬＩＺｈｅｎｇｘｉｎ，ＧＵＯＪｉａｎｓｈｅｎｇ，ＨＵＩＸｉａｏｂｉｎ，ｅｔａｌ．Ｄｉｍｅｎ⁃ ｓｉｏｎｒｅｄｕｃｔｉｏｎｍｅｔｈｏｄｆｏｒｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓｂａｓｅｄｏｎｃｏｍｍｏｎｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔ［Ｊ］．ＣｏｎｔｒｏｌａｎｄＤｅｃｉｓｉｏｎ，２０１３，２８（４）：５３１⁃５３６．［１０］李正欣，张凤鸣，张晓丰，等．多元时间序列特征降维方法研究［Ｊ］．小型微型计算机系统，２０１３，３４（２）：３３８⁃３４６．ＬＩＺｈｅｎｇｘｉｎ，ＺＨＡＮＧＦｅｎｇｍｉｎｇ，ＺＨＡＮＧＸｉａｏｆｅｎｇ．Ｒｅ⁃ ｓｅａｒｃｈｏｎｆｅａｔｕｒｅｄｉｍｅｎｓｉｏｎｒｅｄｕｃｔｉｏｎｍｅｔｈｏｄｆｏｒｍｕｌｔｉｖａｒｉ⁃ ａｔｅｔｉｍｅｓｅｒｉｅｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＣｏｍｐｕｔｅｒＳｙｓｔｅｍｓ，２０１３，３４（２）：３３８⁃３４６．［１１］ＬＩＨａｉｌｉｎ．Ａｓｙｎｃｈｒｏｎｉｓｍ⁃ｂａｓｅｄｐｒｉｎｃｉｐａｌｃｏｍｐｏｎｅｎｔａｎａｌｙ⁃ ｓｉｓｆｏｒｔｉｍｅｓｅｒｉｅｓｄａｔａｍｉｎｉｎｇ［Ｊ］．ＥｘｐｅｒｔＳｙｓｔｅｍｓｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓ，２０１４，４１（６）：２８４２⁃２８５０．［１２］ＹＡＮＫＯＶＤ，ＫＥＯＧＨＥ，ＲＥＢＢＡＰＲＡＧＡＤＡＵ．Ｄｉｓｋａ⁃ ｗａｒｅｄｉｓｃｏｒｄｄｉｓｃｏｖｅｒｙ：ｆｉｎｄｉｎｇｕｎｕｓｕａｌｔｉｍｅｓｅｒｉｅｓｉｎｔｅｒ⁃ ａｂｙｔｅｓｉｚｅｄｄａｔａｓｅｔｓ［Ｊ］．ＫｎｏｗｌｅｄｇｅａｎｄＩｎｆｏｒｍａｔｉｏｎＳｙｓ⁃ ｔｅｍｓ，２００７，１７（２）：３８１⁃３９０．［１３］ＣＨＥＮＹａｎｐｉｎｇ，ＨＵＢｉｎｇ，ＫＥＯＧＨＥ，ｅｔａｌ．ＤＴＷ⁃Ｄ：ｔｉｍｅｓｅｒｉｅｓｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｆｒｏｍａｓｉｎｇｌｅｅｘａｍｐｌｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｃｈｉ⁃ ｃａｇｏ，ＵＳＡ，２０１３：３８３⁃３９１．［１４］ＹＡＮＧＫ，ＳＨＡＨＡＢＩＣ．ＡＰＣＡ⁃ｂａｓｅｄｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｆｏｒｍｕｌｔｉｖａｒｉａｔｅｔｉｍｅｓｅｒｉｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２ｎｄＡＣＭＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＭｕｌｔｉｍｅｄｉａＤａｔａｂａｓｅｓ．Ｗａｓｈｉｎｇｔｏｎ，ＤＣ，ＵＳＡ，２００４：６５⁃７４．［１５］何坚勇．运筹学基础［Ｍ］．北京：清华大学出版社，２００６：２１７⁃２２０．［１６］ＢＡＣＨＥＫ，ＬＩＣＨＭＡＮＭ．ＵＣＩｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｐｏｓｉｔｏｒｙ［ＥＢ／ＯＬ］．（２０１３⁃１２⁃２１）［２０１４⁃０４⁃２８］．ｈｔｔｐ：／／ａｒｃｈｉｖｅ．ｉｃｓ．ｕｃｉ．ｅｄｕ／ｍｌ．作者简介：李海林，男，１９８２年生，副教授，博士，主要研究方向为数据挖掘与决策支持，主持国家自然科学基金和省部级青年基金各１项，发表学术论文３０余篇，其中被ＳＣＩ检索７篇、ＥＩ检索１０余篇。郭韧，女，１９７５年生，讲师，博士研究生，主要研究方向为知识管理与数据挖掘，发表学术论文近２０篇，其中被ＣＳＳＣＩ检索９篇。万校基，男，１９８２年生，讲师，博士，主要研究方向为数据挖掘与决策支持，发表学术论文１０余篇。第３期李海林，等：基于特征矩阵的多元时间序列最小距离度量方法 ·４４７·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录