基于核主成分分析与最小二乘支持向量机结合处理时间序列预测问题.pdf_大学文库

D0I:10.13374/j.issn1001053x.2006.03.022 第28卷第3期北京科技大学学报 Vol.28 No.3 2006年3月 Journal of University of Science and Technology Beijing Mar.2006 基于核主成分分析与最小二乘支持向量机结合处理时间序列预测问题郭辉王玲刘贺平北京科技大学信息工程学院，北京100083 摘要探讨了最小二乘支持向量机时间序列预测的方法，提出了用核主成分分析提取主元，然后用最小二乘支持向量机进行预测.通过实验表明，这种方法得到的效果优于没有特征提取的预测，同时与主成分分析提取特征相比，用核主成分分析效果更好关键词主成分分析；最小二乘支持向量机；核主成分分析；时间序列顸测分类号TP301.5 Vapnik在1995年提出一种新型统计学习方特征向量，而是将其转化为求核矩阵的特征向量法一支持向向量机(Support Vector Ma- 和特征值，这避免了在特征空间求特征向量，而数 chines)),常称为标准支持向量机，具有完备的统据在特征向量上的投影转换为求核函数的线性组计学习理论基础和出色的学习性能，已成为机器合，这大大地简化了计算学习界的研究热点，并在很多领域都得到了成功首先将样本x:k=1,…,n,x∈R,映射到的应用.在此基础上，Suykens提出最小二乘支持特征空间(x):k=1,…,n,x∈RN,计算协方向量机方法(least squares support vector ma- 差矩阵9-10： chines)2).与标准支持向量机相比，这种方法采用最小二乘线性系统作为损失函数，求解过程变 c= )(x)(x)T (1) 成了解一组等式方程，求解速度相对加快，并应用然后通过解特征值问题计算主成分，可以找到λ 到模式识别和非线性函数估计，取得了较好的效 >0和V≠0满足：果. Aw=CV=1(Φ(x)v)(x)(2) 时间序列预测在工程、经济、工业制造、金融 n台等许多领域有着广泛而重要的应用价值，国内外进一步，从式(2)可以看出，所有特征值非零的特许多学者采用了各种方法进行了时间序列预测的征矢量必然映射数据的张集上，这可以表示研究[45].在时间序列预测问题中，特征提取非常为[6：重要，它可以降低学习问题的复杂性，提高学习算 ,() V=> (3) 法的泛化性能，简化学习模型.本文提出了利用核主成分分析(KPCA)对数据进行特征提取，消由式(2)左乘(x)变为：除数据的相关性和噪声，提取包含样本数据信息入（Φ(x)V)=(西(x)·CV),k=1,2,…,n 的主元，降低样本空间的维数，这些新特征作为最 (4) 小二乘支持向量机的输入，用来解决时间序列问定义一个n×n矩阵K, 题. K=K(x,x)=(Φ(x:)·Φ()(5) 1 核主成分分析现在计算展开系数α；的特征值问题仅仅取决于核函数，即：基于核函数的PCA,这种方法不是直接计算 nλa=Ka (6) 收稿日期：2005-01-24修回日期：2005-11-17 其中，a表示a1,…,am组成的一个列向量基金项目：国家“863”项目(No.2002AA412010-10:)及北京市得到的解(a:,a)需要利用入：（a·a)=1进教委重点学科共建项目行归一化处理.接下来要提取一个测试样本x的作者简介：郭辉(1972一)，男，博士研究生：刘贺平(1951一).男，教授特征，只需将映射样本Φ(x)投影到V上1o1:

第 2 8 卷第 3期 2 0 0 6 年 3 月北京科技大学学报 J o u nr a l of U n ive sr i ty o f S e 朋i ec a n d T e c h n o l o gy Be 幼in g V ol . 2 8 N o , 3 M a r 。 2 0 0 6 基于核主成分分析与最小二乘支持向量机结合处理时间序列预测问题郭辉王玲刘贺平北京科技大学信息工程学院 , 北京 10 0 0 8 3 摘要探讨了最小二乘支持向量机时间序列预测的方法 , 提出了用核主成分分析提取主元 , 然后用最小二乘支持向量机进行预测 , 通过实验表明 , 这种方法得到的效果优于没有特征提取的预测 . 同时与主成分分析提取特征相比 , 用核主成分分析效果更好 . 关键词主成分分析 ; 最小二乘支持向量机 ; 核主成分分析 ; 时间序列预测分类号 T P 3 0 1 . 5 v ap in k 在 19 9 5 年提出一种新型统计学习方法一- 支持向向量机 ( S u p p o r t V e c t o r M a - hc in e s )[ `〕 , 常称为标准支持向量机 , 具有完备的统计学习理论基础和出色的学习性能 , 已成为机器学习界的研究热点 , 并在很多领域都得到了成功的应用 . 在此基础上 , s uy k en s 提出最小二乘支持向量机方法 ( l e a s t s q u a r e s s u p p o r t v e c t o r m a - ch in e s )[ 2 一” 〕 . 与标准支持向量机相比 , 这种方法采用最小二乘线性系统作为损失函数 , 求解过程变成了解一组等式方程 , 求解速度相对加快 , 并应用到模式识别和非线性函数估计 , 取得了较好的效果 . 时间序列预测在工程、经济、工业制造、金融等许多领域有着广泛而重要的应用价值 , 国内外许多学者采用了各种方法进行了时间序列预测的研究t 4 一 5 1 . 在时间序列预测问题中 , 特征提取非常重要 , 它可以降低学习问题的复杂性 , 提高学习算法的泛化性能 , 简化学习模型 . 本文提出了利用核主成分分析 ( K P C A ) 对数据进行特征提取 , 消除数据的相关性和噪声 , 提取包含样本数据信息的主元 , 降低样本空间的维数 , 这些新特征作为最小二乘支持向量机的输入 , 用来解决时间序列问题 . 1 核主成分分析基于核函数的 P C A , 这种方法不是直接计算特征向量 , 而是将其转化为求核矩阵的特征向量和特征值 , 这避免了在特征空间求特征向量 , 而数据在特征向量上的投影转换为求核函数的线性组合 , 这大大地简化了计算 . 首先将样本 x * : k = 1 , … , n , x 无〔 R N , 映射到特征空间势( x 、 ) : k = 1 , … , 。 , x 庵任 R N , 计算协方差矩阵〔9 一`。〕 : c 一青豁 ( 为 ” ( 为’ T ( 1 ) 然后通过解特征值问题计算主成分 , 可以找到几 > 0 和 v 护0 满足 : 久v = c v = 工习 ( 。 ( xj ) · v ) 中 ( 毛 ) ( 2 ) 进一步 , 从式 ( 2) 可以看出 , 所有特征值非零的特征矢量必然映射数据的张集上 , 这可以表示为[ “ ] : v 一艺 a : 必 ( x * ( 3 ) 收稿日期 : 2 0 0 5 一 0 2佗4 修回 B 期 : 2 00 5 一 x l 一 17 基金项目 : 国家 “ 5 6 3 , , 项目 ( N o . 2 0 0 2 A A 4 1 2 0 1 0 一 10 ; )及北京市教委重点学科共建项目作者简介 : 郭辉( 19 72 一 ) , 男 , 博士研究生 ; 刘贺平 ( 1 9 5 1一 ) , 男 , 教授由式 (2 )左乘中 ( x 走 )变为 : 又( 巾 ( x * ) · V ) 二 ( 毋 ( x * ) · e V ) , k = l , 2 , , 二 , n ( 4 ) 定义一个 , X 儿矩阵 K 。 , K 。 = K ( x * , xj ) = ( 中 ( x , ) · 中 ( xj ) ) ( 5 ) 现在计算展开系数 a * 的特征值问题仅仅取决于核函数 , 即 : n 几a = K a ( 6 ) 其中 , a 表示 a l , … , 。。组成的一个列向量 . 得到的解( 又、 , “ ` )需要利用久* ( 份 · 汾 ) = 1 进行归一化处理 . 接下来要提取一个测试样本 x 的特征 , 只需将映射样本。 ( x ) 投影到 vi 上〔’ 倒 : DOI: 10. 13374 /j . issn1001 -053x. 2006. 03. 022

·304· 北京科技大学学报 2006年第3期 s(i)=（V.Φ(x)= 2i((x)p(x)= 条件： aL =0→0= dw a,(S:) (9) K(x),i=1,,m (7) aL =0→ (10) ab 2a:=0 同时，KPCA与其他PCA算法一样，还需要对数据在特征空间进行中心化处理，这只需用下 aL=0→a:=Yi (11) aE: 列矩阵K代替核矩阵K即可： aL=0+wTΦ(s,)+b+-=0(12） K=K-I K-In +lKln dai (8) 其中，(ln),=1/n,i,j=1,…,m 优化问题转化为求解线性问题，并且约减后常用的核函数有多项式核函数、径向基函数、得到： Sigmod函数.从上面方程看出，KPCA提取的最 0 (13) 大主元个数是n,如果前几个特征向量就能反映 1。 2+ 全部特征，那么样本的主元数目可以减少，往往提取的主元数目maK(s,s)+6 (14) y2),…,(sm,ym),其中为是目标值，3：是提取后从上面分析可以得到基于KPCA特征提取特征选择后的最小二乘支持向量机建模算法的具体步骤如数据集的数据集合下：步骤1选取建模数据，并进行预处理；数据收集 KPCA 最小二乘支持向量机步骤2选取KPCA的核参数，并进行特征图1特征提取的机器学习系统基本构成选择，提取主元作为最小二乘支持向量机的输入； Fig.1 Structure of machine learning for feature extraction 步骤3应用最小二乘支持向量机建模方的输入量，最小二乘支持向量机在优化目标中的法，建立基于最小二乘支持向量机模型；损失函数为误差：的二次项，使得约束条件变成步骤4进行正则化参数及核参数的选择和了等式约束，优化问题可以描述为求解下面问调整；题81：步骤5利用所建立好的模型进行预测 3实验分析约束条件：y:=西(s:)0+b+,i=1,,m, 3.1混沌时间序列预测其中，西(·)：R”→R是核函数（与KPCA中混沌是自然界与人类社会普遍存在的运动形为同一核函数)，权矢量0∈R,误差变量：∈ 式，对于混沌动力学系统的研究已成为动力系统 R,b是偏差量，Y是可调参数.核函数可以将原研究的中心内容之一.在实验中用Mackey--Glass 始空间中的样本映射为高维特征空间中的一个向时间序列进行预测.Mackey-Glass时间序列由差量，以解决线性不可分的问题，用拉格朗日法求解分延迟方程产生，该方程定义如下：这个优化问题9： dx(t=-b(t)+()for a dt L(w,6,e,a)=1 w+y 2 i=l (15) ∑a,(o(s;)+b+i-) 其中，a=0.2,b=0.1.当x>16.8,动力学系统变为混沌状态，因此选择x=30.实验任务是使其中a,i=1,…,m,是拉格朗日乘子.根据优化用已知x=t点的值预测将来x=t+x的值.从

Vol.28 No.3 郭辉等：基于核主成分分析与最小二乘支持向量机结合处理时间序列预测问题 305· x(501)-x(700)抽取200个数据构成训练数据 1000点的混沌时间序列模型，图2(b)表明特征提集，从x(701)-x(1000)取300个数据构成测试取后的时间序列模型，有200个训练数据点构成，数据集，其中m=9,x=1.为了使最小二乘支持 *表示实际输出值.用标准均方误差(NMSE)作向量机选取最优参数，在用VC#.net开发的最为评价准则，定义如下：小二乘支持向量机平台上实现了交叉验证方法，得到优化的参数值，采用高斯核函数，即(xk, NMsE=2o%-识 x)=exp -‖-12 2g2 ,c=16.2,y=10.核 PCA的核函数也采用高斯函数.图2(a)显示了其中，y表示预测值，y表示实际值的均值 12 1.0 0.8 04 0.201002003004005006007008009001000 0.201002003004005006007008009001000 时间时间图2(a)Mackey-Glass时间序列和(b)特征提取后的时间序列结果 Fig.2 (a)Mackey-Glass time series forecasting and (b)the result after feature extraction 在表1显示了初始的LSSVM,用PCA提取优化的参数值，采用高斯核函数，即k(x,x)= 特征后与LSSVM和用KPCA提取特征后与 LSSVM的平均NMSE.可以看出，特征提取后的 exp ‖-12 22,g=9.8,y=17.7,KPCA 方法优于没有提取的方法，而且KPCA提取后的 ·的核函数以及值也都通过交叉检验得到.图3(a) 预测结果最好，但是与PCA特征提取相比，KP. 表明了时间序列预测实际模型结果，图3(b)是在 CA需要更多的主元 1920年开始进行预测，一直到1980年，图中虚线表1平均NMSE的比较以及主要成分的数目表示预测结果.仍用上面实验中的标准均方误差 Table 1 Comparison of normalized mean square error and score (NMSE)作为评价准则，表2可以看出得到与上 vector number 个实验相同的结论，使用KPCA和PCA特征提取方法 NMSE 主成分数目后的时间序列预测效果优于没有提取的预测， LSSVM 0.0998 17 KPCA提取后得到最小的标准均方误差，但是与 PCA+LSSVM 0.0728 8 PCA提取后的预测相比，KPCA需要大量的主成 KPCA+LSSVM 0.0625 145 分，这就需要大量的时间进行计算表2平均NMSE的比较以及主要成分的数目 3.2 Sunspots数据集时间序列预测 Table 2 Comparison of normalized mean square error and score 这里用sunspots数据集测试.sunspot数据集 vector number 长期以来一直是标准的测试数据集，可以从网络方法 NMSE 主成分数目中获得这个数据集.数据集记录从1700一1979 LSSVM 0.273 15 共280年的太阳黑点数据.在实验中用1700-一 PCA LSSVM 0.254 9 1920的数据作为训练数据，剩下的1921一1979 KPCA+LSSVM 0.197 138 数据用来作为测试数据.通过五重交叉检验得到

V o l 。 2 8 N o . 3 郭辉等 : 基于核主成分分析与最小二乘支持向量机结合处理时间序列预测问题 x ( 5 0 1 ) 一 x ( 7 0 0 )抽取 2 0 0 个数据构成划I}练数据集 , 从 x ( 7 0 1 ) 一 x ( 1 0 0 0 )取 3 0 0 个数据构成测试数据集 , 其中 m = 9 , r 二 1 . 为了使最小二乘支持向量机选取最优参数 , 在用 V C # . ne t 开发的最小二乘支持向量机平台上实现了交叉验证方法 , 得到优化的参数值 , 采用高斯核函数 , 即 k ( x 、 , 1 0 0 0点的混沌时间序列模型 , 图 2 ( b) 表明特征提取后的时间序列模型 , 有 2 0 个训练数据点构成 , * 表示实际输出值 . 用标准均方误差 ( N M SE )作为评价准则 , 定义如下 : x , ) 一。 x p ( !! x * 一 x ` }1 2 , 2 , a 二 16 . 2 , y = 10 . 核 N M S E 一六客 (一、 ) 2 护一六乡 \ 一孙 P C A 的核函数也采用高斯函数 . 图 2 ( a) 显示了其中 , 夕表示预测值 , y 表示实际值的均值 . 1 . 6 1 . 4 料W大 1 . 2 1 . 0 气 . 入恻习潺 . 划田潺 0 . 6 0 4 0 2 在五茄万赫百赫炭万荪兀标于赫面赤谕扁 00 时间图 2 ( a ) M a c k e y 一 G l a s s 时’lq 序列和 ( b )特征提取后的时’lq 序列结果 F i g . 2 《 a ) M a e k e y · lG a ss t i me s e r i es fo r e . : as t i n g an d ( b ) t h e r e s日 t a n e r 介 a tur e e x t r a c t i o n 在表 1 显示了初始的 L S SV M , 用 P C A 提取特征后与 L S S V M 和用 K P C A 提取特征后与 L S v M 的平均 N M S E . 可以看出 , 特征提取后的方法优于没有提取的方法 , 而且 K P CA 提取后的预测结果最好 , 但是与 P C A 特征提取相比 , K P - C A 需要更多的主元 . 优化的参数值 , 采用高斯核函数 , 即 k ( x 、 , x ` ) = e x p } 」丛二主姿时) 八 _ 2 ) , 石 U a = 9 . 8 , 了 = 17 . 7 , K P C A 表 1 平均 N M sE 的比较以及主要成分的数目 T a b l e 1 C o n , P a r i s o n o f n o r m a l i z e d m e a n sq u ar e er r o r an d s e o r v e d o r n u 刃n b e r 方法 N M S E 主成分数目 L S S V M 0 . 0 9 9 8 P CA + L S SV M 0 . 0 7 2 8 K P C A + L S SV M 0 . 0 6 2 5 3 . 2 s u n sP ot s 数据集时间序列预测这里用 s u n s p o t s 数据集测试 . S u n s p o t 数据集长期以来一直是标准的测试数据集 , 可以从网络中获得这个数据集 . 数据集记录从 1 7 0 0一 1 9 7 9 共 2 80 年的太阳黑点数据 . 在实验中用 17 0 0一 1 9 2 0 的数据作为训练数据 , 剩下的 1 9 2 1一 1 9 7 9 数据用来作为测试数据 . 通过五重交叉检验得到的核函数以及值也都通过交叉检验得到 . 图 3 ( a) 表明了时间序列预测实际模型结果 , 图 3 ( b) 是在 1 9 2 0 年开始进行预测 , 一直到 19 8 0 年 , 图中虚线表示预测结果 . 仍用上面实验中的标准均方误差 ( N M S )E 作为评价准则 , 表 2 可以看出得到与上个实验相同的结论 , 使用 K p C A 和 p (: A 特征提取后的时间序列预测效果优于没有提取的预测 , K P C A 提取后得到最小的标准均方误差 , 但是与 P C A 提取后的预测相比 , K P C A 需要大量的主成分 , 这就需要大量的时间进行计算 . 表 2 平均 N M S E 的比较以及主要成分的数目 aT b l e 2 C om Pa r i s on o f no r m a liez d me a n s q au 比 e r or r 阻d s e o r e v e d o r n u n l b e r 方法 N M S E 主成分数目 L S SV M 0 . 2 7 3 1 5 P 〔! A + L S S V M 0 . 2 5 4 K P C A + L S S V M 0 . 1 9 7

·306· 北京科技大学学报 2006年第3期 200 200 180 180 160 160 140 120 100 80 60 60 20 1700 1750 1800 1850 1900 1950 880 1900 19201940 1960 1980 年份年份图3(a)Sunspots数据集时间序列和(b)特征提取后的预测结果 Fig.3 The predicted result of sunspots (a)and feature extraction(b) Conference.Budapest,2001:191 4结论 [3]Suykens J A K,Vandewalle J.Least squares support vector 提出了在KPCA特征提取后，用最小二乘支 machine classifiers.Neural Process Lett,1999,9(3):293 [4]Muller K R A,Smola G,Ratsch B,et al.Predicting time se- 持向量机对时间序列进行预测.实验仿真结果表 ries with support vector machines /Proceedings of ICANN 明，特征提取后的预测效果优于没有预测的效果， '97.Berlin:Springer,1997:999 降低了样本的维数，提高了训练的泛化能力，而且 [5]Maguire L P,Roche B,Mcginnity T M,et al.Predicting a KPCA比PCA提取的效果更加明显，原因在于 chaotic time series using a fuzzy neural network.Inf Sci, KPCA能处理原始输入的高阶信息，而PCA只能 1998,112:125 [6]Scholkopf B,Smola A J,Miller K R.Nonlinear component 处理样本的二阶协方差矩阵，但是KPCA得到的 analysis as a kernel eigenvalue problem.Neural Comput, 主元数目却远大于PCA得到的，这样就要损失大 1998,10:1299 量的时间，将来的工作是要研究减少KPCA所需 [7]Mika S,Scholkopf B.Smola A J,et al.Kernel PCA and de- 的主成分数量，提高训练时间. noting in feature spaces//Advances in Neurai Information Pro cessing Systems I.Cambridge:MIT Press,1999:536 参考文献 [8]Suykens J A K,van Gestel T,de Brabanter J,et al.Least Squares Support Vector Machines.World Scientific,2002 [1]Vapnik V N.统计学习理论的本质.张学工，译，北京：清 [9]Suykens J A K,Vandewalle J.Least squares support vector 华大学出版社，2000 machine classifiers.Neural Process Lett,1999,9(3):293 [2]Suykens J A K.Nonlinear modeling and support vector ma- chines//IEEE Instrumentation and Measurement Technology Integrating kernel principal component analysis with least squares support vector machines for time series forecasting problems GUO Hui,WANG Ling,LIU Heping Information Engineering School,University of Science and Technology Beijing,Beijing 100083,China ABSTRACT This paper discusses least squares support vector machines(LSSVM)in the time series fore- casting problem.Kernel principal component analysis (KPCA)is proposed to calculate principal compo- nent.Least squares support vector machines are applied to predict time series.Experimental results show that the performance of LSSVM with feature extraction using KPCA is much better than that without fea- ture extraction.In comparison with PCA,there is also superior performance in KPCA. KEY WORDS principal component analysis (PCA);least squares support vector machines (LSSVM); kernel principal component analysis (KPCA);time series forecasting