第8卷第1期 智能系统学报 Vol.8 No.1 2013年2月 CAAI Transactions on Intelligent Systems Feh.2013 D0I:10.3969/j.issn.1673-4785.201210046 网络出版地址:http://ww.cnki.net/kems/detail/23.1538.TP.20130125.1522.010.html 基于Parzen窗的高阶统计量特征降维方法 闫晓波,王士同,郭慧玲 (江南大学数字煤体学院,江苏无锡214122) 摘要:高阶统计量通常能比低阶统计量提取更多原数据的信息,但是较高的阶数带来了较高的时间复杂度.基于 Pazn窗估计构造了高阶统计量,通过论证得出:对于所提出的核协方差成分分析(KCCA)方法,通过调节二阶统计 量广义D-s-E的参数就能够达到整合高阶统计量的目的,而无需计算更高阶统计量.即核协方差成分分析方法能够 对高阶统计量的特征降维的同时,又不增加计算复杂性. 关键词:核协方差成分分析:高阶统计量:Parzen窗:特征降维 中图分类号:TP181文献标志码:A文章编号:16734785(2013)010001-10 Feature reduction of high-order statistics based on Parzen window YAN Xiaobo,WANG Shitong,GUO Huiling (School of Digital Media,Jiangnan University,Wuxi 214122,China) Abstract:The high-order statistics method can often extract more information regarding original data than a low-or- der statistics;yet in the meantime create higher time complexity.The high-order statistics methods were constructed by utilizing estimation based on Parzen window.It was revealed that the kernel covariance component analysis (KCCA)method proposed earlier by the researchers,contained useful information on the high-order statistics and could be obtained by only adjusting the parameters of the proposed generalized D-vs-E.Also based on the second order statistics,the heavy computational burden about the high-order statistics can be avoided.That is to say,the KCCA method can accomplish the feature reduction of high-order statistics without increasing its computational com- plexity. Keywords:KCCA;higher-order statistics;Parzen window;feature reduction 高阶统计量方法14]是近几年国内外信号处理nent analysis)方法[I51所采用的统计量只考虑了Re 领域内的一个前沿课题,它往往比二阶统计量包含yⅵ熵,即数据集的平均向量的欧几里德长度,所以 更多更丰富的信息,并广泛应用于模式识别、信号检 KECA也可以看作是降维前后核特征空间的数据平 测、分类等问题,人们有可能从高阶统计量获得信号 均向量的欧几里德长度变化的最小化问题.而KC 的显著分类特征.但是在本文介绍的一类基于 CA(kernel covariance component analysis)方法I16则 Parzen窗的特征降维方法中,高阶统计量并没有提 是基于协方差矩阵来构造统计量D-vs-E(densities- 供更多信息,而是与二阶统计量提供的信息相当,因 vs-entropy),这种方法要求降维前后的D-vs-E尽量 此只需要使用二阶统计量就能达到这类方法所能达 接近.因为D-vs-E不仅包含了Renyi熵,更包含了 到的最好效果, 散度变小时所有样本的概率密度和,这是KECA方 R.Jenssen提出的KECA(kernel entropy compo- 法中所没有的.使用二阶统计量不仅能和KECA一 收稿日期:2012-10-22.网络出版日期:201301-25. 样揭示出数据的结构,而且增强了这种降维方法对 基金项目:国家自然科学基金资助项目(90820002):江苏省自然科学 基金资助项目(BK2009067). 核参数选择的鲁棒性.由此考虑到高于二阶的高阶 通信作者:闫晓波.E-mail:hnpyyxbe@163.com 统计量会不会包含更多的信息,从而使此类降维方
·2 智能系统学报 第8卷 法具有更好的性能和优势?由这个问题引出了本文 向量.因此KECA数据转换还可以用平均向量表 对高阶统计量的探讨、分析和证明. 示为 1核熵成分分析(KECA) Φ。=DiE:(P)-V(pn)= 1.1KECA的定义 D赃:m血Im2-Im, KECA是由R.Jenssen提出的一种数据转换和 2核协方差成分分析(KCCA) 降维方法,为了便于阅读,以下采用与文献[15] 相同的数学符号.KECA的提出基于2个概念:一个 最近笔者提出了基于D-vs-E的KCCA数据转 是Renyi熵: 换方法,将其应用于聚类,结果显示KCCA方法在对 高斯核参数的选择上比KECA具有更强的鲁棒性. H(p)=-logV(p)=-log p2(x)dx; 2.1统计量D-vs-E 另一个是Parzen窗密度估计[81: 通过观察矩阵mm',可以建立起V(p。)与mm x)=∑k,(x,). NaeD 的等价关系: 式中:D={x1,2,…,xw.由于k(x,·)的形状对 p'(x)mm'e(x)dt=元(x)dt=.).(2) Parzen窗密度估计的影响并不大f90,为了便于分 这引起了笔者对核特征空间中数据集的协方差 析和计算,可以采用核参数为σ的高斯核函数. V(p)可以用(x)近似地表示为 、((x)-m)((x)-m)T的思考,将式 )=N() (2)中的mm「替换成协方差矩阵,得到式(3): 泰)= pe会e)-me)-mp 式中:N×N的矩阵K中标号为(t,t)的元素等于 ∫2e(x)e(s)e(x)e()r- k(x,x),I是元素全为1的N×1的列向量, 由此,KECA数据转换可以表示为: (x)mm"(x)dx 重。=DiE:.minV(p)-V,(p)= A1,1,,AN,N D时:nn(K-Kh 蓉毛达c地-J2S) r-D 对于高斯核函数,由于k。(x,x)k。(x,x:)= 式中:()=是ED,1=K,K=ED, k(x,x:),所以式(3)可化为 1.2KECA与平均向量的关系 含oa高出-jr 由式(1),KECA也可以看作是降维前后核特征 空间的数据平均向量的欧几里德长度变化的最小化 ∫Pwa(x)dr-∫2(x)d. (4) reD 问题 式中:第1项可以近似地表示为 ,)=W='wl 原aei。aid)=青盒aa. 分)》=la(0 而第2项对应于V(p。),进而对应于H(P。),因此式 (4)可以近似地表示为 式中:m=六,(x,)是核特征空间数据集的平均 向量,设降维后的数据集为 贵会》言,以) Φ。=[Φ.(x1)重.(x2)… Φ.(xw)], 于是式(5)导出了D-vs-E的概念,D-vs-E就是 降维后的熵表示为 核参数为σ/2时的密度总和与熵V(P)的差, (,)=K=Im 2.2KCCA的定义 将式(5)中2项的系数提出并约去,重写为 式中:m=29,(✉)是转挨后的数据血的平均 严和,其中飞是N×N的矩阵,下标为(i,j)的元素
第1期 同晓波,等:基于Parzen窗的高阶统计量特征降维方法 ·3 为(,与)-六,(云,,设转换后的数据 Jee)字9 o)u- 集为 Φ=[西(x)重(x2)…重.(xw)], ()(m's)e (e( 则KCCA数据转换定义为 =D哼E(K-k)h ee)氵gmg5m8) 式中:K。=Φ中.=EDE,需要注意的是r可能不 对于高斯核函数,有k+m(x,)=∫k。,(x, 是半正定的矩阵,广义D-s-E能够解决这个问题, 具体参见文献[16]. )k,(x,x2)dr,由此可以对式(8)中的每一项分别 2.3D-vs-E统计量的优势 化简. 可以把式(5)以矩阵形式表示为 第1项: NlKaal-ylK.I. (6) 字亨eeaw6c4)esd= 式中:K。表示N×W的矩阵,其下标为(i,)的元素 为k(x:,x).观察式(6),D-vs-E由两部分组成:第 (c两流 2部分中K,I是KECA中所使用的统计量(p) 是20池) 的表达式:第1部分是核参数缩小为σ/2时所有样 本的密度之和,这是KECA方法所不包含的信息.这 京与= 说明统计量D-vs-E包含了比V(p)更丰富的信息. 实验也证明了D-vs-E不但能像V(p)一样能很好地 NIKL (9) 提取数据分布的角度结构,而且由于D-vs-E的第1 第2项: 项与第2项中核参数并不相同,使得在聚类的应用 中,能够有效地增强核参数选择的鲁棒性16.其次,观 ()p(x()(m()as 察KCCA方法的核矩阵K=Ka-K。,仍是一个N×W 矩阵,因此在特征降维中特征分解的过程并没有增加 [字apa 算法的复杂度, 3 高阶统计量 品手6泥心 N 观察式(3)可以看出统计量D-vsE是由数据集 a龙 的协方差矩阵,即二阶统计量导出的,并且实验证明 它比由平均向量导出的(p)有更好的性能.如果使 4 IGD J 用更高阶的统计量,会不会得到更好的特征降维方 法.将核特征空间中的数据集的协方差矩阵 (x,)-m)(e(x)-m)'用C来表示,则有 -K1 (10) D-vs-E ="(x)Cop(x)dx 第3项: Kadl-NlK.I. (7) 会)dndapei- 考虑用C2来代替式(7)中的C,可以导出新的 统计量,用T2来表示,于是有 I年oeie0 iuo T2=∫p'(x)Ce(x)dr= xED 动手头流地 是pa)2)xddu
智能系统学报 第8卷 -K1 (11) 的变化对T3和T4的变化影响也最大,与T2同样的 道理,在用T3和T4降维的过程中也可以只考虑对 第4项: 统计量影响最大的第1项. 是∫2氵exe(x)mp()m'gr)d= 再比较中的1K1,3中的K六I和工 L空亨noo 中的1K名1,它们的核参数分别为子0。和 字2 司,海小于另外可以计算出元,和五中比 k(E.)ade 重最大的一项分别为是1K名人K分1和 5是k(✉,)mm= K因此可以总结归纳出工,中比重最大的 是KK)= 一项为K点,其中n是大于0的偶数,从中 √2+1 可以看出两点: Y(FKD. (12) )1 00是一个调整系数,2>a1,2,…,an>1, 观察式(13),它由3个部分组成,第1部分 由第2点可以看出n是一个较小的正整数.式(16) K的系数在3项中最大,因此其在了,中 与文献[16]中的广义D-vs-E不谋而合,只是在范围 所古比重最大,K31在降维前后的变化则成为 的选择(1,2,…,a>1)上又加以限制.因此可以 通过调节广义D-vs-E中的参数a1,a2,…,an来达 了T2降维前后变化的主要影响因素.既然如此,就 到整合高阶统计量的目的,同时又避免了大量的计 算.因此,在此类基于Parzen窗的特征降维方法中, 只需考虑1,的第1部分为K1,后面2个部分都 无需研究更高阶的统计量. 可以略去,这样就达到了简化问题的目的.再观察式 4结束语 (14)和(15),同样地,第1部分1PK1和 本文对由R.Jenssen提出的KECA方法和笔者 K古统计量乃和工的比重最大,它们各自 最近提出的KCCA方法导出的一系列高阶统计量进 行了研究,发现通过调节广义D-vs-E中的参数能够
第1期 同晓波,等:基于Parzen窗的高阶统计量特征降维方法 5· 整合高阶统计量,使得广义D-s-E具有了更广泛的 方法中无需研究更多计算量的高阶统计量. 意义.因此在今后的此类基于Parzen窗的特征降维 附录AT4推导过程 T4=∫p'(x)Cp(x)d= uneue- e✉学2交exeg4 euprisiouou pe2三2 a-.pGE恤· p四克草2交dwdimFiprau, 」es空22三raoumco+ pu2立adm.lg.dwdo· 泰ps2立edras.ueiou ee)多2 Kae(cucm neidaudpadu 泰制pa)2立0mg5 ---isciu 泰pis)2三riapos.wcimp,e e✉≥2交meeo4mpte NN p✉)字≥28 m.iin 录ee)至2mgm以pgm 点pu2交em6oe,s红pear+ lee)空222 Kawpizn'dis'7s.cu 对每一项进行化简: 第1项为 eineindaeuo.unec 泰2两浅以也
·6 智能系统学报 第8卷 龙因 N (.)dr N K 17 第2项为 NNN ∫∑∑∑∑e(xe(,)e'(x)eg(e(x)g(x.ex,)mg(x)dr= -字多套红地,,ka= NNNN 2.4ea - a -ylk.L 第3项为 Jn≥会e(e)e(xe()e)g()g(.)mex.)ex)4(eds= 立2(,(国,(西mg龙(出0 2ikt成mw) 是2低) -MfK.L 第4项为 会交id(()eea,me(mo= 享亨6a N NN 'n(c.oa mn∫空6.,5d MIEIEL araineo.inneuiou. 第5项为 -字2m NNNN 2人x两
第1期 同晓波,等:基于Parzen窗的高阶统计量特征降维方法 7· -2立k()= -K1 第6项为 ≥2eee(p✉e4)mg.p.p,)mgr)= NNNN /氵,(x),(mo((出)me( 字2o) NNN yIK.IfK.I. 第7项为 ≥令会交p()P(p--)Pip= 1 NNN mm∑∑∑k,(x,)k,()m()k.(xr)dr≈ mm字空》 NN MFK IFKI. 第8项为 -字李8o0 )ocadeemn NNNN (mm)2≥于2Σ,(,)k,()m'()d≈ -mm3, ED T -(FKDFK.L 第9项为 ()p(z)m'e(x)e'(((t)p(z.'(t.( NNNN ∑∑∑∑k,(x,x)m()k,(x)k,(x)k,(x)dr ) -K 第10项为 ≥会2pepx)w-ipidipi.pxmg= NNNN 于三,x,)m()k,(,(,)m(dr 品G地
·8 智能系统学报 第8卷 lK.I'K.I. 第11项为 是氵立e(eemp)ee.megx.pr) 2字含,mw西)m 季22 MFRIEL 第12项为 是氵豆交e(e)e)me(ge.)me红we(z)de- mmJ年≥,(x)me(,(西)mg(e)r= 1 m手字, 1 NNN -IK月 第13项为 ()e(z)m'e(zpwe(t.)'(s.)e(z.)'(s.e(ads- mmJ2三,(,)mp,(出(x,)t为 m套)= NN NFK IK.I. 第14项为 -222三ome0m5 Fwoo mmJn之会立k(x,)ma(x)k,(x)m'g(x)d 1 a3空e6k。 -K月 第15项为 京22 andoncoudie mm年,红玉泥伍 -mm2空交,出)- -(K.D)TK.I
第1期 同晓波,等:基于Parzen窗的高阶统计量特征降维方法 9 第16项为 ≥交.p(p(zw'p(zw'p4mpm= 六mm户,cx)m4)dr 是(mm)P24(,)d证= 是IK 将各项带入,化简得 卫PK-点K1+K,nK+KrK1- 3K,7K1-是rK3+K 附录BT,推导结果 。K-K1+3KWK1+(得-1KnK+KnK1+ ((KDKI-KIKI-N(KIFKI-NKIKI) 是KDFKI+K-K+名KrK-是KTI+TK9 statistic analysis of seismic dispersive wavefield[J].Oil Ge- 参考文献: ophysical Prospecting,2004,39(1):45-49. [1]LU Wei,SUN Wei,CHUNG Fulai,et al.Revealing digital [8]ANASTASSIOU G,DUMAN O.High order statistical fuzzy fakery using multiresolution decomposition and higher order Korovkin theory[J].Stochastic Analysis and Applications, statistics[J].Engineering Applications of Artificial Intelli- 2009,27(3):543-554. gnce,2011,24(4):666672. [9]NIKORA V,GORING D.Martian topography:scaling, [2]MUNSHI D,KITCHING T,HEAVENS A,et al.Higher craters,and high-order statistics[J].Mathematical Geolo- order statistics for three-dimensional shear and flexion[J]. 鄂,2005,37(4):337-355. Monthly Notices of the Royal Astronomical Society,2011, [10]PORAT B,FRIEDLANDER B.Direction finding algo- 416(3):1629-1653. rithms based on high-order statistics[J].IEEE Transac- [3]NAPOLITANO A,TESAURO M.Almost-periodic higher tions on Signal Processing,1991,39(9):2016-2024. order statistic estimation[J].IEEE Transactions on Infor- [11]COURNAPEAU D,KAWAHARA T.Voice activity detec- mation Theory,2011,57(1):514533. tion based on high order statistics and online EM algorithm [4]KALIDINDI S,NIEZGODA S,SALEM A.Microstructure [J].IEICE Transactions on Information and Systems, informatics using higher-order statistics and efficient data- 2008,91(12):2854-2861. mining protocols[J].JOM,2011,63(4):34-41. [12]REN Hsuan,DU Qian,WANG Jing,et al.Automatic tar- [5]AGUERA-PEREZ A,PALOMARES-SALAS J,De LA RO- get recognition for hyperspectral imagery using high-order SA J,et al.Characterization of electrical sags and swells u- statistics[J].IEEE Transactions on Aerospace and Elec- sing higher-order statistical estimators[J].Measurement, tronic Systems,2006,42(4):1372-1385. 2011,44(8):1453-1460. [13 ]TAOUFIKI M,ADIB A,ABOUTAJDINE D.Blind separa- [6]LABBI A,BOSCH H,PELLEGRINI C.High order statis- tion of any source distributions via high-order statistics tics for image classification[J].International Joumal of [J].Signal Processing,2007,87(8):1882-1889. Neural Systems,2001,11(4):371-378. [14 YUAN Jinghe,HU Ziqiang.High-order statistical blind [7]张丽琴,詹麒,朱培民,等.地震散射波场的高阶统计分 deconvolution of spectroscopic data with a Gauss-Newton 析[J].石油地球物理勘探,2004,39(1):4549, algorithm[J].Applied Spectroscopy,2006,60(6): ZHANG Liqin,ZHAN Qi,ZHU Peimin,et al.High-order 692697
·10 智能系统学报 第8卷 [15 JENSSEN R.Kemel entropy component analysis [J]. 作者简介: IEEE Transactions on Pattern Analysis and Machine Intel- 闫晓波,女,1987年生,硕士研究 ligence,2010,32(5):847-860. 生,主要研究方向为人工智能、模式 [16]闫晓波,王士同,郭慧玲.核协方差成分分析方法及其在聚 识别. 类中的应用[J].计算机科学,2012,39(9):229-234. YAN Xiaobo,WANG Shitong,GUO Huiling.Kemel co- variance component analysis and its application in cluste- ring[J].Computer Science,2012,39(9):229-234. [17]RENYI A.On measures of entropy and information [C]// 王士同,男,1964年生,教授,博士 Proceedings of the 4th Berkeley Symposium on Mathematical 生导师.主要研究方向为人工智能、模 Statistics and Probability.Berkeley,USA,1961:547-561. 式识别、神经模糊系统、生物信息学及 [18]PARZEN E.On estimation of a probability density function 其应用.先后主持或参与国家自然科学 and mode J].The Annals of Mathematical Statistics, 基金项目6项、省部级科研项目10余 1962,33(3):1065-1076. 项.获教育部、江苏省等省部级政府类 [19]DENG Zhaohong,CHUNG Fulai,WANG Shitong.FRS- 科技进步奖一、三等奖共7项.发表学术论文百余篇,出版著 DE:fast reduced set density estimator using minimal en- 作5部. closing ball approximation[J].Pattem Recognition, 2008,41(4):1363-1372. 郭慧玲,女,1989年生,硕士研究 [20]KOLLIOS G,GUNOPULOS D,KOUDAS N,et al.Effi- 生,主要研究方向为人工智能、模式识 cient biased sampling for approximate clustering and outlier 别、图像处理. detection in large data sets[J].IEEE Transactions on Knowledge and Date Engineering,2003,15(5):1170- 1187. 第6届国际先进计算智能会议(ICACI2013) Sixth International Conference on Advanced Computational Intelligence (ICACI 2013) The Sixth International Conference on Advanced Computational Intelligence (ICACI 2013)will be held in Hangzhou,Chi- na during October 19-21,2013,as a sequence to IWACI 2008 (Macao),IWACI 2009 (Mexico City),IWACI 2010 (Suzhou),IWACI 2011 (Wuhan),and ICACI 2012 (Nanjing).As the capital of Zhejiang province in southeast China, Hangzhou has been one of the most renowned and prosperous cities in China for more than 1 000 years.With abundant historic relics,enchanting natural beauty,and rich cultural heritages,Hangzhou is known as a "Heaven on Earth".The West Lake,as a UNESCO World Heritage site,is one of Hangzhou's most popular and beautiful sights. ICACI 2013 aims to provide a high-level international forum for scientists,engineers,and educators to present the state of the art of research and applications in computational intelligence.The conference will feature plenary speeches given by world renowned scholars,regular sessions with broad coverage,and special sessions focusing on popular topics.In addi- tion,best paper awards will be given during the conference.The proceedings of ICACI 2013 will be published by the IEEE and included by EI Compendex.Moreover,selected papers will be published in special issues of related journals. The conference will favor papers representing advanced theories and innovative applications in computational intelligence. Timeline: Special session proposal deadline:May 1,2013 Paper submission deadline:June 1,2013 Notification of acceptance:August 1,2013 Final paper submission and author registration:September 1,2013 Technical sessions:October 19-21,2013 Contact: E-mail:icaci2013@gmail.com Website:http://www.iwaci.org/