第26卷第10期 统计与信息论坛 2011年10月 VoL26 No.10 Statistics&Information Forum 0ct,2011 【统计理论与方法】 MCMC方法下最优Copula的估计及选取 蔡晓薇 (安徽财经大学统计与应用数学学院,安徽蚌埠233000) 摘要:针对目前Copula函数在实际中的应用问题,介绍了一种基于马尔科夫链蒙特卡罗方法(MCMC)的 Copula函数估计及选取方法,并将该方法与目前常用方法进行系统比较,最后对上证综合指数和深证成分指 数进行了实证分析,结果体现了该法的有效性。 关键词:Copula函数:MCMC方法,DIC信息准则 中图分类号:O212.8文献标志码:A 文章编号:1007-3116(2011)10-0033-06 一、引言 运用Copula函数建模主要有两个步骤:(1)确 定随机变量的边缘分布;(2)最优Copula函数的确 Copula函数可以将多个随机变量的边缘分布 定。而最佳边缘分布及最优Copula函数尤其是后 连接在一起形成联合分布,变量间的相关结构完全 者的确定一直以来是建模中的难点,虽然许多学者 由Copula函数决定,而各变量间的统计特征由其边 提出了一些相应的建议,但是这一问题还是没得到 缘分布决定。此外,若对随机变量做单调增变换,由 很好地解决。本文运用MCMC(Markov Chain Copula函数导出的一致性和相关性测度的值不会 Monte Carlo)方法对Copula函数模型进行估计,并 改变,可以捕获随机变量间非线性的相关关系。因 提出了一种基于DIC(Deviance information criteri- 此,Copula函数模型被广泛应用于风险管理、资产 o)信息准则的选择方法,该方法无需对原样本数 定价、多变量金融时间序列分析等 据进行任何变换,是一个强力有效的最优Copula函 方面1]129-152,[2132-158 数及其模型的选取方法。 Clustering and Its Empirical Study Based on Shape for Multivariable Panel Data REN Juan,CHEN Qi (School of Economics and Management,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China) Abstract:To address the problem of sample classification of multivariate panel data,this paper proposes a clustering approach based on shape.It can comprehensively consider the panel data's local changes characteristics in time series dimension with global distance.It proposes an adaptive sliding windows section method to implement the shape extraction.Based on reconstructing the synthesized distance,it presents a panel data clustering analysis method.The empirical analysis shows that this method can solve the problem of panel data clustering,and the clustering results shows good applicability. Key words:multivariate;ward clustering;panel data;shape;competitive strategy (费任编辑:王南丰) 收稿日期:2011一06-03 基金项目:安数高校省级科学研究项目《安徽省粮食生产空间计量与案例系统仿真研究》(2011SK162) 作者筒介:蔡晓薇,女,安数蚌埠人,硕士,讲师,研究方向:应用统计。 33 万方数据
第26卷第10期 统计与信息论坛 2011年10月 VoL 26 No.10 Statistics&Information Forum Oct.,2011 【统计理论与方法】 MCMC方法下最优Copula的估计及选取 蔡晓薇 (安徽财经大学统计与应用数学学院,安徽蚌埠233000) 摘要:针对目前Copula函数在实际中的应用问题,介绍了一种基于马尔科夫链蒙特卡罗方法(MCMC)的 Copula函数估计及选取方法,并将该方法与目前常用方法进行系统比较,最后对上证综合指数和深证成分指 数进行了实证分析,结果体现了该法的有效性。 关键词:Copula函数;MCMC方法;DIC信息准则 中图分类号:0212.8 文献标志码:A 文章编号:1007--3116(2011)10—0033一06 一、引 言 Copula函数可以将多个随机变量的边缘分布 连接在一起形成联合分布,变量间的相关结构完全 由Copula函数决定,而各变量间的统计特征由其边 缘分布决定。此外,若对随机变量做单调增变换,由 Copula函数导出的一致性和相关性测度的值不会 改变,可以捕获随机变量间非线性的相关关系。因 此,Copula函数模型被广泛应用于风险管理、资产 定价、多变量金融时间序列分析等 方面‘1]1∞一152·[2]132一158。 运用Copula函数建模主要有两个步骤:(1)确 定随机变量的边缘分布;(2)最优Copula函数的确 定。而最佳边缘分布及最优Copula函数尤其是后 者的确定一直以来是建模中的难点,虽然许多学者 提出了一些相应的建议,但是这一问题还是没得到 很好地解决。本文运用MCMC(Markov Chain Monte Carlo)方法对Copula函数模型进行估计,并 提出了一种基于DIC(Deviance information criteri— on)信息准则的选择方法,该方法无需对原样本数 据进行任何变换,是一个强力有效的最优Copula函 数及其模型的选取方法。 Clustering and Its Empirical Study Based On Shape for Multivariable Panel Data REN Juan.CHEN Qi (School of Economics and Management,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China) Abstract:To address the problem of sample classification of multivariate panel data,this paper proposes fl clustering approach based on shape.It can comprehensively consider the panel data’S lOCal changes characteristics in time series dimension with global distance.It proposes fin adaptive sliding windows section method to implement the shape extraction.Based on reconstructing the synthesized distance,it presents a panel data clustering analysis method The empirical analysis shows that this method can solve the problem of panel data clustering,and the clustering results shows good applicability. Key words:multivariate;ward clustering;panel data;shape;competitive strategy (责任编辑:王南丰) 收稿日期:2011一06一03 基金项目:安徽高校省级科学研究项目《安徽省粮食生产空间计量与案例系统仿真研究}(2011SKl62) 作者简介:蔡晓薇,女,安徽蚌埠人,硕士,讲师,研究方向:应用统计。 万方数据
统计与信息论坛 函数的参数与边缘分布函数的参数组成的参数向 二、Copula函数 量,π()、(、()分别为相应的后验分布、似 Nelsen对N维Copula函数定义为具有以下性 然函数、先验分布。 质的函数C:(1)C=N=[0,1],(2)C的边缘分 为不失一般性,令(X1,X2)为一二维连续随机 布Cn()满足Cn(u)=C(1,…,1,,1…l)=4, 变量,那么其在Copula函数下相应的联合概率密度 其中,u∈[0,1],n∈[1,N];(3)C对它的每一个变 函数为: 量都是递增的3]27-250 f(x,x2|)=c(F(x1I,F2(x2{) 显然,一个N维Copula函数是一个N维概率分 fi(x1f2(x2|)(1) 布函数,其边缘分布是限制在[0,1]上的均匀分 其中,F、F2与f、f分别为相应变量的边缘分布 布,在二维情况下,如果F(x1),F2(x2)是随机变量 函数与边缘密度函数,c为Copula函数的概率密度 X1,X2的分布函数,那么C(F1(x1),F2(x2)可以 函数。 作为(X1,X2)的联合分布函数。 如果X=(x1,x2),…,(x1w,x2n)是上述分 目前常用的Copula函数估计方法主要有以下 布的一个云.i.d样本,那么其似然函数为6们13: 几种:精确极大似然估计法(EML),该方法需要已 L(=Ic(F(u),F2() 知边缘分布,其缺陷是当碰到高维数据时,会有很大 fi(x:|f2(x2:|) (2) 的计算量;分步极大似然估计法(IFM),该方法也需 这样,在已知Copula函数模型参数向量的先验 已知边缘分布,对参数的日的估计分为2步,缓解了 分布时,就可以得到其后验分布的核。 计算量的问题,但估计2次会导致误差积累放大;规 (二)MCMC方法 范化的极大似然估计法(CML),从理论上来讲, MCMC方法是使用马尔科夫链的蒙特卡罗积 CML是以上三种估计方法中最好的方法,因为它没 分,其基本思想是:构造一条Markov链,使其平稳 有对边缘分布形式作出假设。如果对边缘分布的形 分布为待估参数的后验分布,通过这条马尔科夫链 式作出错误的判断,EML和IFM方法将改变变量 产生的后验分布的样本,并给予马尔科夫链达到平 间的相依结构;非参数估计方法,该方法较其他方法 稳分布时的样本进行蒙特卡罗积分。在采用 来说计算简单,但使用范围主要适用于 MCMC方法时,马尔科夫链转移核的构造至关重 Archimedean Copulas. 要,不同的转移核构造方法,将产生不同的MCMC 对于最优Copula函数的选取,基于Copula分 方法,目前常用的MCMC方法主要有两种,Gibbs 布函数与条件分布的QQ图法直观、快捷,但其缺乏 抽样和Metropolis-一Hastings算法。 量化的标准,且有时无法辨别图形间微小差别;计算 Metropolis一Hastings算法是比较一般化的 并比较理论Copula函数C与经验Copula函数Cn MCMC方法[]176-25,该方法的基本思路是:任意选 之间的距离,也是比较常用的方法;Roberto De 择一个不可约转移概率g(,·)以及一个函数α(, Matteis和Dobric et al.分别提出了基于K-S检验 与P维x检验的拟合优度检验,Daniel Berg对 ·),0<a(,)≤1,对任一组合(x,x)(x≠x),定 义: Copula函数选取的拟合优度检验做了系统的总结 (3) 和比较],Chen和Fan提出一种伪似然比检验方法 p(x,x)=q(z,z')a(z,z')' 则(x,x)形成一个转移核。在有了q(,·) 来选择最优Copula函数;Huard et al.建议一种基 于贝叶斯理论的Copula函数选取方法。以上方法 后,应选择一个a(·,),使相应的(x,x)以r(x) 为其平稳分布,最常用的选择是: 基本均需对原变量序列进行数据变换,因此会对样 本数据信息造成一定的丢损。 a(,)=min(1,(2(( (4) x(z)q(z,x') 三、Copula函数模型的贝叶斯分析 此时,(x,x)为: (x,x)= (一)模型的贝叶斯推断 9(x,x') (z)q(z',z)(x)q(I,I) 根据贝叶斯定理,对Copula函数模型进行贝叶 斯推断,关键是在已知观察数据下,获得模型参数的 q(x',)( x(x) a(x')q(I',z)<()q(x,x') 后验分布。即x()oc()(),其中平为Copula (5) 34 万方数据
统计与信息论坛 二、Copula函数 Nelsen对N维Copula函数定义为具有以下性 质的函数C:(1)C=p=[o,1]N;(2)C的边缘分 布C。(·)满足G(uD=C(1’..·,l,‰,l…1)=‰, 其中,U∈[o,1],以∈[1,N];(3)C对它的每一个变 量都是递增的[3]227-250。 显然,一个N维Copula函数是一个N维概率分 布函数,其边缘分布是限制在[O,1]N上的均匀分 布,在二维情况下,如果F1(z1),F2(z2)是随机变量 X。,x2的分布函数,那么C(F1(z1),F2(zz))可以 作为(X,,Xz)的联合分布函数。 目前常用的Copula函数估计方法主要有以下 几种:精确极大似然估计法(EMI。),该方法需要已 知边缘分布,其缺陷是当碰到高维数据时,会有很大 的计算量;分步极大似然估计法(IFM),该方法也需 已知边缘分布,对参数的0的估计分为2步,缓解了 计算量的问题,但估计2次会导致误差积累放大;规 范化的极大似然估计法(CMI。),从理论上来讲, CMI。是以上三种估计方法中最好的方法,因为它没 有对边缘分布形式作出假设。如果对边缘分布的形 式作出错误的判断,EMI。和IFM方法将改变变量 间的相依结构;非参数估计方法,该方法较其他方法 来说计算简单,但使用范围主要适用于 Arehimedean Copulas。 对于最优Copula函数的选取,基于Copula分 布函数与条件分布的QQ图法直观、快捷,但其缺乏 量化的标准,且有时无法辨别图形间微小差别;计算 并比较理论Copula函数C与经验Copula函数G 之间的距离,也是比较常用的方法;Roberto De Matteis和Dobric et a1.分别提出了基于K—S检验 与P维x2检验的拟合优度检验[4],Daniel Berg对 Copula函数选取的拟合优度检验做了系统的总结 和比较[51;Chen和Fan提出一种伪似然比检验方法 来选择最优Copula函数;Huard et a1.建议一种基 于贝叶斯理论的Copula函数选取方法。以上方法 基本均需对原变量序列进行数据变换,因此会对样 本数据信息造成一定的丢损。 三、Copula函数模型的贝叶斯分析 (一)模型的贝叶斯推断 根据贝叶斯定理,对Copula函数模型进行贝叶 斯推断,关键是在已知观察数据下,获得模型参数的 后验分布。即,r(Y0。c l(掣)p(1lQ,其中y为Copula 34 函数的参数与边缘分布函数的参数组成的参数向 量,7r(奶、z(奶、夕(奶分别为相应的后验分布、似 然函数、先验分布。 为不失一般性,令(X·,X2)为一二维连续随机 变量,那么其在Copula函数下相应的联合概率密度 函数为: f(zl,z2 I奶=c(F1(z1 I奶,F2(z2 l蚧) ^(xl I奶^(xz I奶 (1) 其中,Fl、F2与厂1√;分别为相应变量的边缘分布 函数与边缘密度函数,c为Copula函数的概率密度 函数。 如果X=((xtl,z21),..·,(zl。,X2。))是上述分 布的一个i.i.d样本,那么其似然函数为[6]3卜髓: L(奶=Ⅱ:,c(F。(她I奶,F2(x2;I奶) ^(zlf l奶^(xzf I奶 (2) 这样,在已知Copula函数模型参数向量的先验 分布时,就可以得到其后验分布的核。 (二)MCMC方法 MCMC方法是使用马尔科夫链的蒙特卡罗积 分,其基本思想是:构造一条Markov链,使其平稳 分布为待估参数的后验分布,通过这条马尔科夫链 产生的后验分布的样本,并给予马尔科夫链达到平 稳分布时的样本进行蒙特卡罗积分。在采用 MCMC方法时,马尔科夫链转移核的构造至关重 要,不同的转移核构造方法,将产生不同的MCMC 方法,目前常用的MCMC方法主要有两种,Gibbs 抽样和Metropolis--Hastings算法。 Metropolis--Hastings算法是比较一般化的 MCMC方法[7]17卜235,该方法的基本思路是:任意选 择一个不可约转移概率q(·,·)以及一个函数口(·, ·),o<口(·,·)≤1,对任一组合(z,z7)(z≠z7),定 义: p(x,z7)=q(x,z7)口(z,z7) z≠z7 (3) 则p(x,z7)形成一个转移核。在有了q(·,·) 后,应选择一个口(·,-),使相应的p(x,z7)以,r(z) 为其平稳分布,最常用的选择是: 缸√)=min{·,≤黜) (4) 此时,p(x,z7)为。 p(x,z7)= fq(x,z7) 丌(z7)q(z7,z)≥,r(z)q(z,z7) 1如7彤)籍“z,)q&7汀)<“动如汀,) (5) 万方数据
募晓薇:MCMC方法下最优Copula的估计及选取 此法的实施比较直观:如果链在t时刻处于状 DIC(M)=D()+2PD 态x,即=x,则首先由q(·,x)产生一个潜在的 =D(Ψ(k)+加 (10) 转移x→x',然后根据概率a(x,x)决定是否转移。 DIC准则同时考虑了模型对数据的拟合优度和 即以概率a(x,x)接受x'作为下一时刻的状态值, 模型的复杂程度。其中D((k)表示了模型拟合数 以1一a(x,x)拒绝转移到x',而链的下一时刻仍处 据的优劣,pD则衡量了模型的复杂度,D(Y(k)值越 于状态x。于是,在有了x后,可再抽取一个[0,1] 大,则模型拟合数据越劣;p。值越大,则说明模型越 上均匀分布的随机数“,则: 复杂。反之亦然.实际计算时,基于后验分布样本,可 X)= Ixu≤a(x,x) (6) 以用下式来估计Copula函数模型M的DIC值: x u>a(z,x') 一般称q(·,·)为建议分布(proposal DIC(M)≈- N aeLM)+ distribution),目的是使后验分布x(x)成为平稳分 2 logL(Ψ,M) (11) 布,建议分布g(x,x)可以取各种形式。 为作比较,本文同样也计算了Copula函数模型 Metropolis(1953)采用了对称的建议分布,即: 的AIC、BIC以及二者的扩展EAIC、EBIC准则: q(x,x')=q(x',x)Vx,x AIC(M)=D(E(V X,M))+2d;BIC(M)= 此时,a(x,x)简化为: D(E(V X,M))+log(n)d;EAIC(M)= ex,)-m,号} (7) E(D(里)|X,M)+2d4;EBIC(M)=E(D(里)I X,M)+log(n)d.其中,d为Copula函数模型M 对称建议分布的一个特列是q(x,x)=q(|x一 中的参数个数。 x'|),这称为随机漫步Metropolis算法。 (三)DIC准则 四、实证模拟研究 DIC准则(Deviance Information Criterion)是由 (一)模型的设置 Spiegelhlter et al.提出的。DIC准则同时考虑了模型 为比较MCMC估计效果及DIC检验功效,基 对数据的拟合优度以及模型的复杂程度,其值可以很 于二维Copula函数,选取了Normal Copula、T 容易从Markov chain Monte Carlo结果计算出,并且 Copula、Gumbel Copula、Frank Copula、Clayton 不需要对原样本数据进行任何变换。 Copula、Galambos Copula,2支椭球Copula,3支阿 如果L(X|里,M)表示Copula函数模型M 基米德Copula函数,l支极值Copula函数,共6支 的似然函数,则定义偏差函数为): 具不同相依结构的Copula函数。其中,Normal D(里)=-2logL(X|里a,M) (8) Copula、T Copula、Frank Copula密度函数具有对称 定义DIC准则下模型M参数的有效个数为: 性,且尾部是渐进独立的,Gumbel Copula、Galam- pD=D(里-D(Ψ) bos Copula密度函数具有非对称性,具有上尾相关 =E(D()X,M)-D(E(V,M)) 性,Clayton Copula密度函数也是非对称性的,具有 (9) 下尾相关性。此外,对于T Copula函数,将其自由 则Copula函数模型的DIC准则为: 度固定为4。 表1本文选用Copula函数的概率密度函数 Copula c(4,v8) 8∈0 Normal x.n(1(u),1()[x(1()4(1(门 [-1,1] Student 'x.n.(T(),T(o)[x,(T()r(T分()]1 [-1, Gumbel (w)-1(-ln(u)1(-ln()-(g-1+[(-ln)0+(-lnw)]#[(-lhu0+(-nw]-2exp-[(- [1,oo) lnu)°+(-lnv)]1/e} Frank -@-xeho (e-1)[e xeto)-cd-ea+e2 R\{o} Clayton (1+)(w)Ho(ut+v-1)-a/m2) (0,co) Galambos exp[(w十欧)厂1们{1-(十)1(w十w)+4(十)2-2+(1+8》购w(w+)} [0,oo) 其中,w=(-lnw)=(-lnu)tw=(-lnw)+1w=(-h)1 35 万方数据
蔡晓薇:MCMC方法下最优Copula的估计及选取 此法的实施比较直观:如果链在t时刻处于状 态z,即Xl=z,则首先由g(·,z)产生一个潜在的 转移z—z7,然后根据概率a(x,z7)决定是否转移。 即以概率a(x,z7)接受z7作为下一时刻的状态值, 以1--a(x,z7)拒绝转移到z7,而链的下一时刻仍处 于状态z。于是,在有了z7后,可再抽取一个[o,1] 上均匀分布的随机数甜,则: Xc㈣2{z.27“U爹酞a(xz曩 ㈣ 1 > ,z’) 一般称口(·,·)为建议分布(proposal distribution),目的是使后验分布,r(z)成为平稳分 布,建议分布q(x,z7)可以取各种形式。 Metropolis(1953)采用了对称的建议分布,即: q(x,z7)=q(x’,z) Vz,z7 此时,a(x,z7)简化为: 口(z,z7)=min/1,夸等l (7) I 丌~z,J 对称建议分布的一个特列是q(x,z7)=口(I z— z7 I),这称为随机漫步Metropolis算法。 (三)DIC准则 D配准则(Deviance Information Criterion)是由 Spiegelhlter et a1.提出的。DIC准则同时考虑了模型 对数据的拟合优度以及模型的复杂程度,其值可以很 容易从Markov chain Monte Carlo结果计算出,并且 不需要对原样本数据进行任何变换。 如果L(X I甄,肚)表示Copula函数模型% 的似然函数,则定义偏差函数为[8】: D(吼)=一2109L(X I甄,尬) (8) 定义DIC准则下模型^么参数的有效个数为: PD=D(吼)一D(掣(愚)) =E(D(甄)l X,舰)一D(E(%J z,%)) (9) 则Copula函数模型的DIC准则为: 表1 DIC(MD=D(吼)+2pv =D(掣(志)+PD (10) DIC准则同时考虑了模型对数据的拟合优度和 模型的复杂程度。其中D(雪(志)表示了模型拟合数 据的优劣,加则衡量了模型的复杂度,西丽值越 大,则模型拟合数据越劣;加值越大,则说明模型越 复杂。反之亦然。实际计算时,基于后验分布样本,可 以用下式来估计Copula函数模型^五的DIC值: 』』 DIC(MD≈一素∑logLI(呸o,尥)+ 1’i=1 2109Lk(蛾,%) (11) 为作比较,本文同样也计算了Copula函数模型 的AIC、BIC以及二者的扩展EAIC、EBIC准则: AIC(MD=D(E(吼l X,Mk))+2dl;BIC(MI)= D(E(吼I X,MD)+log(n)么;EAIC(%)= E(D(暖)I X,%)+2以;皿IC(MD=E(D(觋)I X,M:)+log(n)矾。其中,以为Copula函数模型尬 中的参数个数。 四、实证模拟研究 (一)模型的设置 为比较MCMC估计效果及DIC检验功效,基 于二维Copula函数,选取了Normal Copula、T Copula、Gumbel Copula、Frank Copula、Clayton Copula、Galambos Copula,2支椭球Copula,3支阿 基米德Copula函数,1支极值Copula函数,共6支 具不同相依结构的Copula函数。其中,Normal Copula、T Copula、Frank Copula密度函数具有对称 性,且尾部是渐进独立的,Gumbel Copula、Galambos Copula密度函数具有非对称性,具有上尾相关 性,Clayton Copula密度函数也是非对称性的,具有 下尾相关性。此外,对于T Copula函数,将其自由 度固定为4。 本文选用Copula函数的概率密度函数 万方数据
统计与信息论坛 对于边际分布函数,选取了4个不同的边际分 之间.当10.5时,密度函数左偏。 (Normal distribution),如果变量X服从均值为u和 对于先验分布,本文对模型的参数赋予独立的 方差为的正态分布,那么其概率密度函数和分布 且方差足够大的已知分布,进而避免对Copula函数 函数分别为: 模型引人过多的先验信息,使得模型的选择准则主 p(x|μ,d2)= 要是基于数据信息9-1o]。对Copula函数的先验分 (2m2)rexp[-2京(x-pW2门adf(12) 布,主要基于其参数的定义区间来确定相应的先验 分布,如对Normal Copula与T Copula选用均匀分 KxIpnd)-Iuo)dxc.d.f(3 布,对Clayton Copula选用伽玛分布;对边缘分布, 第二个边际分布为逻辑斯蒂分布(Logistic 其位置参数选用正态分布作其先验分布,尺度参数 distribution),Logistic分布类似于正态分布,但尾 的先验选用逆伽玛分布。 部比正态分布要厚,如果变量X服从位置参数4和 (二)模拟研究 尺度参数g的Logistic分布,那么其概率密度函数和 样本数据选用上海证券综合指数(SHCI)和深 圳证券成分指数(SZCI)的日收盘价为实证研究对 分布函数分别为: 象建立Copula函数模型。样本区间为1996年12 fxlμ,o)=c1exp[-(x-μ)/a]{1+ 月16日至2009年5月5日,样本容量2991.将价 exp[-(x-u)/o])2p.d.f 格市场指数每日收盘价定义为P,则对数收益率定 (14) F(x|μ,a)=1/exp[-(x-)/a]c.d.f 义R.=ln(P)一ln(P-1),数据来源于大智慧软件。 由SHCI与SZCI收益率序列基本统计特征的 (15) 第三个边际分布为拉普拉斯分布(Laplace 偏度、峰度及Jarque一Bera检验值可以看出,二序 distribution)),Laplace分布同样也是一厚尾分布,如 列呈现明显的尖峰厚尾特征,须用尖蜂厚尾分布对 果变量X服从位置参数u和尺度参数c的Laplace 其拟合,如Laplace分布、Logistic分布、极值分布、 分布,那么其概率密度函数和分布函数为: 稳定分布、混合分布等。 -SHCI HCI f(x lua)=(20)exp(-Ix-ul/a)p.d.f (16) F(x|μ,o)=21{1+sgn(x-μ)[1- exp(--ul /a)])c.d.f (17) 最后一个分布我们选择的是非对称拉普拉斯分 0.10 0.05 0.05 (Asymmetric Laplace distribution),ALaplace 布是上述Laplace分布的推广,如果变量X服从位 SZCI 022 置参数μ、尺度参数a和形状参数λ的ALaplace分 布,那么其概率密度函数和分布函数为: f(x|4,o,λ)= ex[-是1z-rl(侵+o)】 p.d.f(18) 0.10 -0.05 -0.00 0.05 0.10 F(x|4,o,A)= 图1SHCI与SZCI的基本统计特征图 基于MCMC模拟的Bayes推断都是在假设 Rexp (- x c.d.f Markov链已经达到稳定状态下进行的,因而判断 1-(1-0exp[-iaz-W]x>4 Markov链的收敛性对Bayes估计推断是非常重要 的。运用Matlab和R软件对6支Copula函数在各 (19) 边缘分布下分4组进行MCMC模拟,每次模拟都 其中,k=√2十(1一)严。λ是形状参数,介于0和1 先进行了5000次预迭代,然后舍弃原来的迭代再 36 万方数据
统计与信息论坛 对于边际分布函数,选取了4个不同的边际分 布来刻画研究对象。第一个是经典的正态分布 (Normal distribution),如果变量X服从均值为P和 方差为cr2的正态分布,那么其概率密度函数和分布 函数分别为: 9(z I弘,cr2)= (2m2)-1/2exp卜刍(工一产)2]p·d·f(12) 圣(z l产,cr2)=I 乒(z I.£l,oZ)dz c.d.f(13) 第二个边际分布为逻辑斯蒂分布(Logistic distribution),Logistic分布类似于正态分布,但尾 部比正态分布要厚,如果变量X服从位置参数卢和 尺度参数or的Logistic分布,那么其概率密度函数和 分布函数分别为: f(x I卢,口)=a--lexp[--(x--p)/a]{1+ exp[--G一卢)/胡)2 P.d.f (14) F(x l户,曲=l/exp[--(z一产)/司cd.f (15) 第三个边际分布为拉普拉斯分布(Laplace distribution),Laplace分布同样也是一厚尾分布,如 果变量X服从位置参数卢和尺度参数仃的Laplace 分布,那么其概率密度函数和分布函数为: f(x I卢,仃)=(20r)qexp(一I z—P I/or)P.d.f (16) F(x I P,or)=2-1{1+sgn(x--p)[1一 exp(一I z一弘l/口)]) ad.f (17) 最后一个分布我们选择的是非对称拉普拉斯分 布(Asymmetric Laplace distribution),ALaplace分 布是上述Laplace分布的推广,如果变量X服从位 置参数J£‘、尺度参数口和形状参数A的ALaplace分 布,那么其概率密度函数和分布函数为: f(x l卢,口,A)= 妻e冲[一ik I z—P I({f蚓+r与J酬)] P.d.f(18) F(x I卢,一,J:【)= P畴。Y州。 ≤产“, 【卜(I--,,I)eXp[一南(x--p)卜>户 (19) 其中,k=∥FF万可。A是形状参数,介于0和l 之间。当A0.5时,密度函数左偏。 对于先验分布,本文对模型的参数赋予独立的 且方差足够大的已知分布,进而避免对Copula函数 模型引人过多的先验信息,使得模型的选择准则主 要是基于数据信息[9-lo]。对Copula函数的先验分 布,主要基于其参数的定义区间来确定相应的先验 分布,如对Normal Copula与T Copula选用均匀分 布,对Clayton Copula选用伽玛分布;对边缘分布, 其位置参数选用正态分布作其先验分布,尺度参数 的先验选用逆伽玛分布。 (二)模拟研究 样本数据选用上海证券综合指数(SHCI)和深 圳证券成分指数(SZCI)的日收盘价为实证研究对 象建立Copula函数模型。样本区间为1996年12 月16日至2009年5月5日,样本容量299 1。将价 格市场指数每日收盘价定义为只,则对数收益率定 义R。=ln(只)一In(P,,),数据来源于大智慧软件。 由SHCI与SZCI收益率序列基本统计特征的 偏度、峰度及Jarque—Beta检验值可以看出,二序 列呈现明显的尖峰厚尾特征,须用尖峰厚尾分布对 其拟合,如Laplace分布、Logistic分布、极值分布、 稳定分布、混合分布等。 =§竖!l _ Scrlcs:SHCl observatloas2 990 Me蛆0.000 315 Maxlm叫0 00 556 Mcdlan 0 094 014 MInlmum -0 099 21I Std Dcv 0.017694 Skewness -0 222 458 Km-tosIS 7 479 035 Jarque·Beta 2 524 022 Probabthty 0 000 000 ·一一一 ] k 一 .O.10 .0.05 0.00 0.05 Senes SZCI . SZCI J 一 ObseⅣat/oas2990 M啪0 000 324 Medi蛆0 000463 M^ximw 0 095 299 Mimmm -0 105 259 StdDev 0 019 387 stcwⅡ0H -0 2I 5 795 ●●一 Kurtolu 6 732 177 Jaraue·Hera 1 758 546 Probability 0 000 000 r __——{ 磊~一 图1 SHCI与SZCI的基本统计特征图 基于MCMC模拟的Bayes推断都是在假设 Markov链已经达到稳定状态下进行的,因而判断 Markov链的收敛性对Bayes估计推断是非常重要 的。运用Matlab和R软件对6支Copula函数在各 边缘分布下分4组进行MCMC模拟,每次模拟都 先进行了5 000次预迭代,然后舍弃原来的迭代再 万方数据
蔡晓薇:MCMC方法下最优Copula的估计及选取 进行20000次送代,以保证Markov链的收敛性,最 BIC、EBIC准则的检验结果一致。在本文所有研究 后每次模拟的结果均进行并通过了Geweke谱密度 模型中,T Copula一Alaplace模型为拟合SHCI与 收敛性诊断、Heidelberger一Welch收敛性诊断、 SZCI的最佳模型。 Gelman一Rubin方差比收敛性诊断以及Raferty一 五、结论与展望 Lewis收敛性诊断。 由表2各组Copula函数模型的DIC、AIC、EA- 1.不同的Copula函数连接不同边缘分布建立 IC、BIC、EBIC以及P。值可以得到以下几个结论: 的Copula函数模型的相依结构不同,拟合效果也不 (1)对于相同Copula函数下,具有不同边缘分布的 同。因此,在实际运用Copula函数建模时,边缘分 Copula函数模型,Alaplace分布能够更好地拟合 布与Copula函数的选择都非常重要,尤其是Copu~ SHCI与SZCI的收益率序列,并且拟合效果为: la函数的选择。 Alaplace>Laplace>Logistic.>Normal;(2)相同边 2.在本文选用的Copula函数模型中,T Copula 缘分布下,由不同Copula函数连接的Copula函数 一Alaplace模型为拟合SHCI与SZCI序列的最佳 模型,Student Copula相比其他Copula函数可以更 模型,但我们还可以用其他的边缘分布如GARCH 好地刻画SHCI与SZCI的相依结构;(3)上述两种 模型族、稳定分布、混合分布等以及其他Copula函 情况下,DIC准则的模型选择结果与AIC、EAIC、 数如混合Copula函数等来获得更佳的拟合模型。 表2 Copula函数模型的DIC、AIC、EAIC,BIC、EBIC值 Margins Copula DIC PD AIC EAIC BIC EBIC Normal Normal -36613.49 4.964747 -36593.87 -36613.46 -36558.85 -36578.44 Student -36881.05 5.078538 -36851.09 -36881.13 -36816.07 -36846.12 Gumbel -36381.73 4.917342 -36358.85 -36381.65 -36323.84 -36346.64 Frank -36757.69 5.099916 -36733.28 -36757.99 -36698.26 -36722.98 Clayton -35503.79 5.047254 -35476.98 -35503.84 -35441.97 -35468.82 Galambos -36320.36 5.014417 -36298.77 -36320.37 -36263.75 -36285.35 Logistic Normal -37351.70 5.067530 -37332.82 -37351.77 -37297.81 -37316.75 Student -37627.45 5.010784 -37601.69 -37627.46 -37566.68 -37592.45 Gumbel -37145.29 5.051906 -37118.00 -37145.34 -37082.98 -37110.32 Frank -37170.47 5.047995 -37146.80 -37170.52 -37111.78 -37135.50 Clayton -36500.44 5.071673 -36480.93 -36500.51 -36445.92 -36465.50 Galambos -37098.79 5.004280 -37074.09 -37098.80 -37039.07 -37063.78 Laplace Normal 一37484.94 4.973690 -37466.40 -37484.92 -37431.39 -37449.90 Student -37826.02 5.109281 -37807.24 -37826.13 -37772.23 -37791.12 Gumbel -37421.65 4.970489 -37398.67 -37421.62 -37363.66 -37386.61 Frank -37119.54 4.953102 -37101.45 -37119.49 -37066.43 一37084.48 Clayton -36932.94 4.933269 -36906.78 -36932.87 -36871.76 -36897.86 Galambos -37388.77 5.064825 -37371.94 -37388.84 一37336.93 -37353.82 ALaplace Normal -37489.63 7.064405 -37471.29 -37489.69 -37422.27 -37440.67 Student -37829.09 7.001746 -37801.13 -37829.09 -37752.11 -37780.07 Gumbel -37498.76 6.911323 -37474.32 -37498.67 -37425.30 -37449.65 Frank -37119.47 7.107402 -37094.43 -37119.58 -37045.41 -37070.56 Clayton -37000.80 7.157121 -36979.77 -37000.96 -36930.75 -36951.94 Galambos -37472.00 6.881533 -37453.33 -37471.68 -37404.30 -37422.66 3.基于Bayes理论的MCMC方法可以在不对 原数据进行任何变换的情况下估计Copula函数模 37 万方数据
蔡晓薇:MCMC方法下最优Copula的估计及选取 进行20 000次迭代,以保证Markov链的收敛性,最 后每次模拟的结果均进行并通过了Geweke谱密度 收敛性诊断、Heidelberger—Welch收敛性诊断、 Gelman--Rubin方差比收敛性诊断以及Raferty— Lewis收敛性诊断。 由表2各组Copula函数模型的DIC、AIC、EA— IC、BIC、EBIC以及PD值可以得到以下几个结论: (1)对于相同Copula函数下,具有不同边缘分布的 Copula函数模型,Alaplaee分布能够更好地拟合 SHCI与SZCI的收益率序列,并且拟合效果为: Alaplace>Laplace>Logistic>Normal;(2)相同边 缘分布下,由不同Copula函数连接的Copula函数 模型,Student Copula相比其他Copula函数可以更 好地刻画SHCI与SZCl的相依结构;(3)上述两种 BIC、EBIC准则的检验结果一致。在本文所有研究 模型中,T Copula--Alaplace模型为拟合SHCI与 SZCI的最佳模型。 五、结论与展望 1.不同的Copula函数连接不同边缘分布建立 的Copula函数模型的相依结构不同,拟合效果也不 同。因此,在实际运用Copula函数建模时,边缘分 布与Copula函数的选择都非常重要,尤其是Copula函数的选择。 2.在本文选用的Copula函数模型中,T Copula --Alaplace模型为拟合SHCI与SZCI序列的最佳 模型,但我们还可以用其他的边缘分布如GARCH 模型族、稳定分布、混合分布等以及其他Copula函 情况下,DIC准则的模型选择结果与AIC、EAIC、 数如混合Copula函数等来获得更佳的拟合模型。 表2 Copula函数模型的DIC、AIC、EAIC、BIC、EBIC值 3.基于Bayes理论的MCMC方法可以在不对 原数据进行任何变换的情况下估计Copula函数模 37 万方数据
统计与信息论坛 型,而基于MCMC后验抽样分布的DIC准则同其 强力有效工具,但要注意的是该法要求Copula函数 他信息准则如AIC准则、BIC准则同样有效。DIC 的密度函数是确定的。 准则是Copula函数模型以及其他模型选择的一个 参考文献: [1]Cherubini U.Copula Methods in Finance[M].Hoboken:John Wiley,2004. [2]韦艳华,张世英.Copula理论及其在金融分析上的应用M.北京:清华大学出版社,2008. [3]Nelsen B An introduction to Copulas,Second Edition[M].New York:Springer,2006. [4]Daniel Berg.Copula Goodness-of-fit Testing:Overview and Power Comparison[J].Taylor and Francis Jourals,2009, 15(7-8). [5]Fermanian J D.Goodness-of-Fit Tests for Copulas[J].J Multivariate Anal,2005,95(11). [6] Ioannis Ntzoufras.Bayesian Modeling Using Winbugs[M].Canada:John Wiley Sons,2009. [7]Dani Gamerman,Hedibert Freitas Lopes.Markov Chain Mente Carlo:Stochastic Simulation for Bayesian Inference[M]. Boca Raton:Taylor&Francis,2006. [8]Celeux G,Forbes F,Robert CP,Titterington D M.Deviance Information Criteria for Missing Data Models[J].Bayes. Anal.,2005,1(4). [9]David Huard,Guillaume Evin,Anne-Catherine Favre.Bayesian Copula Selection[J].Computational Statistics&Data Analysis,2006,51(2). [10]Ralph dos Santos Silva,Hedibert Freitas Lopes.Copula,Marginal Distributions and Model Selection:A Bayesian Note [J.Statistics and Computing,2008,118(3). The Estimation and Selection of Optimal Copula Model Based on MCMC Method CAI Xiao-wei (School of Statistics and Applied Mathematics,Anhui University of Finance and Economics,Bengbu 233030,China) Abstract:In order to identify the optimal Copula,a new Copula estimation and selection method based on Markov chain Monte Carlo is proposed,and the method is compared with the other methods in popularity.At last,we apply the proposed method to Shanghai Stock Composite Index and Shenzhen Stock Component Index,and the results reflect the effectiveness of the method. Key words:Copula;Markov Chain Monte Carlo;deviance information criteria (责任编辑:王南丰) 38 万方数据
统计与信息论坛 型,而基于MCMC后验抽样分布的DIC准则同其 他信息准则如AIC准则、BIC准则同样有效。DIC 准则是Copula函数模型以及其他模型选择的一个 参考文献: [1] [2] [3] [4] [5] [63 [7] [8] 强力有效工具,但要注意的是该法要求Copula函数 的密度函数是确定的。 Cherubini U Copula Methods in Finance[M].Hoboken:John Wiley,2004. 韦艳华,张世英.Copula理论及其在金融分析上的应用[M].北京:清华大学出版社,2008. Nelsen B An introduction to Copulas。Second Edition[M].New York:Springer,2006. Daniel Berg.Copula Goodness--of--fit Testing:Overview and Power Comp撕S0nD].Taylor and Francis Journals,2009, 15(7—8). Fermanian J D.Goodness--of--Fit Tests for Copulas[J].J Multivariate Anal,2005,95(11). Ioannis Ntzoufras.Bayesian Modeling Using Winbugs['M].Canada:John Wiley&Sons,2009. Dani G-龇'nern'm.n,Hedibert Freitas Lopes.Markov Chain Mente Carlo:Stochastic Simulation for Bayesian Inference[M]. Boca Raton:Taylor&Francis,2006. Celeux G,Forbes F,Robert C P,Titterington D地Deviance Information Criteria for Missing Data Models[J].Bayes. Anal.。2005。l(4). [93 David Hnard。Guillaume Evin,Anne—Catherine Favre.Bayesian Copula Selection[J].Computational Statistics&Data Analysis。2006,51(2). [10]Ralph dos Santos Silva,Hedibert Freitas Lopes.Copula,Marginal Distributions and Model Selection:A Bayesian Note [J].Statistics and Computing,2008,118(3). 皿e Estimation and Selection of Optimal Copula Model Based oil MCMC Method CAI Xiao-wei (School of Statistics and Applied Mathematics。Anhui University of Finance and Economies,Bengbu 233030,China) Abstract:In order to identify the optimal Copula,a new Copula estimation and selection method based on Markov chain Monte Carlo iS proposed.and the method iS compared with the other methods in popularity.At last,we apply the proposed method to Shanghai Stock Composite Index and Shenzhen Stock Component Index,and the results reflect the effectiveness of the method. Key words:Copula;Markov Chain Monte Carlo;deviance information criteria (责任编辑:王南丰) 万方数据