第14卷第2期 中国管理科学 Vol.14,No.2 2006年4月 Chinese Journal of Management Science Apr,,2006 文章编号:1003-207(2006)02-0033-06 基于MCMC稳态模拟的贝叶斯 经验费率厘定信用模型 林静1,韩玉启,朱慧明2 (1.南京理工大学经济管理学院,南京210094;2.湖南大学统计学院,长沙410079) 摘要:Buhlmann一Straub最精确信用模型是贝叶斯分析在经验费率厘定中最著名的应用之一。但传统Buhlmann -Straub模型在先验信息不足的条件下,难以得出结构参数的无偏后验估计:长期以来,高维数值计算的困难也使 得贝叶斯方法的应用受到极大的限制。本文通过对Buhlmann~Straub模型结构的剖析,引人基于Gibbs抽样的马 尔可夫链蒙特卡罗(MCMC)模拟方法,构建出风险保费预测值信用估计的贝叶斯模型。实例分析的结果证明了该 模型能够在数据缺失的情况下,动态模拟出有关参数的后验分布,求出缺失参数的后验估计,提高计算的精度,从 而有助于更有效地甄别出各保单间的非同质程度。 关键词:信用模型;贝叶斯分析;经验费率:马尔可夫链蒙特卡罗模拟;Gbbs抽样 中图分类号:840.69 文献标识码:A 1引言 的应用提高了模型的有效性;成世学[3)指出该模型 的组嵌方式使得估计未知结构参数成为可能;刘乐 信用模型(credibility models)在经验费率厘定 平、袁卫4指出因该模型允许将误差估计的不确定 系统中的应用一直十分广泛。在信用模型中,视待 性溶入研究过程而提供出更为完整的问题分析框 估参数C为随机变量,基于直接相关但不充分的单 架。尽管如此,该模型仍保持简单的线性估计和经 个数据的估计值为R,由相关数据得到的估计值为 验贝叶斯的特点,结构参数的估计依赖于现有的历 H,则C的最终估计值是上述两个估计的加权平均, 史数据,在数据资料不足的情况下很难得出结构参 即: 数的无偏后验估计;此外,长期以来高维数值计算的 C=Z×R+(1-Z)×H 困难,也在很大程度上制约了贝叶斯方法的应用。 其中,Z∈[0,1]被称为信用因子,确定Z的不同方 近几年,随着计算机技术的发展和贝叶斯方法 法构成了信用理论研究趋向的各异。依据经验数据 的改进,特别是马尔可夫链蒙特卡罗(Markov chain 在费率厘定过程中的利用方式,信用模型主要被区 Monte Carlo,MCMC)方法的应用,原先异常复杂的 分为有限波动信用(limited fluctuation credibility)与 数值计算问题游刃而解,参数后验分布的模拟也更 最精确信用(greatest accuracy credibility)两种不同 为方便,现代贝叶斯理论及其应用日趋成熟,国外许 的途径。其中,前者着眼于经验数据的稳定性,后者 多学者开始利用MCMC方法解决精算学中的有关 则更注重甄别保单组合数据的非同质程度1-3)。 问题。如:Carlin'5]将其运用到构建非标准精算时间 Buhlmann-Straub模型是现今最为基础的最 序列的贝叶斯状态空间;Scollnik[6-8]将其运用到保 精确信用模型,它在均方差最小的意义下导出信用 险厘定联立方程模型的贝叶斯分析以及多层信用模 保费(credibility premium)的计算公式,在某种意义 型的建模中;Pai9]将其用来分析保险索赔的复合模 下是一种最接近真实风险保费的估计,贝叶斯方法 型;Makov1o]将其运用到损失理赔准备金模型等 收稿日期:2005-09-10:修放日期:2006-03-20 等。与此同时,国内学者对相关研究方法的尝试还 基金项目:新世纪优秀人才支持计划(NCET):湖南省自然科学 比较少见,对数据缺失条件下模型的改进研究也才 基金资助项目(05J0130) 刚刚起步。林静等[11构建出基于MCMC的多层 作者简介:林静(1980-),女(汉族),山东青岛人,南京理工大学 经济管理学院博土研究生,研究方向:贝叶斯统计应 Poisson模型也仅适用于风险同质的情形。本文在 用 对Buhlmann一Straub信用模型进行结构剖析的基 万方数据
第14卷 2006焦 第2期 4月 中国管理科学 Chinese Journal of Management Science VoJ.14,No.2 Apr., 2006 文章编号:1003—207(2006)02—0033—06 基于MCMC稳态模拟的贝叶斯 经验费率厘定信用模型 林 静1,韩玉启1,朱慧明2 (1.南京理工大学经济管理学院,南京 210094;2.湖南大学统计学院,长沙410079) 摘 要:Buhlmarm—Straub最精确信用模型是贝叶斯分析在经验费率厘定中最著名的应用之一。但传统Buhlmann —Straub模型在先验信息不足的条件下,难以得出结构参数的无偏后验估计;长期以来,高维数值计算的困难也使 得贝叶斯方法的应用受到极大的限制。本文通过对Buhlmann—Straub模型结构的剖析,引入基于Gibbs抽样的马 尔可夫链蒙特卡罗(MCMC)模拟方法,构建出风险保费预测值信用估计的贝叶斯模型。实例分析的结果证明了该 模型能够在数据缺失的情况下,动态模拟出有关参数的后验分布,求出缺失参数的后验估计,提高计算的精度,从 而有助于更有效地甄别出各保单问的非同质程度。 关键词:信用模型;贝叶斯分析;经验费率;马尔可夫链蒙特卡罗模拟;Gibbs抽样 中图分类号:F840.69 文献标识码:A 1 引言 信用模型(credibility models)在经验费率厘定 系统中的应用一直十分广泛。在信用模型中,视待 估参数C为随机变量,基于直接相关但不充分的单 个数据的估计值为R,由相关数据得到的估计值为 H,则C的最终估计值是上述两个估计的加权平均, 即: 、 C=Z×R+(1一Z)×H . 其中,Z∈[0,1]被称为信用因子,确定Z的不同方 法构成了信用理论研究趋向的各异。依据经验数据 在费率厘定过程中的利用方式,信用模型主要被区 分为有限波动信用(1imited fluctuation credibility)与 最精确信用(greatest accuracy credibility)两种不同 的途径。其中,前者着眼于经验数据的稳定性,后者 则更注重甄别保单组合数据的非同质程度[1-3J。 Buhlmann-Straub模型是现今最为基础的最 精确信用模型,它在均方差最小的意义下导出信用 保费(credibility premium)的计算公式,在某种意义 下是一种最接近真实风险保费的估计,贝叶斯方法 收穰日期:2005一09—10;修改日期:2006一03—20 基金项目:新世纪优秀人才支持计划(NCET);湖南省自然科学 基金资助项目(05JJ0130) 作者简介:林静(1980一),女(汉族),山东青岛人,南京理工大学 经济管理学院博士研究生,研究方向:贝叶斯统计应 用. 的应用提高了模型的有效性;成世学旧J指出该模型 的组嵌方式使得估计未知结构参数成为可能;刘乐 平、袁卫L4 J指出因该模型允许将误差估计的不确定 性溶入研究过程而提供出更为完整的问题分析框 架。尽管如此,该模型仍保持简单的线性估计和经 验贝叶斯的特点,结构参数的估计依赖于现有的历 史数据,在数据资料不足的情况下很难得出结构参 数的无偏后验估计;此外,长期以来高维数值计算的 困难,也在很大程度上制约了贝叶斯方法的应用。 近几年,随着计算机技术的发展和贝叶斯方法 的改进,特别是马尔可夫链蒙特卡罗(Markov chain Monte Carlo,MCMC)方法的应用,原先异常复杂的 数值计算问题游刃而解,参数后验分布的模拟也更 为方便,现代贝叶斯理论及其应用日趋成熟,国外许 多学者开始利用MCMC方法解决精算学中的有关 问题。如:CarlinIs J将其运用到构建非标准精算时间 序列的贝叶斯状态空间;Scollnik【6—8J将其运用到保 险厘定联立方程模型的贝叶斯分析以及多层信用模 型的建模中;Pai[9]将其用来分析保险索赔的复合模 型;Makov[10 J将其运用到损失理赔准备金模型等 等。与此同时,国内学者对相关研究方法的尝试还 比较少见,对数据缺失条件下模型的改进研究也才 刚刚起步。林静等[11】构建出基于MCMC的多层 Poisson模型也仅适用于风险同质的情形。本文在 对Buhlmann—Straub信用模型进行结构剖析的基 万方数据
·34· 中国管理科学 2006年 础上,给出了模型结构参数的贝叶斯分析:针对传统 年提出了著名的Buhlmann一Straub模型。该模型 模型中对结构参数无偏估计的不足,引人基于 由多个独立且具有相同结构函数的Buhlmann单合 Gibbs抽样的MCMC理论,构建出数据缺失条件下 同模型嵌套组成,并被视为Buhlmann单合同模型 改进的Buhlmann-Straub模型;最后,以某保险公 的推广与细化)。 司车险经验费率的厘定为例,证明了该模型在经验 假设已掌握第i个(i=1,…,n)的投保人(或 费率厘定中甄别保单组合数据的非同质程度的直观 保单组合)过去T:年的历史赔付数据Y,(G=1, 有效性,并为我国学者在该领域的进一步研究奠定 …,T),且具有不可测的风险参数日(风险参数日 良好的基础。 的不同取值日:用以反映同类风险中的不同风险特 2 Buhlmann-Straub模型及参数估计 征;例如2】在汽车保险中,可以用不同的0:区分不 同的;个车队中司机的平均驾驶技巧、年龄等风险 “现代信用理论之父”Bailey首次将贝叶斯方法 特征)其中,观测值Y,相互独立;不可测的风险参 引入到信用理论之中,是提出最精确信用模型的先 数日:通过Y,加以反映,并由此被称为结构参数;由 驱者;现代信用理论的最终形成则是瑞士精算学家 于保单数目可能随时间变化,将观测值Y,视为第j Buhlmann的功绩,他将参数的贝叶斯估计限制在观 年的某个比例型变量,从而存在某以自然权重w于 测值的线性组合的范围内,不仅便于计算,也利于解 之对应。综上,Buhlmann-Straub模型的数据结构 释。由于经典的Buhlmann模型没有考虑保单组合 如下: 可能随时间变化的情形Buhlmann与Straub于1970 表1 Buhlmann一Straub模型的数据结构 投保人 可观测变量 风险参数 第一年 第二年 4 第j年 第T:年 0 y1(w1r》 y12(w12) y1(wy) y1r(w1T,) 8 y:(w1) y(w2) y(如g) T.(awr,) 6。 yni(uni) ye2(w2) yn(w) t.(w,) 对于第i个投保人,令: a(0)=E(Y/⊙=),u(0)=Var(Y/g=0) 、¥。37.0=%化.) u=E[a(8)],y=E[u(8)],a=Var[μ(8)] 2. (T,-) w=ω1+w2+…+wT a=(w.- ⊥2m.)1 利用条件期望的有关性质,易得: i-I E(Yr.)=E[E(Yr./⊙=)]=E[a(8)]=H ×[2.(.-Y.2-u(n-10] Var(YT.)=E[Var(YT./0=0] 不难看出,求解传统Buhlmann-Straub模型的 Var[E(YT./00)] 关键是求出u,v与a。 =E[u(8)/w,]+Var[u()]=v/w+a 3 Buhlmann-Straub模型的贝叶斯分析 则,得出第i个投保人次年的Buhlmann-Straub信 用保费形式如下: 为了估计第i个投保人第T,+1年的公平保费 Y:1,假设在风险参数日,条件下的保费Ym=Y1, Yi1=Z,Y,+(1-Z,)μ Y2…,Yj+1(简记为Y=Y1,Y2…,Y,1)相互独 其中: T T. 立且Y,=y,记条件密度函数为fy,19(y10),考虑 .=£ww.=三.=习三wi 到结构参数日依赖于观测值y,记0的先验分布为 j=1 i1 4*听=1 Z:= +2=含 π(),则Y1,…,Y的联合密度函数为: f¥,e(y,8)=f(y1,…,y/8)π(8) T 卫.=三gy了.=含.; T. j=10. =10. =[,/yo(y0)J]x(9) 万方数据
·34· 中国管理科学 2006焦 础上,给出了模型结构参数的贝叶斯分析;针对传统 模型中对结构参数无偏估计的不足,引入基于 Gibbs抽样的MCMC理论,构建出数据缺失条件下 改进的Buhlmann—Straub模型;最后,以某保险公 司车险经验费率的厘定为例,证明了该模型在经验 费率厘定中甄别保单组合数据的非同质程度的直观 有效性,并为我国学者在该领域的进一步研究奠定 良好的基础。 2 Buhlmann—Straub模型及参数估计 “现代信用理论之父”Bailey首次将贝叶斯方法 引入到信用理论之中,是提出最精确信用模型的先 驱者;现代信用理论的最终形成则是瑞士精算学家 Buhlmann的功绩,他将参数的贝叶斯估计限制在观 测值的线性组合的范围内,不仅便于计算,也利于解 释。由于经典的Buhlmann模型没有考虑保单组合 可能随时问变化的情形Buhlmann与Straub于1970 年提出了著名的Buhlmann—Straub模型。该模型 由多个独立且具有相同结构函数的Buhlmann单合 同模型嵌套组成,并被视为Buhlmann单合同模型 的推广与细化r1|。 假设已掌握第i个(i=1,…,咒)的投保人(或 保单组合)过去t年的历史赔付数据y“J=1, …,t),且具有不可测的风险参数O(风险参数@ 的不同取值0i用以反映同类风险中的不同风险特 征;例如L2j在汽车保险中,可以用不同的0i区分不 同的i个车队中司机的平均驾驶技巧、年龄等风险 特征)。其中,观测值■i相互独立;不可测的风险参 数0i通过y;,加以反映,并由此被称为结构参数;由 于保单数目可能随时间变化,将观测值y;i视为第歹 年的某个比例型变量,从而存在某以自然权重%于 之对应。综上,Buhlmann—Straub模型的数据结构 如下: 表1 Buhlmann—Straub模型的数据结构 投保人 1 风险参数——焉F_F————磊j五_—————_j!翌型銮弓矿厂军—————__—————万 0l yil(∞“) y12(叫12) Ylj(叫lJ) Yl rf(叫1t) j ; j ! j ; i ; i 0。 Nil(∞il) Yi2(Ⅲf2) i ,Ⅱ(。。) ; YiTi(;(OiTi) : ! ! ; ! ; i ”0。 y们((u。J) Yn2(叫。:) yw(甜w) y—Tf(埘“T。) 对于第i个投保人,令: f户(0)=E(Y/O=0),u(0)=Vat(Y/O=0) {M=E[p(0)],v=E[u(0)],日=Var[户(0)] . 【cu=叫,+cU:+…+叫t 利用条件期望的有关性质,易得: fE(YT)=E[E(Yr/0=0)]=E[户(0)]=产 Var(Y1')=E[Vat(Yr/0=0] +Var[E(Y丁/0=0)] 【 =E[u(口)/%]+Var[户(口)]=口/屿+盘 则,得出第i个投保人次年的Buhlmann—Straub信 用保费形式如下: yi,Hl=Ziyi+(1一Zi)p 其中: 一 。 。丁。 ∞i.2 j善cc,Ⅱ;CO 2 i善叫i.=。手。,蚤山。; zi=点;z.=i兰zi; yi.:奎塑y“一Y..:圭!生yi.; j=1 ctJi 。 i=1叫 :=V:=。耋萎{丫i.;:=耋i至筹 d 2∞..一÷。蚤∞;.)。1 ×[三叫i.(可i.一一Y..)2一u(,?一1)] 不难看出,求解传统Buhlmann—Straub模型的 关键是求出岸,u与倪。 3 Buhlmann—Straub模型的贝叶斯分析 为了估计第i个投保人第t川.年的公平保费 y㈠…假设在风险参数0i条件下的保费Yi。=Y… yi2…,yi刖l(简记为一=yI,Y2…,y,+1)相互独 立且Yt=y。,记条件密度函数为^1 e(Y。l 0),考虑 到结构参数口依赖于观测值Y,记0的先验分布为 ,r(口),则y1’.一,yi的联合密度函数为: fy。e(y,0)=f(y1,…,yj/0)丌(0) t :『Ⅱ[fY/e(Yj/0)]]7r(0) 万方数据
第2期 林静等:基于MCMC稳态模拟的贝叶斯经验费率厘定信用模型 ·35· Y的联合密度函数为: 复杂难于计算,此时采用蒙特卡罗积分进行近似,即: fv(y)=Fy,/o(w./0)](0)d0 E[h(U)]≈1(Ue) n-1 Y1,…,Y,+1的联合密度函数为: 当U1,…,U相互独立时,由大数定律可知,样 本容量n越大,其近似程度越高。但在很多复杂模型 fymy(Y1…,Yit1)= [fy/a(y9)]· 中,并不能简单地对U1,…,U做出相互独立的假 π(8)d8 设,这就需要使用MCMC稳态模拟方法。MCMC 给定Y=y条件下Y,+:的条件分布为: 模拟本质上是使用马尔可夫链的蒙特卡罗积分,基 I[fy,e(y/0)]·x(0)d0 本思想是:建立马尔可夫链对未知变量进行抽样模 fy(1/y)= Ji-1 拟,当链达到稳态分布时即得所求的后验分布。基 fy(y) 又因给定Y条件下⊙的条件分布为: 于贝叶斯推断原理的MCMC方法主要用于产生后 fr.e(y,0) 验分布的样本,计算边缘分布以及后验分布的矩。 r8/y(0/y)= fy(y) 不同的抽样方法导致了不同的MCMC方法,Gibbs 抽样是其中最简单也是应用最广泛的一种。 n[fx,va(y/0)]·π(0)d0 (1) Gibbs抽样过程属于马尔可夫更新机制的范 fy(y) 畴。在上述假设条件下,令U:代表某种随机变量 则,(1)式可化为: 或同组的几个随机变量;第j组变量的边缘分布为 .y=上a10en(8a0 U,)。给定任意初始向量Uo)=(U),…, fy(y) U),我们由(U11U),…,U)中抽取样本 -fv(/0)av(0/y)d0 U;由(U21U,U,…,U)中抽取样本 值得注意的是,当日已知时: U0;由f(U1U,…,U丹,U9,…,U抽 *1(8) E(Yj+1/0 8) 取样本U;并由f(Us1U,U,…,U)抽 y(0)dy =E(Y)= 取样本U;由上即完成了由Uo)到U)= (U),…,U)的转移。经过t次迭代,可以得到 E[E(Y+1/Θ=8)]=E[4+1(0)]可得:H为6的 U)=(U,…,U),并最终得到U,U2), 均值。由于日未知,我们利用可观测值Y对Y)+1进 U3),…。易证:由不同的U0)出发,当t→∞,在遍 行估计,其中: 历条件下,可以认为各时刻U)的边际分布为平稳 E(Yn/Y =y)=fe()dv1 分布,此时它收敛,并可以被看作是样本的仿真观测 点。而在收敛出现前的次迭代中,各状态的边际 =+1(0)πe/r(0/y)d 分布还不能认为是π(U),因此在估计E[h(U)] 综上,Buhlmann-Straub模型的贝叶斯求解关 时应将前m个迭代值去掉,即: 键在于对结构参数条件分布π91y(81y)进行积分。 然而,基于传统的高维数值积分方法很难得出参数 Ea(u1=空Auo) 的联合后验分布。本文中,我们将利用MCMC方法 在Buhlmann-Straub模型中,设: 得出参数联合后验分布的抽样,以解决高维数值积 Yg=H+e=(μ+a;)+E 分的因难。 其中,假定:(1)a;与e相互独立且E(a:)=0, 4基于Gibbs抽样的MCMC模拟分析 Var(a;)=a2,E(E)=0,Var(ei)=a;(2)Yi 服从均值为:,方差为σ/w的正态分布;(3)4服 设k维随机向量U=(U1,…,U:)具有联合分 布π(U1,…,U),其中,U:(i=1,…,k)为模型参 从均值为4,方差为π的正态分布;(4)σ与σ均具 数或缺的的观测值,π(·)为其后验分布。则对于我 有无先验信息分布;(5)特别地,按实际应用的需要 们感兴趣的函数h(U)的数学期望为:E[h(U)]= 假设:的先验分布为某一常数。令π(·)代表有关参 数的先验分布,则: h(u)π(u)du/(π(u)du),由于该积分往往形式 π(μ/a,o2,o) 万方数据
第2期 林静等:基于MCMC稳态模拟的贝叶斯经验费率厘定信用模型 ·35· y的联合密度函数为: 复杂难于计算,此时采用蒙特卡罗积分进行近似,即: r 1i 、fv(Y)2 jj璺[^,8(yr朋)]’丌(8)枷 yl,…,L+1的联合密度函数为: ^。,…l+。(Y1'.一,E+,)2 j引fYj/O(∞朋)]· 7r(a)da 给定Y=Y条件下y州的条件分布为: l盯[^/8(y/口)]·丌(9)dO fY+I/Y(舶/y)=妞—L焘万一 又因给定y条件下0的条件分布为: 嘶Y(O/y,=每铲 :坦生:坐掣:型竺 — v(y) (1)f ¨7 则,(1)式可化为: 咖c舶咖垃堕等掣 =.I fvT+I/O(YT+I/0),re/y(O/y)dO 值得注意的是,当0已知时: 一+1(曰) = E(匕+I/O = 疗) = j∞+1■+l/8(∞+l/e)ayj+1且卢2 E(匕+1)= E[E(y¨/@=口)]=E[p,+l(口)]可得:卢为0的 均值。由于0未知,我们利用可观测值Y对yHl进 行估计,其中: E(V+1/Y 2 y)。JYj+l■+,lo(ys+I/O)dyjtl =I所+l(口)丌。/y(O/y)dO 综上,Buhlmann—Straub模型的贝叶斯求解关 键在于对结构参数条件分布丌@I y(0 y)进行积分。 然而,基于传统的高维数值积分方法很难得出参数 的联合后验分布。本文中,我们将利用MCMC方法 得出参数联合后验分布的抽样,以解决高维数值积 分的困难。 4基于Gibbs抽样的MCMC模拟分析 设k维随机向量U=(U1,.一,U^)具有联合分 布兀(Ul,…,U),其中,Ui(i=1,…,k)为模型参 数或缺的的观测值,丌(·)为其后验分布。则对于我 们感兴趣的函数h(U)的数学期望为:E[h(U)]= l h(H)7r(甜)du/(I丌(“)du)。由于该积分往往形式 E[h(u)]≈土∑h(u(t’) H·=1 当U1’.一,U^相互独立时,由大数定律可知,样 本容量1/越大,其近似程度越高。但在很多复杂模型 中,并不能简单地对U1'.~,氓做出相互独立的假 设,这就需要使用MCMC稳态模拟方法。MCMC 模拟本质上是使用马尔可夫链的蒙特卡罗积分,基 本思想是:建立马尔可夫链对未知变量进行抽样模 拟,当链达到稳态分布时即得所求的后验分布。基 于贝叶斯推断原理的MCMC方法主要用于产生后 验分布的样本,计算边缘分布以及后验分布的矩。 不同的抽样方法导致了不同的MCMC方法,Gibbs 抽样是其中最简单也是应用最广泛的一种。 Gibbs抽样过程属于马尔可夫更新机制的范 畴。在上述假设条件下,令Ui代表某种随机变量 或同组的几个随机变量;第歹组变量的边缘分布为 厂(uj)。给定任意初始向量U(o)=(ui∞,…, ulo’),我们由f(Ul u严’,…,u护’)中抽取样本 【,{1’;由f(U2 u{¨,u5叫,…,u(0’)中抽取样本 u11’;由/(uj f己,i¨,…,u;冀,u50j,…,己,lo’)抽 取样本u:1’;并由厂(UI ui¨,ui¨,…,u101)抽 取样本L,11’;由上即完成了由u(o)到u(1)= (【,;¨,…,u铅’)的转移。经过t次迭代,可以得到 u(r)=(vl“,…,u铝’),并最终得到u(¨,u(扪, U(3),…。易证:由不同的U(o’出发,当t—oo,在遍 历条件下,可以认为各时刻U“)的边际分布为平稳 分布,此时它收敛,并可以被看作是样本的仿真观测 点。而在收敛出现前的刀z次迭代中,各状态的边际 分布还不能认为是71"(U),因此在估计E[^(U)] 时应将前一z个迭代值去掉,即: 1 ” E[h(【,)]≈—上一乏:h(u(‘’) lL—r’lptn}1 在Buhlmann—Straub模型中,设: YO=卢i+e玎=(卢+ai)+£巧 其中,假定:(1)ai与£i,相互独立且E(口i)=0, Var(口i)=d2。,E(e“)=0,Vat(£i,)=d;;(2)Yi, 服从均值为Pf,方差为盯:/coi,的正态分布;(3)∥i服 从均值为卢,方差为r的正态分布;(4)仃2。与盯:均具 有无先验信息分布;(5)特别地,按实际应用的需要 假设/l的先验分布为某一常数。令7l"(·)代表有关参 数的先验分布,则: 丌(.££/口,盯2。,口:) 万方数据
·36· 中国管理科学 2006年 1 心π(4)·ⅡⅡπ(y/μ,a,o2) (2) π(o2/u,a,c2) isy=l (a2)nmexp[- oc exp[- 8(%--P] (5) 0v-1 π(aμ,o,a) 由(2)~(5)式即得Gibbs抽样过程。 ocπ(a)·Ⅱπ(y/μ,a,c2) 5实例分析 oc exp(- 某保险公司某风险级别6家汽车公司10年内 的索赔历史数据y%(i=1,…,6;j=1,…,10)如表 oc exp a+a-2-1 2所示;括号内注明了当年汽车公司参与投保的汽 =1 车数目,记为w,;NA代表缺失观测值。公司希望利 (3) 用这些数据厘定出每家公司第11年的经验费率 π(a2/μ,a,o2) ,1,并进一步识别出各家公司的风险级别。不难 1 1 (y%-4-a)2] 得出,缺失观测值的存在对传统Buhlmann~Straub 22==1 模型的影响是不可避免的,使用单纯的Buhlmann- 英中N=含和, (4) Straub模型将忽视其对结构参数估计的有效性。 表26组投保人10年内的索赔历史数据 第1年 第2年 第3年 第4年 第5年 第6年 第7年 第8年 第9年 第10年 公司1 99(20) 103(20) 163(24) 126(32) NA(28) 219(28) 219(28) 370(28) 273(22) 155(26) 公司2 NA(8) 400(6) 1042(10) 313(6) NA(8) 833(4) NA(6) NA(4) NA(4) NA(4) 公司3 275(22) 278(22) 430(18) 196(20) 667(12) 185(10) 517(12) 204(10) 323(6) 968(6) 公司4 543(26) 984(24) 727(22) 562(18) 722(20) 610(16) 794(12) 299(14) 580(14) 488(14) 公司5 NA(6) NA(8) NA(6) 645(6) 833(2) NA(4) NA(2) 769(2) NA(2) NA(2) 公司6 333(18) 404(20) 400(20) 361(16) 588(18) 349(18) 435(14) 476(12) 635(12) 556(10) 本文基于表2数据,构建如3、4小节所示贝叶 叁数 均值 标准差2.5% 97.5% 斯信用模型;本例中截取前1000次迭代结果,从第 y[5,10] 546.1 485.5 -407.7 1503.0 1001次开始进行20000次选代分析,主要结果如下 y[5,11] 551.7 494.6 -428.9 1521.0 y6,11] 437.4 215.4 3.848 855.7 表所示。 表3参数20000次抽样迭代y的后验估计 从表3中可以看出,模型抽样模拟结果厘定出 参数 均值 标准差 2.5% 97.5% 了各汽车公司第11年的经验费率,1(y[i,11]), y[1,5] 209.6 133.3 -52.07 473.4 并给出了95%的置信区间及标准差,例如厘定第一 y1,1] 209.3 137.5 -60.41 482.8 y[2,1 607.5 261.1 89.68 1126.0 家汽车公司第11年经验费率y1,1为209.3元;对缺 yf2,5] 603.7 262.8 83.12 1112.0 失观测值NA(y[i,j])也给出了相应的贝叶斯估 y[2,7] 607.3 298.0 20.91 1191.0 计,例如第1家公司第五年的缺失值NA15的贝叶斯 y[2,81 602.5 352.9 -102.6 1291.0 y2,9] 608.4 351.2 -92.27 1294.0 估计y15=209.6。 y[2,10] 601,9 351.9 -91.63 1288.0 y[2,11] 605.1 349.1 -86.2 1286.0 表4参数20000次抽样选代z的后验估计 y[3.11] 362.3 277.9 -196.5 902,1 参数 均值 标准差 2.5% 97.5% y[4,1] 635.2 241.9 164.1 1112.0 [1] 0.9446 0.0454 0.8253 0.9928 y[5,1] 548.0 312.4 -62.17 1180.0 [2] 0.8144 0.1177 0.5254 0.969 y[5,2] 550.9 281.0 -9.1 1093.0 =[3] 0.9046 0.07164 0.718 0.9866 yf5,3] 548.0 310.1 -55.77 1164.0 ÷[4] 0.9219 0.06083 0.7625 0.9894 y[5,6] 548,4 364.5 -178.0 1255.0 =[5] 0.7528 0.1411 0.4246 0.9554 [5,7] 559.5 495.7 -413.4 1530.0 6] 0.915 0.06519 0.7446 0.9883 y[5,9] 549.2 494.0 -423.5 1526.0 万方数据
·36· 中国管理科学 2006年 。C丌(户).川11。H rr(yo/lⅡ,口,d:) (2) OC exp[一刍喜。兰(y巧一p一)2] 巧(ai/弘,盯2。,盯2E) oC玎(口i)·吐7r(y。//1,口,盯:) ,2I cxz exp(一玉挑xp[_菇。(y“一P~∥] OC exp{一壶c净2 2+,堇扛2cyq-k,]} (3) 7r(口2。/卢,口,盯:) 。c麦×南ex小覆邑n兰(y百一F飞)2] 其中N=;兰丁f (4) 出:以,…:)。c麦×南exp[一 猛墨n。羽 (5) 由(2)~(5)式即得Gibbs抽样过程。 5 实例分析 某保险公司某风险级别6家汽车公司10年内 的索赔历史数据Y打(i=1,…,6;J=1,…,10)如表 2所示;括号内注明了当年汽车公司参与投保的汽 车数目,记为甜ii;NA代表缺失观测值。公司希望利 用这些数据厘定出每家公司第11年的经验费率 yi.¨,并进一步识别出各家公司的风险级别。不难 得出,缺失观测值的存在对传统Buhlmann—Straub 模型的影响是不可避免的,使用单纯的Buhlmann— Straub模型将忽视其对结构参数估计的有效性。 表2 6组投保人10年内的索赔历史数据 本文基于表2数据,构建如3、4小节所示贝叶 斯信用模型;本例中截取前1000次迭代结果,从第 1001次开始进行20000次迭代分析,主要结果如下 表所示。 ‘ 表3参数20000次抽样迭代j,的后验估计 从表3中可以看出,模型抽样模拟结果厘定出 了各汽车公司第11年的经验费率Y¨l(Y[i,11]), 并给出了95%的置信区间及标准差,例如厘定第一 家汽车公司第11年经验费率Yl,11为209.3元;对缺 失观测值NAii(y[i,J])也给出了相应的贝叶斯估 计,例如第1家公司第五年的缺失值NAl5的贝叶斯 估计Y15=209.6。 表4参数20000次抽样迭代Z的后验估计 万方数据
第2期 林静等:基于MCMC稳态模拟的贝叶斯经验费率厘定信用模型 ·37· 表4中指出:对于信用因子Z(Z[i])的后验估 然是不合适的,特别是应将公司1与公司4区分开 计中,Z2与25的标准差较大(均>0.1),反映出其 来。 较低的信用,这与模型中公司2与公司5的缺失观 表6参数20000次轴样迭代m的后验估计 测值较多相一致。 参数 均值 标准差 2,5% 97.5% 表5参数20000次抽样迭代a的后验估计 m 408.9 2.286 258.5 537.7 m[1] 209.7 0.3179 124.0 296.9 参数 均值 标准差 2.5% 97.5% m[2] 603.9 1.191 385.4 835.0 al1] -199.2 78.86 -350.2 -37.01 a2] m[3] 365.6 0.3687 257.9 471.7 195.0 130.0 -42.28 473.0 m[4] 635.1 0.4111 535.4 733.0 a[3] -43.31 84.92 -203.9 132.1 m[5] 552.2 1.478 268.3 871.3 af4】 226.2 85.7 70.35 410.7 m[6] 439.2 50.91 337,9 539.6 a[5] 143.4 160.9 -141,3 493.0 a[6】 30.3 83.33 -126.4 202.5 表6的结果显示:总体均值μ(m)与各公司均值 表5的结果表明:a:(a[i])的值反陕出各公司平 (m[i])的差异较大,再次说明若按总体均值进行 均索赔值与总体索赔μ(m)的差异(即风险异质性 估计将产生较4大许多的估计误差,从而进一步证 的程度),其中,公司1与公司4的异质性最强,公司 明了该模型在甄别保单组合数据的非同质程度中的 2次之,这说明对6家公司厘定相同的经验费率显 有效性。 2 1.0 0.H .6 6 06 0.4 2X5I2I90 29W 2050 21 24950 2M502)2X95) .75 5 0. W 125 .6 4 0 20 21KN) 2950 2X 250 2054) 2W0 29 注:横轴为选代次数,纵轴代表迭代模拟值 图1信用因子Z20000次选代的马尔可夫链轨迹 此外,我们以信用因子Z为代表给出部分参数 状况有所改观;(2)实际中数据庞大的保单组合间的 的Gibbs动态抽样马尔可夫链的轨迹图,从中可较 非同质性十分突出,从而影响了费率厘定的有效性; 直观的得出Gibbs抽样收敛的判断,再次证明了模 通常情况下根据若干准则(如性别、年龄、文化程度 型的有效性。 等)的初步分类并不充分,特别是在数据缺失的条件 下(例如本例中公司1、4的保单非同质,尽管它们可 6结束语 能在投保初期属于同级风险水平);(3)实例分析结 我国在数据缺失情况下对传统Buhlmann~ 果表明,在满足本文第四小节假设1~5的条件下, Straub模型参数的估计研究还比较有限,本文的研 该模型能够弥补传统模型对缺失参数估计的不足 究结果表明:(1)以MCMC稳态模拟方法为基础构 (传统方法在对如表2缺失数据的情形处理较牵 建的贝叶斯信用模型,能够在历史数据不完备的情 强),直观有效地甄别经验费率厘定中保单组合数据 形下,较容易地求出参数的后验分布以及相关参数 的非同质程度,计算精度较高,为保费厘定中进一步 的估计(特别是缺失观测值的估计),并能形象的模 的风险因子识别提供了新的思路,并对保险公司经 拟出参数的后验分布,较传统Buhlmann-Straub仅 验费率厘定方法的改进具有现实意义。该模型的有 能得出参数有关点估计的情形具有直观性较强的特 关尝试为我国学者在该领域的进一步研究奠定了良 点,使贝叶斯方法仅仅适用于解决简单低维问题的 好的基础。 万方数据
第2期 林静等:基于MCMC稳态模拟的贝叶斯经验费率厘定信用模型 ·37· 表4中指出:对于信用因子磊(Z[i])的后验估 计中,z2与Z5的标准差较大(均>0.1),反映出其 较低的信用,这与模型中公司2与公司5的缺失观 测值较多相一致。 表5参数20000次抽样迭代a的后验估计 表5的结果表明:ai(a[i])的值反映出各公司平 均索赔值与总体索赔弘(m)的差异(即风险异质性 的程度),其中,公司1与公司4的异质性最强,公司 2次之,这说明对6家公司厘定相同的经验费率显 1.fl 0.8 I}.6 r1.4 1.fl 0.8 《,.6 0.4 (}.2 然是不合适的,特别是应将公司l与公司4区分开 来。 表6参数20000次轴样迭代m的后验估计 表6的结果显示:总体均值肛(m)与各公司均值 肫(m[i])的差异较大,再次说明若按总体均值进行 估计将产生较“大许多的估计误差,从而进一步证 明了该模型在甄别保单组合数据的非同质程度中的 有效性。 注:横轴为迭代次数,纵轴代表迭代模拟值 图1 信用因子Z20000次迭代的马尔可夫链轨迹 此外,我们以信用因子Z为代表给出部分参数 的Gibbs动态抽样马尔可夫链的轨迹图,从中可较 直观的得出Gibbs抽样收敛的判断,再次证明了模 型的有效性。 6 结束语 我国在数据缺失情况下对传统Buhlmann— Straub模型参数的估计研究还比较有限,本文的研 究结果表明:(1)以MCMC稳态模拟方法为基础构 建的贝叶斯信用模型,能够在历史数据不完备的情 形下,较容易地求出参数的后验分布以及相关参数 的估计(特别是缺失观测值的估计),并能形象的模 拟出参数的后验分布,较传统Buhlmann—Straub仅 能得出参数有关点估计的情形具有直观性较强的特 点,使贝叶斯方法仅仅适用于解决简单低维问题的 J.0 ().8 {J.6 IJ.4 状况有所改观;(2)实际中数据庞大的保单组合间的 非同质性十分突出,从而影响了费率厘定的有效性; 通常情况下根据若干准则(如性别、年龄、文化程度 等)的初步分类并不充分,特别是在数据缺失的条件 下(例如本例中公司1、4的保单非同质,尽管它们可 能在投保初期属于同级风险水平);(3)实例分析结 果表明,在满足本文第四小节假设1~5的条件下, 该模型能够弥补传统模型对缺失参数估计的不足 (传统方法在对如表2缺失数据的情形处理较牵 强),直观有效地甄别经验费率厘定中保单组合数据 的非同质程度,计算精度较高,为保费厘定中进一步 的风险因子识别提供了新的思路,并对保险公司经 验费率厘定方法的改进具有现实意义。该模型的有 关尝试为我国学者在该领域的进一步研究奠定了良 好的基础。 万方数据
·38· 中国管理科学 2006年 ceedings of the Casualty Actuarial Society,1996,(83):114 参考文献: -165. [1]Gau,W.C.Bayesian Modeling of Credibility in Actuarial [7]Scollnik,D.P.M.On the Analysis of the Truncated Gener- Application[D].Boston University Graduate School of Arts alized Poisson Distribution Using a Bayesian Method[J]. and Sciences,2003. ASTIN Bulletin,1998,28(1):135-152. [2]毛泽春,刘锦尊.免赔额和NCD赔付条件下保险索赔 [8]Scollnik,D.P.M.Actuarial modeling with MCMC and 次数的分布[J小.中国管理科学,2005,13(5):1-5. BUGS[J].North American Actuarial Journal,2001,(2): [3]成世学,关于可信性模型的若干评注[J].应用概率统 96-125. 计,2002,18(4):438-448. [9]Pai,J.Bayesian Analysis of Compound Loss Distributions [4]刘乐平,袁卫,现代Bayes方法在精算学中的应用及展 [J].Journal of Economics,1997,79:129-146 望[J].统计研究,2002,(8):45-49. [10]Makov,U.E.,Smith,A.F.M.,Liu,Y.H.Bayesian [5]Carlin,B.P.State Space Modeling of Non-Standard Actu- Methods in Actuarial Science[.The Statistician,1996, arial Time Series[J].Insurance:Mathematics and Eco- 45:503-515. nomics.1992,(11):209-222, [11]林静,韩玉启,朱慧明,一种基于MCMC稳态模拟的 [6]Scollnik,D.P.M.An Introduction to Markov Chain Monte 贝叶斯索赔校正模型[J].数量经济技术经济研究, Carlo Methods and Their Actuarial Applications[]].Pro- 2005,(10):92-99 Bayesian Credibility Model for Experience Rating Based on MCMC Method LIN Jing',HAN Yu-qi',ZHU Hui-ming? (1.School of Economics Management,Nanjing University of Science Technology,Nanjing 210094,China; 2.School of Statistics,Hunan University,Changsha 410079,China) Abstract:Buhlmann-Straub model is one of the most famous applications of the Bayesian method for the expe- rience rate making.However,by the traditional Buhlmann-Straub model one cannot get the unbiased posterior estimation of the parameters when there is not sufficient prior information for the structural parameters;What's more,the difficult of computing high dimension numeration limits the application of Bayesian method.This paper introduces the Markov chain Monte Carlo simulaton method based on the Gibbs sampling after analyzing the structure of the Buhlmann-Straub model and sets up the Bayesian credibility model for estimating the predictive risk premium.Also by using the results of the numeration analysis,this paper proves that from this model one can get the posterior distributions of the parameters dynamically and the posterior estimation of the censoring param- eters in the situation that exists unknown parameters,as well as improve the precision of the numeration,which can be helpful to find the heterogeneity of the premium. Key words:credibility models;Bayesian analysis;experience rating;Markov chain Monte Carlo simulation;Gibbs sampling 万方数据
·38 · 中国管理科学 2006焦 参考文献: [1]Gau,W.C.Bayesian Modeling of Credibility in Actuarial Application[D].Boston University Graduate School of Arts and Sciences,2003. [2]毛泽春,刘锦萼.免赔额和NCD赔付条件下保险索赔 次数的分布[J].中国管理科学,2005,13(5):1—5. [3]成世学.关于可信性模型的若干评注[J].应用概率统 计,2002,18(4):438—448. [4]刘乐平,袁卫.现代Baycs方法在精算学中的应用及展 望[J].统计研究,2002,(8):45—49. [5]Carlin,B.P.State Space Modeling of Non—Standard Actu— arial Time Series[J].Insurance:Mathematics and Eco— nomies.1992,(11):209—222. [6]Scollnik,D.P.M.An Introduction to Markov Chain Monte Carlo Methods and Their Actuarial Applications[J].Pro— ceedings of the Casualty Actuarial Society,1996,(83):114 —165. [7]Scollnik,D.P.M.On the Analysis of the Truncated Gener— alized Poisson Distribution Using a Bayesian Method[J]. ASTIN Bulletin,1998,28(1):135—152. [8]Scollnik,D.P.M.Actuarial modeling with MCMC and BUGS[J].North American Actuarial Journal,2001,(2): 96—125. [9]Pai,J.Bayesian Analysis of Compound Loss Distributions [J].Journal of Economics,1997,79:129—146 [10]Makov,U.E.,Smith,A.F.M.,Liu,Y.H.Bayesian Methods in Actuarial Science[J].The Statistician,1996, 45:503—515. [11]林静,韩玉启,朱慧明.一种基于MCMC稳态模拟的 贝叶斯索赔校正模型[J].数量经济技术经济研究, 2005,(10):92—99 Bayesian Credibility Model for Experience Rating Based on MCMC Method LIN Jin91,HAN Yu—qil,ZHU Hui—min矿 (1.School of Economics&Management,Nanjing University of Science&Technology,Nanjing 210094,China; 2.School of Statistics,Hunan University,Changsha 410079,China) Abstract:Biihlmann—Straub model is one of the most famous applications of the Bayesian method for the expe— rience rate making.However,by the traditional Biihlmann—Straub model one cannot get the unbiased posterior estimation of the parameters when there is not sufficient prior information for the structural parameters;What’S more,the difficult of computing high dimension numeration limits the application of Bayesian method.This paper introduces the Markov chain Monte Carlo sinmlaton method based on the Gibbs sampling after analyzing the structure 0f the Biihtmann—Straub model and sets up the Bayesian credibility model for estimating the predictive risk premium.Also by using the results of the numeration analysis,this paper proves that from this model one can get the posterior distributions of the parameters dynamically and the posterior estimation of the censoring param— eters in the situation that exists unknown parameters,as well as improve the precision of the numeration,which can be helpful to find the heterogeneity of the premium. Key words:credibility models;Bayesian analysis;experience rating;Markov chain Monte Carlo simulation;Gibbs sampling 万方数据