第一章一般多元线性回归模型 金融理论从资本资产定价模型(CAPM发展到套利定价理论(APT),在数理统计方面就是从 应用一元线性回归发展到应用多元线性回归。本章先介绍推导套利定价理论,以实例说明套利 过程,引入多元线性回归模型,随之介绍一般多元线性回归模型的参数估计、假设检验等基本 原理。然后本章深入讨论多元线性回归模型一些特别情况及解决办法,如自变量选择准则与逐 步回归,自变量变换与多项式回归等。本章的凸集间交互投影的迭代算法求线性模型的最小二 乘通解,在数学上有一定特色。本书软件与各节算例配套,键入资料即可自动完成回归,使用 者不看各节的数学推导也没有关系。资料变换回归特意设了差分变换,软件还能自动显示多元 线性回归二维拟合效果图及多元多项式回归的三维立体直观图,给实际工作尽量带来方便。 第一节多因素定价模型(MPM)与套利定价理论(APT) 在引言里我们介绍了资本资产定价模型CAPM,从统计学角度它是属于一元线性回归。 它的基本方程有两个。回归方程 r=a+B, rM+Er, E(E)=o, Cov(E, rM)=0 (0.1.22) 假定证券i的收益率n与市场组合收益率r之间存在线性关系,据此可以测定系数β;。资本 市场线方程(参看图0.1.2.3): E(=rF+B, (E(rM-rF) (0.1.20) 告诉我们合理的证券投资组合应选在该线上,使得风险相同的情况下能获得较高的收益。 CAPM有两个局限性,一是经济假设条件较多,二是它只考虑了一个自变量。Ross(1976) 发展了CAPM,考虑证券i的收益率与几个因素之间的线性关系,建立了多因素定价模型 MPM( Multifactor Pricing Model),形成了套利定价理论API( Arbitrage Pricing Theory)。从统计 学角度看,也就是从应用一元线性回归发展到应用多元线性回归 APT假定证券i的收益率n与k个因素F=1 k存在线性关系 F=E(r)+bnF1+…+bF+E1 (1.1.1) 这里因素F产1…k的均值为0,共同作用于各个证券,ε;是均值为0的白噪声随机扰动项 显见上式是(0.1.20)的推广。APT的经济假定要求存在公平竞争且无摩擦的资本市场:个人投 资倾向的共同偏好在(1.1.1)前提下与CAPM相同:相同风险时偏好收益大的,收益大时偏好 风险小的;证券个数n(=1,…,n)比因素个数k要大得多;非系统风险项E;与其它因素及误差 都是独立的;在给定时刻被考虑的资产总和是不变的(有人赚,有人赔,赚赔相等);如果有价
1 第一章 一般多元线性回归模型 金融理论从资本资产定价模型(CAPM)发展到套利定价理论(APT),在数理统计方面就是从 应用一元线性回归发展到应用多元线性回归。本章先介绍推导套利定价理论,以实例说明套利 过程,引入多元线性回归模型,随之介绍一般多元线性回归模型的参数估计、假设检验等基本 原理。然后本章深入讨论多元线性回归模型一些特别情况及解决办法,如自变量选择准则与逐 步回归,自变量变换与多项式回归等。本章的凸集间交互投影的迭代算法求线性模型的最小二 乘通解,在数学上有一定特色。本书软件与各节算例配套,键入资料即可自动完成回归,使用 者不看各节的数学推导也没有关系。资料变换回归特意设了差分变换,软件还能自动显示多元 线性回归二维拟合效果图及多元多项式回归的三维立体直观图,给实际工作尽量带来方便。 第一节 多因素定价模型(MPM)与套利定价理论(APT) 在引言里我们介绍了资本资产定价模型 CAPM,从统计学角度它是属于一元线性回归。 它的基本方程有两个。回归方程 ri =i + i rM + I , E( i ) = 0,Cov( i ,rM ) = 0 (0.1.22) 假定证券 i 的收益率 ri 与市场组合收益率 rM 之间存在线性关系,据此可以测定系数βi。资本 市场线方程(参看图 0.1.2.3): ( ) ( ( ) ) i F i M F E r = r + E r − r (0.1.20) 告诉我们合理的证券投资组合应选在该线上,使得风险相同的情况下能获得较高的收益。 CAPM 有两个局限性,一是经济假设条件较多,二是它只考虑了一个自变量。Ross (1976) 发展了 CAPM,考虑证券 i 的收益率与几个因素之间的线性关系,建立了多因素定价模型 MPM(Multifactor Pricing Model),形成了套利定价理论 APT(Arbitrage Pricing Theory)。从统计 学角度看,也就是从应用一元线性回归发展到应用多元线性回归。 APT 假定证券 i 的收益率 ri 与 k 个因素 Fj, j=1,…,k 存在线性关系 i i bi F bikFk i r = E r + ++ + 1 1 ( ) (1.1.1) 这里因素 Fj, j=1,…,k 的均值为 0,共同作用于各个证券,εi 是均值为 0 的白噪声随机扰动项。 显见上式是(0.1.20)的推广。APT 的经济假定要求存在公平竞争且无摩擦的资本市场;个人投 资倾向的共同偏好在(1.1.1)前提下与 CAPM 相同:相同风险时偏好收益大的,收益大时偏好 风险小的;证券个数 n(i=1,…,n)比因素个数 k 要大得多;非系统风险项εi 与其它因素及误差 都是独立的;在给定时刻被考虑的资产总和是不变的(有人赚,有人赔,赚赔相等);如果有价
证券的风险为0,则其收益为0。 套利定价理论APT将教给我们如何在上述假定条件下获得超额收益。假定在=1,…,n 个证券间进行买进卖出。某投资者拥有的第i个证券的价值数量(单位元)改变量为a(=0表 示不进不出,a>0表示买进证券i0表示卖出证券D)。由于该时刻他的资产总和不变,买 进量等于卖出量,必有 这样他的证券投资组合获利数为 rp=∑m=∑,E()+∑,b1F+…+∑bF+∑o,1(1.1.3) 为了尽量消除系统风险与非系统风险,操作ω;时应该选取 d≈1/n (1.1.4) ∑o,b=0,j 由概率论的大数定律知,当n∞时,∑o,E1将收敛于它们的均值0,这样非系统风险项基 本可以忽略不计了。式(1.1.2)与(1.1.5)从代数学角度讲是一组正交条件,这样的a;是可以 构造出来的。于是有 O E(r (1.1.6) 但是我们知道无风险的证券组合收益应为0,于是(1.1.6)为0,这意味着选择的ω;还应 满足一个正交条件 OE(r) 由于ω;已满足正交条件(1.1.2)与(1.1.5),所以只要E(x)是这+1个正交向量的线性组合就 可以了 EG;)=4+Ab1+…+A1bk=1…,n (1.1.8) 由于b产=1,…,k是第i个证券对于第j个因素的敏感度量,考虑到无风险收益,显然有 (1.1.9) 于是我们可将(1.1.8)写成超额收益形式 E()-rE=A (1.1.10) 它正是CAPM下资本市场线方程(0.1.20)的推广。(1.1.10)就是套利定价定理AT的数学表述
2 证券的风险为 0,则其收益为 0。 套利定价理论 APT 将教给我们如何在上述假定条件下获得超额收益。假定在 i=1,…,n 个证券间进行买进卖出。某投资者拥有的第 i 个证券的价值数量(单位元)改变量为ωi(ωi=0 表 示不进不出,ωi>0 表示买进证券 i,ωi<0 表示卖出证券 i)。由于该时刻他的资产总和不变,买 进量等于卖出量,必有 0 1 = = i n i (1.1.2) 这样他的证券投资组合获利数为 i i n i i i k k n i i i n i i i n i i i n i rP r E r b F b F = = = = = = = + + + + 1 1 1 1 1 1 1 ( ) (1.1.3) 为了尽量消除系统风险与非系统风险,操作ωi时应该选取 ωi≈1/n (1.1.4) b j k i ij n i 0, 1, , 1 = = = (1.1.5) 由概率论的大数定律知,当 n→∞时, i i n i =1 将收敛于它们的均值 0,这样非系统风险项基 本可以忽略不计了。式(1.1.2)与(1.1.5)从代数学角度讲是一组正交条件,这样的ωi 是可以 构造出来的。于是有 ( ) 1 i i n i P r E r = = (1.1.6) 但是我们知道无风险的证券组合收益应为 0,于是(1.1.6)为 0,这意味着选择的ωi还应 满足一个正交条件: ( ) 0 1 = = i i n i E r (1.1.7) 由于ωi已满足正交条件(1.1.2)与(1.1.5),所以只要 E(ri)是这 k+1 个正交向量的线性组合就 可以了: E(ri ) = 0 + 1bi1 ++ kbik ,i =1, ,n (1.1.8) 由于 bij,j=1,…,k 是第 i 个证券对于第 j 个因素的敏感度量,考虑到无风险收益,显然有 λ0 = rF (1.1.9) 于是我们可将(1.1.8)写成超额收益形式 i F bi kbik E(r ) − r = 1 1 ++ (1.1.10) 它正是 CAPM 下资本市场线方程(0.1.20)的推广。(1.1.10)就是套利定价定理 APT 的数学表述
当只取一个自变量bk时,(1.1.10)可以图标如下 E() E(r)=r+1b A 图 在均衡状态下,所有的资产都必定落在套利定价线上。因为套利定价关系是线性的,所以 我们可以将直线方程写成斜截式 EGr)=r+λbk 1.1.11) 这里δ对第k个因素敏感度为1个单位,而对其余因素敏感度为0,而4k可以视作对承 担风险的奖励。在一般情况下,(1.1.10)可写作 [8-rgb [δk-rF]b (1.1.13) 比较(0.1.20),可以清楚它各个参数的经济含义,并且确信APT是CAPM的推广。 若将(1.1.13)视作回归方程,则 Cov(r (1.1.14) 这说明b是CAPM中B系数的推广 有人形象地描述APT与CAM的差别。一个飞行员驾着飞机在云层中迷失方向,他用无线 电向地面控制中心询问自己的方位。CAPM回答说:“离我约200英里。”这个回答令人茫然, 而APT准确回答出该飞机的经度、纬度与高度,显然解决问题。这个比方是说:证券市场是多 元的,只用一个变量往往不够 算例1.1.1套利分析过程 我们以具体数值例子说明如何使用APT来建立套利证券组合。设有三个证券X,Y,Z,有 两个公共因子F1,F2,对证券收益率rx,n,n以及期望收益敏感度61,62各有5次观测估计值 列于下表,单位都是1%。无风险收益率则假定为109 表1.1.1
3 当只取一个自变量 bik时,(1.1.10)可以图标如下: 图 1.1.1.1 在均衡状态下,所有的资产都必定落在套利定价线上。因为套利定价关系是线性的,所以 我们可以将直线方程写成斜截式 i F kbik E(r ) = r + (1.1.11) k F K F k r r = − − − = 1 0 (1.1.12) 这里 K 对第 k 个因素敏感度为 1 个单位,而对其余因素敏感度为 0,而λk可以视作对承 担风险的奖励。在一般情况下,(1.1.10)可写作 i F F i k F bik E(r ) r [ r ]b [ r ] − = 1 − 1 ++ − (1.1.13) 比较(0.1.20),可以清楚它各个参数的经济含义,并且确信 APT 是 CAPM 的推广。 若将(1.1.13)视作回归方程,则 j n Var Cov r b i i j ij , 1, , ( ) ( , ) = = (1.1.14) 这说明 bij是 CAPM 中β系数的推广。 有人形象地描述 APT 与 CAPM 的差别。一个飞行员驾着飞机在云层中迷失方向,他用无线 电向地面控制中心询问自己的方位。CAPM 回答说:“离我约 200 英里。”这个回答令人茫然, 而 APT 准确回答出该飞机的经度、纬度与高度,显然解决问题。这个比方是说:证券市场是多 元的,只用一个变量往往不够。 算例 1.1.1 套利分析过程 我们以具体数值例子说明如何使用 APT 来建立套利证券组合。设有三个证券 X,Y,Z,有 两个公共因子 F1, F2,对证券收益率 rX, rY, rZ以及期望收益敏感度δ1,δ2 各有 5 次观测估计值 列于下表,单位都是 1%。无风险收益率则假定为 10%。 表 1.1.1 ik b ( ) i E r F r k A = 1 ik b i F ik E(r ) = r + b
12% 1% 62% 55.23 623.99 53.00 10.00 5.00 70.70 11 9.00 25.00 149312 8.00 12.47 3771.42 1058.75 40.00 61.00 3237.44 83.00 50.00 0.00 平均值=110元=250=2008=200=80 由于APT分析过程需要一些变量正交,所以我们在准备δ1与62资料时,已将两列向量正 交化如下。构造正交因子需要比较复杂的因子分析理论,我们这里略去,具体计算由本书所附 软件自动完成。软件上对此也有清楚的提示。 38.48 l44 0.00 我们采用两个公共因子的APT模型: EG)=r+[o1-Fb1+[2-F1b2 (1.1.15) 首先需要根据表中资料估计出b1与b2。根据公式 v(X,Y)=∑(X1-X)(Y y 可计算出 Cov(n,0)=∑(rx-0.)o,-0.20)=2850 par(6)=∑(6-0.20)2=5700 于是由公式(1.1.14)可算出bx b、Cov(rx,61)2850 ra(1)57.0~0s 类似可算出bx2=2.0,b=1.0,bn2=1.5,bz1=1.5,ba=10。代入模型(1.1.15)得 E(rx)=0.10+(0.20-0.10)×0.5+(0.08-0.10)×2.0=11% E(rr)=0.10+(0.20-0.10)×1.0+(0.08-0.10)×1.5=17% E(r2)=0.10+(0.20-0.10)×1.5+(0.08-0.10)×1.0=23% 分析能否建立套利证券组合的关键是将E(n)与F资料对比。我们发现恰好
4 rX% rY% rZ% δ1% δ2% 1 -55.23 623.99 53.00 -10.00 -5.00 2 70.70 10.00 413.37 -5.00 38.48 3 -9.00 25.00 -1493.12 25.00 8.00 4 -12.47 -3771.42 1058.75 40.00 -1.44 5 61.00 3237.44 83.00 50.00 0.00 平均值 rX =11.0 rY = 25.0 rZ = 20.0 1 = 20.0 2 = 8.0 由于 APT 分析过程需要一些变量正交,所以我们在准备δ1 与δ2 资料时,已将两列向量正 交化如下。构造正交因子需要比较复杂的因子分析理论,我们这里略去,具体计算由本书所附 软件自动完成。软件上对此也有清楚的提示。 0 0.00 -1.44 8.00 38.48 5.00 ( 10 - 5 25 40 50) = − − 我们采用两个公共因子的 APT 模型: 1 1 2 2 ( ) [ ] [ ] i F F i F bi E r = r + − r b + − r (1.1.15) 首先需要根据表中资料估计出 bi1 与 bi2。根据公式 2 1 1 ( ) ( ) ( , ) ( )( ) Var X X X Cov X Y X X Y Y t T t t t T t = − = − − = = 可计算出 ( ) ( 0.20) 570.0 ( , ) ( 0.11)( 0.20) 285.0 2 1 5 1 1 1 5 1 1 = − = = − − = = = t t Xt t t x Var Cov r r 于是由公式(1.1.14)可算出 bX1 0.5 570.0 285.0 ( ) ( , ) 1 1 1 = = = Var Cov r b X X 类似可算出 bX2=2.0,bY1=1.0,bY2=1.5,bZ1=1.5,bZ2=1.0。代入模型(1.1.15)得 E(rX)=0.10+(0.20-0.10)×0.5+(0.08-0.10)×2.0=11% E(rY)=0.10+(0.20-0.10)×1.0+(0.08-0.10)×1.5=17% E(rZ)=0.10+(0.20-0.10)×1.5+(0.08-0.10)×1.0=23% 分析能否建立套利证券组合的关键是将 E(ri)与 i r 资料对比。我们发现恰好
E(rx)=Fx=11%E(Vz)=F2=23% 那么单纯在证券X、Z之间进行买卖将无套利可言。但是注意到 E(r1)=17%<F=25 这就给我们以套利的机会,即在不增加风险的情况下,可以增加收益,相当于在CAPM(图0.1.3) 中将证券组合从P2点上移到P1点。具体套利操作需要计算买进卖出数量ω;。由(1.1.2)与 (1.1.5)得 0.50x+1.00y+1.50z=0 2.00y+1.50、+1.0 对此方程组的系数矩阵进行初等行变换可得 051.015-01.01.5-01 201.5100-1.5 于是得通解 C+2C∈R 按照-1:+2:-1的比例买进卖出可获套利。不妨假定开始时某投资者拥有证券X,Y,Z各占 1/3,此时他应获利为 11%+-×25%+-×23%=1967% 他所承担的风险为 ×0.5+-×1.0+-×1.5=1.0 对因素1 3 2+-×1.5+-×1.0=1.5 对因素2 现在他按-1:2:-1比例买进卖出,不妨取极端情况,取 意即他将证券X、Z全部抛出,又全部用来买进证券Y。此时他的风险位置不变: 0×0.5+1×1.0+0×1.5=1.0 对因素1 0×2+1×1.5+0×1.0=1.5 对因素2 但是他获利增加了5.33% 0×11%+1×25%+0×23%=25% 图显示了这个套利过程
5 E(rX ) = rX =11%,E(rZ ) = rZ = 23% 那么单纯在证券 X、Z 之间进行买卖将无套利可言。但是注意到 E(rY ) =17% rY = 25% 这就给我们以套利的机会,即在不增加风险的情况下,可以增加收益,相当于在 CAPM(图 0.1.3) 中将证券组合从 P2 点上移到 P1 点。具体套利操作需要计算买进卖出数量ωi。由(1.1.2)与 (1.1.5)得 2.0 1.5 1.0 0 0.5 1.0 1.5 0 0 X Y Z X Y Z X Y Z + + = + + = + + = 对此方程组的系数矩阵进行初等行变换可得 0 0 0 0 1 2 1 0 -1 ~ 0 -1.5 -1 0 1.0 1.5 1 1 1 ~ 2.0 1.5 1.0 0.5 1.0 1.5 1 1 1 于是得通解 C C R z y x − + − = , 1 2 1 按照 -1∶+2∶-1 的比例买进卖出可获套利。不妨假定开始时某投资者拥有证券 X,Y,Z 各占 1/3,此时他应获利为 23% 19.67% 3 1 25% 3 1 11% 3 1 + + = 他所承担的风险为 1.5 1.0 3 1 1.0 3 1 0.5 3 1 + + = 对因素 1 1.0 1.5 3 1 1.5 3 1 2 3 1 + + = 对因素 2 现在他按 -1∶2∶-1 比例买进卖出,不妨取极端情况,取 , 3 1 , 3 2 , 3 1 X = − Y = z = − 意即他将证券 X、Z 全部抛出,又全部用来买进证券 Y。此时他的风险位置不变: 0×0.5+1×1.0+0×1.5=1.0 对因素 1 0×2+1×1.5+0×1.0=1.5 对因素 2 但是他获利增加了 5.33%: 0×11%+1×25%+0×23%=25% 图显示了这个套利过程:
30 20% 61=20% 10%F=25% (2)=1l9 图1.1.1.2 E(r1)=F=11%与E(r2)=F=23%都恰好在套利平面,处于均衡状态。E(n)=17%也恰 好在套利平面,而元=25%在套利平面之上,于是存在套利机会。如果有较多的人认识到这个 机会都来大量购进证券Y,则Y的价格会上升,从而使Y的收益率下降而回落到套利平面的均 衡点上 通过本节实例,我们已经引入了多元线性回归模型。多元线性回归模型的解法、性质,如 何筛选自变量,如何克服观测资料存在的缺陷等,这些问题将通过这一章逐步解决。 第二节多元线性回归的基本原理 多元线性回归模型及其参数估计 多元线性回归考虑的是因变量Y与多个自变量X1,X2;…M之间的线性关系 Y=Bo+BX+B2x2+.+BXm+8 (1.2.1) 其中B0,B1,B2…;Bm是未知参数,X,羟2;…,m是m个可以精确测量并可控制的一般变量,ε 是随机误差。通常我们假定 E(a=0, Var(a=o (1.2.2) 在作显著性检验或 Bayes分析等许多情况下,我们作更强的假定:
6 图 1.1.1.2 E(rx ) = rx = 11% 与 E(r z ) = r z = 23% 都恰好在套利平面,处于均衡状态。E(rY)=17% 也恰 好在套利平面,而 Y r =25%在套利平面之上,于是存在套利机会。如果有较多的人认识到这个 机会都来大量购进证券 Y,则 Y 的价格会上升,从而使 Y 的收益率下降而回落到套利平面的均 衡点上。 通过本节实例,我们已经引入了多元线性回归模型。多元线性回归模型的解法、性质,如 何筛选自变量,如何克服观测资料存在的缺陷等,这些问题将通过这一章逐步解决。 第二节 多元线性回归的基本原理 一、多元线性回归模型及其参数估计 多元线性回归考虑的是因变量 Y 与多个自变量 X1,X2,…,Xn 之间的线性关系 = + + + + + Y 0 1X1 2X2 m X m (1.2.1) 其中β0,β1,β2,…,βm 是未知参数,X1,X2,…,Xm是 m 个可以精确测量并可控制的一般变量,ε 是随机误差。通常我们假定 2 E() = 0, Var() = (1.2.2) 在作显著性检验或 Bayes 分析等许多情况下,我们作更强的假定: 20% 30% 10% ry = 25 % E(ry ) = 17% rx = E(rx ) = 11% 1 2 3 δ1=20% E(rz)=23% 0.5 1 1.5
N(0,a2) (1.2.3) 为了估计回归系数B0,B1…,Bm,我们对变量进行了n次观察,得到n组观察资料(YX,X2… Xm),=1,…。一般要求nm。于是回归关系可写为 =B0+B2x1+B2X12+…+Bmxm+5 2=B+B1X21+B2X22+…+BmX2m+E2 (1.2.4) Bo +B,Xn+B, B 其中E1,E2,…,en独立同分布,都满足(1.2.2) 我们要采用矩阵形式来表示(1.2.4)。令 XM X 1 X, X X X 1X, X B B 则多元线性回归模型为 其中n×(m+1)矩阵X称为回归设计矩阵,一般情况下我们假定X列满秩,即r(X)=m+1。关 于误差的假定与(1.2.2)对应为 E(a=0, Var(8)=o-l (1.2.6) 其中Ln为单位阵。与(1.2.3)对应为 N(0,02l (1.2.7) (1.2.5)与(1.2.6)(或与(1.2.7)合在一起称为多元线性模型 下面求模型参数的最小二乘估计( Least Square estimate,LSE)。残差平方和S(B)为 S(B)=(r-XBrr-XB (, -Bo-B,X lY-XBl 最小二乘法则即要求β=(B,B,…Bn)使
7 ~ (0, ) 2 N (1.2.3) 为了估计回归系数β0,β1,…,βm,我们对变量进行了 n 次观察,得到 n 组观察资料(Yi,Xi1,Xi2,… Xim),i=1,…,n。一般要求 n>m。于是回归关系可写为 = + + + + + = + + + + + = + + + + + n n n m nm n m m m m Y X X X Y X X X Y X X X 0 1 1 2 2 2 0 1 21 2 22 2 2 1 0 1 11 2 12 1 1 (1.2.4) 其中ε1,ε2,…,εn 独立同分布,都满足(1.2.2)。 我们要采用矩阵形式来表示(1.2.4)。令 = = = = n n n nm m m n X X X X X X X X X X Y Y Y Y 2 1 0 1 0 1 2 21 22 2 11 12 1 2 1 , 1 1 1 , 则多元线性回归模型为 Y = X + (1.2.5) 其中 n×(m+1)矩阵 X 称为回归设计矩阵,一般情况下我们假定 X 列满秩,即 rk (X)=m+1。关 于误差的假定与(1.2.2)对应为 n E I 2 ( ) = 0, Var( ) = (1.2.6) 其中 In 为单位阵。与(1.2.3)对应为 ε~N(0,σ2 In) (1.2.7) (1.2.5)与(1.2.6)(或与(1.2.7)合在一起称为多元线性模型。 下面求模型参数的最小二乘估计(Least Square Estimate,LSE)。残差平方和 S(β)为 2 0 1 1 1 ( ) ( ) ( ) ( ) i i m im n i Y X X S Y X Y X = − − − − = − − = 2 = Y − X (1.2.8) 最小二乘法则即要求 ) ˆ , , ˆ , ˆ ( ˆ = 0 1 m 使
S(B)=min S(B) (1.2.9) 或记为 Y-xp -E →mm (1.2.10) 因为S(B)是B的二次可微函数,极值点处的各偏导数为0。采用矩阵微商记法 aS(P)=C[()(Y-XB) (rY-2YXB+BXXB -2XY+2XB=0 (1.2.11) (XXB=X (1.2.12) 它称为正规方程。若X列满秩,则X"X为非奇异阵,其逆矩阵存在,左乘(1.2.12)两边得β 的最小二乘解 B=(XXXY (1.2.13) 可以验证(1.2.13)确能使S(B)达最小值。分解S(B)得: S(=(r-XB)(r-XB Or-XB+XB-xB)(r-XB+XB-XB (-B)(-B)+(B-B)XX(B-B) S(B)+(B-B)XX(B-B) 2.14) 这是因为中间两个交叉项为0: (B-B)X(Y-XB)=(B-B)'X'TY-X(XX)"] (B-B)IXY-XX(XX)XY=0 (r- XB)X(B-B)=0 (1.2.15) 观察(1.2.14)第二项(B-B)XX(B-B)为非负定二次型,当且仅当B=B时它取得最小 值0,即SB)当且仅当B=B对取得最小值S() 下面研究B的基本统计性质,我们以定理形式叙述并证明
8 ) min ( ) ˆ S( = S (1.2.9) 或记为 − ⎯→min Y X (1.2.10) 因为 S(β)是β的二次可微函数,极值点处的各偏导数为 0。采用矩阵微商记法 ( 2 ) [( ) ( )] ( ) Y Y Y X X X Y X Y X S − + = − − = = −2X Y + 2X X = 0 (1.2.11) 即 (X ' X ) = X 'Y (1.2.12) 它称为正规方程。若 X 列满秩,则 X ' X 为非奇异阵,其逆矩阵存在,左乘(1.2.12)两边得β 的最小二乘解 = X X X Y −1 ( ) ˆ (1.2.13) 可以验证(1.2.13)确能使 S(β)达最小值。分解 S(β)得: ) ˆ ) ( ˆ ) ( ) ( ˆ ( ) ˆ ˆ ) ( ˆ ˆ ( ( ) ( ) ( ) = − − + − − = − + − − + − = − − Y X Y X X X Y X X X Y X X X S Y X Y X ) ˆ ) ( ˆ ) ( ˆ = S( + − X X − (1. 2.14) 这是因为中间两个交叉项为 0: ) [ ( ) ] 0 ˆ ( ) [ ( ) ] ˆ ) ( ˆ ) ( ˆ ( 1 1 = − − = − − = − − − − X Y X X X X X Y X Y X X Y X X X X Y ) 0 ˆ ) ( ˆ (Y − X X − = (1.2.15) 观察(1.2.14)第二项 ) ˆ ) ( ˆ ( − X X − 为非负定二次型,当且仅当 ˆ = 时它取得最小 值 0,即 S(β)当且仅当 ˆ = 对取得最小值 ) ˆ S( 。 下面研究 ˆ 的基本统计性质,我们以定理形式叙述并证明
定理1.2.1( Gauss markov)线性回归模型 Y=XB+8, E(a=0, Var(8)=o'l 中回归系数β的最小二乘解 XX-XY 1.2.17) 是B的唯一最小方差线性无偏估计 证明从β的表达式知B是子样Y的线性函数。又 E(B)=EIOXX-XY=(XX)"XE(Y))))))))) (XX)XXB=B (1.2.18) 故B是B的无偏估计。 B的协方差阵是 B=Cov(BL, B1)=(Xrr)XCov(r, n)X(rx) X)"XoI,X(XX) 0(XX) (1.2.19) 若7=C′Y是B的另一线性无偏估计,由无偏性要求,应有 E(刀=E(C=CE(=CXB=B 对一切B成立,即有 而T的协方差阵为 2r=Cov(TT)=C′Cov(yY)C=a2(C′C) (1.2.20) 因为 CC-(YY)-=CC+(XX)--(Yx--Y'X CC+(XX)(XX)"XC-CX(XX) C′-(XX)xC-(Xx)X]≥ (1.2.21) 这里矩阵≥0表示非负定矩阵。于是 X (1.2.22) 即有 2(XX)-≤a2(C
9 定理 1.2.1 (Gauss Markov)线性回归模型 n Y X I 2 = + , E( ) = 0,Var( ) = (1.2.16) 中回归系数β的最小二乘解 X X X Y 1 1 ( ) ˆ − = (1.2.17) 是β的唯一最小方差线性无偏估计。 证明 从 ˆ 的表达式知 ˆ 是子样 Y 的线性函数。又 ) [( ) ] ( ) ( ) ˆ ( 1 1 E = E X X X Y = X X X E Y − − = = − X X X X 1 ( ) (1.2.18) 故 ˆ 是β的无偏估计。 ˆ 的协方差阵是 1 2 1 1 1 ˆ ( ) ( ) ) ( ) ( , ) ( ) ˆ , ˆ ( − − − − = = = X X X I X X X Cov X X X Cov Y Y X X X n L L 2 1 ( ) − = X X (1.2.19) 若 T=C′Y 是β的另一线性无偏估计,由无偏性要求,应有 E(T)=E(C′Y)=C′E(Y)=C′Xβ=β 对一切β成立,即有 C′X=Im+1 而 T 的协方差阵为 ΣT=Cov(T,T)=C′Cov (Y,Y)C=σ2 (C′C) (1.2.20) 因为 1 1 1 1 1 1 1 ( ) ( ) ( ) ( ) ( ) ( ) ( ) − − − − − − − = + − − − = + − − C C X X X X X C C X X X C C X X C C X X X X X X [ ( ) ][ ( ) ] 0 1 1 = − − − − C X X X C X X X (1.2.21) 这里矩阵≥0 表示非负定矩阵。于是 C′C≥(X′X)-1 (1.2.22) 即有 X X C C = T = − ( ) ( ) 2 1 2 ˆ (1.2.23)
由于T是任选的一个线性无偏估计,所以最小二乘估计B是B的最小方差线性无偏估计 下证唯一性。设T=CY是B的某一个最小方差线性无偏估计,则必有∑r=Σ;即 CC=(XX)-,由(1.1.21)知,C’=X)X,即T=C′Y=(xxxY=B 证毕 需要指出的是,B的LSE的最小方差性是局限在线性无偏估计类中的,如果考虑B的一 切无偏估计类,LSE就不一定是方差最小者。进一步,如果在β的有偏估计中考虑,LSE就 更不见得是方差最小了。 下面我们考虑σ2的估计。与一元情况类似,我们应该用残差平方和去构造它。记 Y=Y-Y=Y-XB=Y-X(XX-YY I-X(XX)"Xr (1.2.24) Y称为剩余向量,或残差向量。记 P=1-X(XX)X (1.2.25) 则Y=PxY。Px称为投影阵。容易验证投影阵有如下简单性质: Pr=pr, Px.Pr, PxX=0 (1.2.26) rk(Px)=tr(Px)=trL,-X(XX)"XT tr(In )-tr(XX)X) =n-tr(Xx)"XX=n-tr(mD) n-m-1 (1.2.27) 残差向量Y与LSEB是互不相关的,因为 Cov(r, B)=CoV(Pr,(xx)Xn) Py Cov(r, rI(Xx)"XI (1.2.28) P1X(X)-=0 残差Y的均值向量与协方差阵分别是 E(Y)=E(Y-BB)=HB-X(XX)-XXB=0(1.2.29) Cov(Y, Y)=P Cov(r,XPx=pro,px =o Px (1.2.30) 记残差平方和
10 由于 T 是任选的一个线性无偏估计,所以最小二乘估计 ˆ 是β的最小方差线性无偏估计。 下证唯一性。设 T = C′Y 是β的某一个最小方差线性无偏估计,则必有 T = ˆ 即 1 ( ) − CC = X X ,由(1.1.21)知,C′=(X′X) -1X′,即 T=C′Y=(X′X) -1X′Y= ˆ 。 证毕 需要指出的是,β的 LSE 的最小方差性是局限在线性无偏估计类中的,如果考虑β的一 切无偏估计类,LSE 就不一定是方差最小者。进一步,如果在β的有偏估计中考虑,LSE 就 更不见得是方差最小了。 下面我们考虑σ2 的估计。与一元情况类似,我们应该用残差平方和去构造它。记 Y = Y −Y = Y − X = Y − X X X X Y −1 ( ) ˆ ˆ ~ [I n X (X X ) X ]Y 1 = − − (1.2.24) Y ˆ 称为剩余向量,或残差向量。记 PX = I n − X X X X −1 ( ) (1.2.25) 则 Y ˆ =PXY。PX 称为投影阵。容易验证投影阵有如下简单性质: PX = PX , PX PX , PX X = 0 (1.2.26) tr( ) tr( ) tr( ) - tr( ) ) rk( ) tr( ) tr[ ( ) ] 1 1 1 1 + − − − = − = − = = = − m n X X n n X X X X n I I X X X P P I X X X X = n −m−1 (1.2.27) 残差向量 Y ˆ 与 LSE ˆ 是互不相关的,因为 ( ) 0 Cov( , )[( ) ] ) Cov( ,( ) ) ˆ , ~ Cov( 2 1 1 1 = = = = − − − P X X X P Y Y X X X Y P Y X X X Y X X X (1.2.28) 残差 Y ˆ 的均值向量与协方差阵分别是 ) ( ) 0 ˆ ) ( ~ ( 1 = − = − = − E Y E Y X X X X X X X (1.2.29) X X X nPX PX Y Y P Y X P P I 2 2 ) Cov( , ) ~ , ~ Cov( = = = (1.2.30) 记残差平方和