粒子物理与核物理实验中的 数据分析 陈少敏 清华大学 第九讲:最小二乘法
粒子物理与核物理实验中的 数据分析 陈少敏 清华大学 第九讲:最小二乘法
本讲要点 最小二乘法与最大似然法的关系 线性情况下的最小二乘估计 非线性情况下的最小二乘估计 约束情况下的最小二乘法 检验最小二乘法的拟合优度 应用最小二乘法处理分区数据 不等精度关联实验结果的并合问题 2
2 本讲要点 最小二乘法与最大似然法的关系 线性情况下的最小二乘估计 非线性情况下的最小二乘估计 约束情况下的最小二乘法 检验最小二乘法的拟合优度 应用最小二乘法处理分区数据 不等精度关联实验结果的并合问题
最小二乘法与最大似然法 假设有高斯随机变量:,=1,…,N,其平均值为 E[y,]=,=(x;0) 1.5 这里,x,,xw与[y,]=o2 已知。 为了估计参数,可以用曲线 λ,9) 0.5 拟合所有的测量点(见右图) 。 对于独立的高斯变量y,联合概率密度函数为 s0G,-1,om 2o7 求1ogL(0)的最大值等 效于求x2的最小值。 对应的对数似然函数(去掉与0无关的项)为 z(0-2少-x.07 i=1
3 最小二乘法与最大似然法 假设有高斯随机变量: yi, i=1,…, N ,其平均值为 对于独立的高斯变量 yi,联合概率密度函数为 [ ] ( ; ) E yi i i = = λ λ θ x G 2 1,..., [ ] N i i 这里,x x 与 V y = σ 已知。 ∏= ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ − − = N i i i i i y g y 1 2 2 2 2 2 ( ) exp 2 1 ( ; , ) σ λ πσ λ σ G G G 对应的对数似然函数 (去掉与 θ 无关的项 ) 为 2 2 1 1 [ ( ; ) ] lo g ( ) 2 N i i i i y x L λ θ θ = σ − = − ∑ G G 2 2 2 1 [ ( ; ) ] ( ) N i i i i y x λ θ χ θ = σ − = ∑ G G 2 lo g L (θ ) χ G 求 的最大值等 效于求 的最小值。 θ G 为了估计参数 ,可以用曲线 拟合所有的测量点(见右图)
最小二乘估计量的定义 如果y是一多维高斯变量,协方差矩阵为V,满足 80”2pm6-r-6-】 那么其对数似然函数为 oe40=-22y-:1W-,y-,a) 也就是说,我们应求下式的最小值 x2(0)=∑y-x:0IW-,[y,-(x,:0) i,i=l 它的最小值定义了最小二乘法的估计量0,即使y不是高斯变量,该定 义依然适用。(实际上,y通常是高斯的,因为中心极限定理会导出测量 误差也是高斯的。)
4 最小二乘估计量的定义 如果 yi是一多维高斯变量,协方差矩阵为V ,满足 ( ) ( ) ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ = − − − − λ λ π λ G G G G G G y V y V g y V T N 1 / 2 1/ 2 2 1 exp ( 2 ) | | 1 ( ; , ) 那么其对数似然函数为 1 1 1 lo g ( ) [ ( ; ) ] ( ) [ ( ; ) ] 2 N i i ij j j i L y θ λ θ x V y λ x θ − = = − ∑ − − G G G 也就是说,我们应求下式的最小值 2 1 , 1 ( ) [ ( ; ) ] ( ) [ ( ; ) ] N i i ij j j i j χ θ λ y x θ V y λ x θ − = = − ∑ − G G G 它的最小值定义了最小二乘法的估计量 θ ,即使 yi不是高斯变量,该定 义依然适用。 (实际上, yi 通常是高斯的,因为中心极限定理会导出测量 误差也是高斯的。 )
线性最小二乘法估计 如果(x,0)是0的线性函数,最小二乘法有一些简单的特殊性质, cx=2a,(x)9, 没有偏置,而且得到的方差 i=1 最小(高斯-马尔可夫定理)。 这里a(x)是x的任意线性独立函数。 用矩阵来表示时,令Aa(x),有 x2(0)=(-元)YV-(-元)=(5-A0)V-(-A0) 对0,求偏微分,并令结果等于零,有 VX2=-2(AV-)-AV-A0)=0 解方程得到最小二乘法的估计量 估计量0,是测量 6=(AV1A)AV≡ 量y的线性函数。 5
5 线性最小二乘法估计 这里 aj (x ) 是 x 的任意线性独立函数。 λ θ ( ; x ) θ G G 如果 是 的线性函数,最小二乘法有一些简单的特殊性质, ∑= = m j j j x a x 1 λ( ;θ ) ( ) θ G ˆ θ G 没有偏置,而且得到的方差 最小(高斯-马尔可夫定理)。 用矩阵来表示时,令 Aij = aj (xi),有 ( ) ( ) ( ) ( ) ( ) 2 1 1 χ θ λ λ θ θ G G G G G G G G G y V y y A V y A T T = − − = − − − − 对 θ i 求偏微分,并令结果等于零,有 2 ( ) 0 2 1 1 ∇ = − − = − − χ θ G G A V y A V A T T 解方程得到最小二乘法的估计量 ˆ 1 1 1 ( ) T T θ A V A A V y By − − − = ≡ G G G ˆ i i y 估计量 θ 是测量 量 的线性函数
非线性最小二乘法估计 如果(x;0)是0的非线性函数,最小二乘法不能给出参数的严格解, 需要通过迭代法求的近似解,使得下式最小 x2(0)=(少-元)V-(5-元) 如果采用牛顿法求上式的最小值,第+1次迭代公式可采用 G(nD=0-G-(G()g() G 8'x2 81= a0, a0,a0 Io-G(m 迭代终止判据: →5w-i-∑@-0y<a→百=百w 是一个给定的小数。 6
6 非线性最小二乘法估计 λ θ ( ; x ) θ θ G G G 如果 是 的非线性函数,最小二乘法不能给出参数的严格解, 需要通过迭代法求 的近似解,使得下式最小 2 1 ( ) ( ) ( ) T χ θ λ y V y λ − = − − G G G G G 如果采用牛顿法求上式的最小值,第 n+1次迭代公式可采用 ( ) ( ) ( 1) ( ) 1 ( ) ( ) 2 2 2 ˆ ˆ ˆ ˆ ˆ ˆ ( ) ( ) n n n n n n i ij i i j G g g G θ θ θ θ θ θ θ θ χ χ θ θ θ + − = = = − ∂ ∂ = = ∂ ∂ ∂ G G G G G G G G i , 1/ 2 ( 1) ( ) ( 1) ( ) 2 1 ˆ ˆ ˆ ˆ ( ) n n n n i i i θ θ θ θ ε ε + + = ⎡ ⎤ − = − < ⎢ ⎥ ⎣ ⎦ ∑ G G 迭代终止判据: 是一个给定的小数。 ˆ ˆ( 1 n ) θ θ + = G G
最小二乘估计量的方差 协方差矩阵元U,=cov[©,0,]在线性情况下的误差传递可以写为 6=(AV-A)AV-=By U=BVB'=(AV-A) 等效地,可以利用下式来计算 =立a,-wa,x) 如果y是高斯变量时, 其与RCF边界一致。 7
7 最小二乘估计量的方差 ˆ ˆ co v[ , ] 协方差矩阵元 Uij = θ θi j 在线性情况下的误差传递可以写为 1 1 ( ) − − U = BVB = A V A T T 等效地,可以利用下式来计算 2 2 1 1 , ˆ 1 ( ) ( ) ( ) ( ) 2 N ij i k kl j l k l i j U a x V a x θ θ χ θ θ − − = ⎡ ⎤ ∂ = = ⎢ ⎥ ⎢ ⎥ ∂ ∂ ⎣ ⎦ G ∑ G 如果 yi是高斯变量时, 其与RCF边界一致。 ˆ 1 1 1 ( ) T T θ A V A A V y By − − − = ≡ G G G
最小二乘估计量的方差(续) 对于(x,0)是参数的线性函数情况下,x(0)是二次型的 网--2 (0,-00,-8,) ia-a 方差从正切平面到椭圆 x2(0)=x2(a)+1=x2m+1 如果(x;)不是的线性函数,上述式子会有偏差,但仍不失为较好的近似。 可以把区间x(⑥)≤X+1看作“置信区间”, 给出了包含真值B的可能性。 注意:上式并不依赖于y是否为高斯变量,但无论何种情况,都要计算 协方差矩阵V,=cov[y,y,]: 8
8 最小二乘估计量的方差 ( 续 ) 2 λ θ ( ; x ) χ (θ ) G G 对于 是参数的线性函数情况下, 是二次型的 ) ˆ )( ˆ ( 2 1 ) ˆ ( ) ( ˆ , 1 2 2 2 2 i i j j m i j i j θ θ θ θ θ θ χ χ θ χ θ θ θ − − ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ ∂ ∂ ∂ = + = = ∑ G G G G 方差从正切平面到椭圆 ) 1 1 ˆ ( ) ( 2 min 2 2 χ θ = χ θ + = χ + G G λ θ ( ; x ) θ G G 如果 不是 的线性函数,上述式子会有偏差,但仍不失为较好的近似。 2 2 mi n χ θ( ) ≤ + χ 1 θ G G 可以把区间 看作“置信区间”,给出了包含真值 的可能性。 cov[ , ] i ij i j y V y = y 上式并不依赖于 是否为高斯变量,但无论何种情况,都要计算 协方差矩阵 注意:
多项式的最小二乘法拟合 用一个多项式来拟合右图 6 th order.2=45.5 1order.2=3.99 2x0…0)=20,x 4h order.2=0.0 i=0 第0阶(一个参数) 例如: 第1阶(两个参数) 第4阶(五个参数) 0 5 >对于单参数拟合情况(例如上图的横线): 47 (a) 0。=2.66±0.13 46.5 =45.5 46 标准误差oa是根据x2(⑨±o6)=Xam+1 45.5 来确定的。 2.5 2.6 2.7 2.8 29)
9 多项式的最小二乘法拟合 用一个多项式来拟合右图 ∑= = m j j m j x x 0 0 λ( ;θ ,..., θ ) θ 第 0 阶 (一个参数 ) 第 1 阶 (两个参数 ) 第 4 阶 (五个参数 ) ¾对于单参数拟合情况 (例如上图的横线): 45.5 2.66 0.13 ˆ 2 min 0 = = ± χ θ 0 0 2 2 ˆ ˆ 0 min ˆ () 1 θ θ 标准误差 σ χ 是根据 θ ± σ = + χ 来确定的。 例如:
多项式的最小二乘法拟合(续) >对于双参数拟合的情形(有非零斜率的直线) (b) 0=0.93±0.30;0=0.68±0.10 X2=+1 0.8 cov0,0]=-0.028,r=p=-0.90, X2=3.99 0.6 切线给出0a,0a° LS estimate 0.4 .4 0.6 0.8 1.2 椭圆的倾角给出相关系数(与最大似然法相同) 60 虽然表面上可以通过变换(日。,0)→(7,7)使得cov(7o,7)=0,从而得到不关联的 估计值,但是对新参数的理解也许并不容易。 >对于五个参量拟合的情形(有非零斜率的直线) √曲线通过所有点; √X2min=0,参数的数目=数据点的数目。 x2min值的大小反映了数据 与假设之间的符合程度。 可以用来检验拟合优度。 10
10 多项式的最小二乘法拟合 ( 续 ) ¾对于双参数拟合的情形 (有非零斜率的直线 ) 椭圆的倾角给出相关系数 (与最大似然法相同 )。 m 0 1 0 1 2 ˆ ˆ 0.93 0.30; 0.68 0.10; ˆ ˆ c ov[ , ] 0.0 28; ˆ 0.9 0; 3.99. r θ θ θ θ ρ χ = ± = ± = − = = − = 0 1 ˆ ˆ , θ θ 切线给出 σ σ 。 0 1 0 1 0 1 ˆ ˆ 虽然表面上可以通过变换( , θ θ ) → = (η η ˆ ˆ , )使得 c o v (η η ˆ ˆ , ) 0,从而得到不关联的 估计值,但是对新参数的理解也许并不容易。 ¾对于五个参量拟合的情形 (有非零斜率的直线 ) χ 2min值的大小反映了数据 与假设之间的符合程度。 可以用来检验拟合优度。 9曲线通过所有点; 9 χ 2min =0,参数的数目 =数据点的数目