
线性贝叶斯估计问题
线性贝叶斯估计问题

贝叶斯估计总是后验概率最小均方差估计(MMSE)密度的均值(后验均值)最大后验概率估计(MAP))总是后验概率密度的峰值(后验峰值)当后验概率密度函数为对称于其后验均值的单峰密度函数时,MMSE估计或MAP估计是众多类型代价函数的最佳估计量
贝叶斯估计 最小均方差估计(MMSE)总是后验概率 密度的均值(后验均值) 最大后验概率估计(MAP)总是后验概 率密度的峰值(后验峰值) 当后验概率密度函数为对称于其后验均 值的单峰密度函数时,MMSE估计或MAP 估计是众多类型代价函数的最佳估计量

估计量的不变性由于代价函数的选择往往带有某些主观的武断性,如能证明在一定条件下最佳估计量与所选定的代价函数无关是很有意义的。性质1:若代价函数C(c)是对称的凸U函数,且后验概率密度函数p(0x)对称于其后验均值,即1)C()=C(-ε)(对称性)2)C(b+(1-b)ε,)≤bC()+(1-b)C(,)(凸性)0≤b≤1def3) p(gl )=p(-olx) (对称性) β=0-MMSE =-E(| x)在这种情况下,使上述这一类代价函数最小的最佳估计é与MA或者MMSs一致。若C(s)是严格凸U函数,则最佳估计是惟一的,且等于?MAp或MMSE?
估计量的不变性 由于代价函数的选择往往带有某些主观的武断性,如能证明 由于代价函数的选择往往带有某些主观的武断性,如能证明 在一定条件下最佳估计量与所选定的代价函数无关是很有意 在一定条件下最佳估计量与所选定的代价函数无关是很有意 义的。 1 ( ) ˆ (|) ˆ ˆ ˆ MMSE MAP MMSE C E x ε θ ε ε ε εε ε ϕ ϕ ϕ θθ θ θ θ θ θ ε ≤ ≤ ≤ − =− 1 21 2 def 性质 :若代价函数 是对称的凸U函数,且后验概率密度函数 p( |x)对称于其后验均值,即 1)C( )=C(- )(对称性) 2) C(b +(1-b) ) bC( )+(1-b)C( )(凸性)0 b 1 3) p( |x)=p(- |x)(对称性) = 在这种情况下,使上述这一类代价函数最小的最佳估计 与 或者 一致。若C( ˆ ˆ ˆ MAP MMSE θ θ θ )是严格凸U函数,则最佳估计 是惟一的, 且等于 或

估计量的不变性性质2:若代价函数C(c)是对称的非减函数,即1) C(c)=C(-ε)(对称性)≥0≥0d2)≤0≤0de同时后验概率密度是对称于条件均值的单峰函数,即def3)p(μlx)=p(-lx)(对称性)β=-MMSE=0-0MAF且满足条件44) lim C(p) p(βl x)=00则使这一类代价函数最小的最佳估计与MMSe或者MAP一致。估计量的不变性告诉我们:对相当广泛的一类代价函数,只要性质1和2的条件得以满足,则最小均方误差估计或最大后验概率估计总是使代价最小的最佳估计
估计量的不变性 2 ( ) 0 0 ( ) 0 0 ˆ ˆ lim ˆˆ ˆ MMSE MAP MMSE MAP C C C ϕ ε ε ε ε ε ε ε ϕ ϕ ϕ θθ θθ ϕ ϕ θθ θ →∞ ⎧≥ ≥ ⎨ ⎩≤ ≤ − =− def 性质 :若代价函数 是对称的非减函数,即 1)C( )=C(- )(对称性) d 2) d 同时后验概率密度是对称于条件均值的单峰函数,即 3) p( |x)=p(- |x)(对称性) = 且满足条件4 4) ( )p( |x)=0 则使这一类代价函数最小的最佳估计 与 或者 一致。 估计量的不变性告诉我们:对相当广泛的一类代价函数,只要性质 1 和 2的条件得 以满足,则最小均方误差估计或最大后验概率估计总是使代价最小的最佳估计

线性贝叶斯估计量的引出最佳贝叶斯估计量是很难用闭合形式确定的,并且在实践中因其计算量太大而难以实现■MMSE估计量含有多重积分;MAP估计量含有多维最大值求解问题在不能做出高斯假定的时候,就必须利用另外的方法:选择保留MMSE准则,但是限定估计量是线性的,则估计量的显式表示可以很容易地根据PDF的前两阶矩来确定一实践中的维纳滤波器
线性贝叶斯估计量的引出 最佳贝叶斯估计量是很难用闭合形式确定的, 并且在实践中因其计算量太大而难以实现 MMSE估计量含有多重积分; MAP估计量含有多维最大值求解问题 在不能做出高斯假定的时候,就必须利用另外 的方法:选择保留MMSE准则,但是限定估计 准则,但是限定估计 量是线性的,则估计量的显式表示可以很容易 地根据PDF的前两阶矩来确定-实践中的维纳 滤波器

线性贝叶斯估计器由数据集x(O),x(),..,x(N-1))估计标量参数e,e是随机变量的一个实现,如果将估计限制在一个线性估计器:N-1-Zan·x(n)+an(5)n=0选择系数集(an,n=O,...N,使BayesianMSE最小,即:imse(0))=E[(0 -0)"]= [(@-0)"p(x,0)dxdemin(an)先求解anN-1a-2EA-Zanr(n)-antan.x(n)HanoaNn=0得N-1an=E(0)-a,E(x(n)7=0
线性贝叶斯估计器

线性贝叶斯估计器将a~表达式代入Bmse()中将a和a代入(5):[N-1N-1-Zan x(n)+anBmse(0)= EZan(x(n) -E(x(n) -(β -E(0)Ln=0n=0N-1N-= E(a(x - E(x)-(β- E()Panx(n)+E(0)-a,E(x(n)n=0n=0=aTCa-aTCxe-Ce'a+Cee=aT (x-E(x)+E(0)为使其最小,令:= E(0)+C ·C(x - E(x)Bmse(0)2=2Cx-a-2Cxeaa将a代入Bmse表达式,得最小Bmse为得:a=C·CxBmse(@) = Cee -Ce ·Cl ·Cxe
线性贝叶斯估计器

线性贝叶斯估计器若有E()=0,E(x(n))=0,则上面各式简化为:[a=CCxe0=-Cte.Cd.x(6)1*[Bmse() =Coo -Cte ·C ·这组关系式可以直接联系到Wiener滤波问题·线性Bayesian估计与高斯分布下的一般Bayesian估计是一致的,在高斯分布下,线性估计可达最优。注:在以上推导和讨论中,Cxe=E[(x - E(x)(@ - E(0)](NX1矩阵或列矢量)Ce =E[(0 -E(0) (x- E(x)T(1XN矩阵或行矢量)"TOxe
线性贝叶斯估计器

量LMMSE估计量贝叶斯高斯一马尔可夫定理:如果观测数据x可以使用贝叶斯线性模型表示一x=He+w其中x是一个N×1的数据矢量,H是一个已知的N×p矩阵,0是一个p×1的的随机矢量,它的现实是要估计的,其均值和协方差分别为E(①)和Ce;w是一个N×1的噪声矢量,均值和协方差分别为零和C,且与0是不相关的(另外,联合PDFp(w,①)是任意的)。那么的MMSE估计量为=E(0)+CHT(HCβHT +C,)-'(x-HE(0)=E(0) +(C +H'C_"H)"H'C='(x- HE(0))估计量的性能是通过误差=θ一0来度量的,误差的均值为零,协方差矩阵为C,=Ex.(csT)=Co-CoHT(HCoHT+C,)-"HCoe=(C + H'C,'H)误差协方差矩阵也是最小的MSE矩阵M,其对角线上的元素产生最小贝叶斯MSE,即M。=[C],=Bmse(
矢量LMMSE估计量 ˆ 1 ( )( w T T w x C MMSE HH H C xH θθ θθ θθ θ θ θ θ θ θ θ θ θ − × × × × + +− 如果观测数据 可以使用贝叶斯线性模型表示-x=H +w 其中x是一个N 1的数据矢量,H是一个已知的N p矩阵,是一个 p 1的的随机矢量,它的现实是要估计的,其均值和协方差分别为E( ) 和C ;w是一个N 1的噪声矢量,均值和协方差分别为零和 ,且与 是不 相关的(另外,联合PDFp(w, )是任意的)。那么 的 估计量为 =E( ) C C E( ( ) ( ) ( ) [ ] 1 11 1 1 , 1 1 1 ˆ ˆ ) ˆ () ( ) , ˆ ( ) T T w w T TT x w T w i ii ii C HC H HC x H C E HH H C H C HC H MSE M Bmse θθ ε θ θθ θθ θθ θθ θθ θ θ ε θ θ εθθ εε θ − −− − − − − − + − = =− + = + ⎡ ⎤ = ⎣ ⎦ ) =E( )+ E( ) 估计量的性能是通过误差 = - 来度量的,误差的均值为零,协方差 矩阵为 C C C C 误差协方差矩阵也是最小的 矩阵 其对角线上的元素产生最小 贝叶斯MSE,即 M C = 贝叶斯高斯-马尔可夫定理: 贝叶斯高斯-马尔可夫定理:

贝叶斯线性模型贝叶斯一般线性模型为x=HO+W其中x是一个N×1的数据量,H是一个已知的N×p矩阵,6是一个p×1的具有先验概率PDFN(ue,C。)的随机矢量,w是一个N×1的噪声矢量,具有PDFN(O,C.),且与无关。它和经典的一般线性模型的区别在于,将0看作为一个具有高斯先验PDF的随机变量。如果观测数据x满足上面的模型,那么后验PDFp(αx)是高斯分布的,它的均值和协方差分别为E(0Ix)=μ。 +C,H'(HC,H +C,)'(x-Hμo)Cox =C。-C,H'(HC,HT +C,)-"HC为确保HC,HT+C的可逆性,那么H不必是满秩的
贝叶斯线性模型 0 ( | w H w N p p N C w N N C p E θ θ θ θ μ θ θ θ θ × × × × 贝叶斯一般线性模型为 x= + 其中x是一个N 1的数据矢量,H是一个已知的 矩阵, 是一个 1的具有先验概率PDF ( , )的随机矢量, 是一个 1的噪声矢量,具有PDF ( , ),且与 无关。它和经典的一 般线性模型的区别在于,将 看作为一个具有高斯先验PDF的随 机变量。 如果观测数据x满足上面的模型,那么后验PDF ( |x)是高斯 分布的,它的均值和协方差分别为 x 1 1 | ) ( )( ) ( ) T T w T T w T w C H HC H C H C C C H HC H C HC HC H C H θθ θ θ θ θθ θ θ θ μ μ − − =+ + − =− + + x x 为确保 的可逆性,那么 不必是满秩的