第七章 Bayes,方法和统计决策理论* §7.1引言和若干基本概念 一、引言 我们知道数理统计中的任务是要通过样本推断总体.如果我们已经知道总体的 形式与分布族,这就给了我们一种信息,称为总体信息.例如我们知道样本来自于 正态总体,它暗示我们很多信息:如它的密度函数是倒立的钟形曲线,它的所有阶 矩存在,任何事件的概率都可以通过查表求出.由正态总体还可导出与之相关的分 布X2,t,F等.因此总体的信息是很重要的,但是获得总体的信息是要付出代价的. 例如在工业可靠性问题中,我们要想获得电子器件的寿命分布,要利用成千上万的 元器,做大量的实验,再进行统计分析从而导出其分布,要费钱费力费时 另外一种信息是样本信息,即从总体中抽取的样本提供给我们的信息.这是最 “鲜活”的信息.我们希望样本越多越好,我们希望通过把样本加工、整理成统计量, 对总体的分布或对总体的某些数字特征作出统计推断.没有样本就没有统计推断 这是任何一种统计推断都需要有的信息 基于上述两种信息进行统计推断的方法和理论成为经典(古典)统计学.它的基 本观点是:把样本看成来自有一定概率分布的总体,所研究的对象是总体.从19世 纪至20世纪中,R.A.Fisher,K.Pearson,J.Neyman等人的杰出工作创立了经典统 计学.直到20世纪五十年代这个学派占据了主导地位.经典统计学在自然科学和社 会科学中的各个领域得到发展,但也暴露出它的一些缺点,导致了新的统计学的产 生 第三种信息称为先验信息,就是在抽样之前,有关统计问题中未知参数的一些 信息.一般先验信息来自经验和历史资料.下面两例说明先验信息存在且被人们利 用 例7.1.1英国统计学家L.J.Savage(1961)提出一个令人信服的例子说明先验 信息有时是很重要的,且看下面两试验: (1)一位常饮牛奶和茶的女士说她能辨别先倒进杯子里的是茶还是牛奶.对此 做了10次试验她都说对了. (2)一位音乐家说他能够从一页乐谱辨别是海顿(Haydn)还是莫扎特(Mozart)的 作品,在10次试验中他都说对了. 在上面两个试验中,如果认为试验者是猜对的,每次成功概率为05,则10次都 猜中的概率为(0.5)10=2-10=0.0009766,这是一个很小的概率,几乎不可能发生. 故每次猜对概率0.5的假设被否定.他们每次说对的概率比0.5要大得多,这不能认 为是猜测,而是经验帮了忙.可见经验(先验信息)在推断中不可忽视,应当加以利 用 例7.1.2某工厂生产一种产品,每日抽查一部分产品以检查废品率0,经过一
1‘Ÿ Bayesê{⁄⁄O˚¸nÿ* ➜7.1 ⁄Û⁄eZƒVg ò!⁄Û ·ÇÍn⁄O•?÷¥áœL̉oN. XJ·ÇƲoN /™Ü©Ÿx, ˘“â ·Çò´&E, °èoN&E. ~X·Ç5gu oN, ßV´·ÇÈı&E: Xßó›ºÍ¥·®/Ç, ߧk ›3, ?¤ØáV«—屜LL¶—. doNÑå—ÜÉÉ'© Ÿχ 2 , t, F. œdoN&E¥Èá, ¥ºoN&E¥áG—ìd. ~X3ÛíåÇ5ØK•, ·Çáéº>fÏáÆ·©Ÿ, á|^§Z˛ Ï, âå˛¢, 2?1⁄O©¤l —Ÿ©Ÿ, á§a§Â§û. , ò´&E¥&E,=loN•ƒJ¯â·Ç&E. ˘¥Å /m¹0&E. ·ÇF"ı–, ·ÇF"œLr\Û!n§⁄O˛, ÈoN©Ÿ½ÈoN, ÍiAä—⁄Ỏ. vk“vk⁄Ỏ, ˘¥?¤ò´⁄Ỏ—Iák&E. ƒu˛„¸´&E?1⁄Ỏê{⁄nÿ§è²;(;) ⁄OÆ. ߃ *:¥: rw§5gkò½V«©ŸoN, §ÔƒÈñ¥oN. l19 Vñ20V•, R.A. Fisher, K. Pearson, J. Neyman<#—ÛäM· ²;⁄ OÆ. Ü20V õcì˘áÆ”‚ Ã/†. ²;⁄OÆ3g,âÆ⁄ ¨âÆ•àá+çu–, è³—ßò ":, ó #⁄OÆ ). 1n´&E°èk&E, “¥3ƒÉc, k'⁄OØK•ôÎÍò &E. òÑk&E5g²⁄{§]. e°¸~`²k&E3Ö<Ç| ^: ~7.1.1 =I⁄OÆ[L.J. Savage (1961)J—òá-<&—~f`²k &Ekû¥Èá, Öwe°¸£: (1) ò†~ÿ⁄E⁄¨`®UEOk?fp¥Ñ¥⁄E. Èd â 10g£®—`È . (2) ò†—W[`¶U lòêWÃEO¥°Ó(Haydn)Ñ¥#SA(Mozart) ä¨, 310g£•¶—`È . 3˛°¸á£•, XJ@裈¥flÈ, zg§ıV«è0.5, K10g— fl•V«è(0.5)10 = 2−10 = 0.0009766,˘¥òáÈV«, AÿåUu). zgflÈV«0.5bƒ½. ¶Çzg`ÈV«'0.5áåı, ˘ÿU@ è¥flˇ, ¥²ê a. åѲ(k&E) 3̉•ÿå¿, A\±| ^. ~7.1.2 ,ÛÇ)ò´¨, zFƒò‹©¨±u¢¨«θ,²Lò
CHAPTER7.BAYES方法和统计决策理论* 段时间后获得大量数据,对做出估计.就当日被抽查的那批产品的废品率0只是一 个固定的数,并无随机性可言,但逐日的废品率受随机因素的影响多少会有些波 动.从长期看,将“一日废品率0”视为随机变量,而要估计的某日的废品率是这个 随机变量的一个观察值.根据历史资料可构造一个分布 P(0=i/n)=Ti,i=0,1,2,…,n 这个对先验信息进行整理加工而得到的分布称为先验分布.先验分布总结了该厂过 去产品质量情况.如果这个分布的概率大多集中在0=0附近,那该产品可以认为 是“信得过产品”.假如以后多次抽样与历史资料提供的先验分布一致,使用单位 就可以做出“免检产品”的决定.或者每月抽一、两次就足够了.省去大量人力和 物力. 基于上述三种信息进行统计推断的方法和理论称为Bayes?统计学.它与经典统 计学的主要区别在于是否利用先验信息.在使用样本上也是存在差别的.Bayes方 法重视已出现的样本,对尚未发生的样本值不予考虑.Bay©s学派重视先验信息的收 集、挖掘和加工,使之形成先验分布,参加到统计推断中来,以提高统计推断的效 果.忽视先验分布的利用,有时是一种浪费 二、先验分布与后验分布 定义7.1.1(先验分布)参数空间日上的任一概率分布都称为先验分布(prior distribution). 先验分布有不同的类型,比较重要的两个概念是无信息先验和共轭先验分布 另外一个问题是如何确定和选择先验分布.我们将在下一节介绍. 先验分布H()(如有密度,以π(0)记密度函数)是在抽取样本X之前对参数9可 能取值的认识.后验分布H(z)(如有密度,以π(x)记其后验密度函数)是反映 人们在获取样本后对的新认识.这是由于样本X也包含的信息,因此一旦获得样 本X后,人们对的认识发生了变化和调整.所以后验分布H(z)可以看作是人们用 总体信息和样本信息(综合称为抽样信息)对先验分布H()作调整的结果。 为叙述方便计,本章中常假定有关的先验密度函数π()和后验密度函数π(x)皆 存在 定义7.l.2(后验分布)在获得样本X后,的后验分布(posterior distribution) 就是给定X=x条件下的条件分布,后验密度π(z)有下列计算公式: n(0)= f(x,)_f(x0)π(0 fm(c)Jef(xl9)π(0)d0 (7.1.1) (注:在离散情形下它就转变成Bayes公式)其中 f(x,θ)=f(a0)π(0) 为X和9的联合密度,而 fm()= f(xl9)π(0)d0
2 CHAPTER 7. BAYESê{⁄⁄O˚¸nÿ* „ûmºå˛Í‚, Èθâ—O. “Fƒ@1¨¢¨«θê¥ò á½Í, øÃëÅ5åÛ, ÅF¢¨«θ…ëÅœÉKèı¨k Å ƒ. lœw, Ú/òF¢¨«θ0¿èëÅC˛, áO,F¢¨«¥˘á ëÅC˛òá* ä. ä‚{§]åEòá©Ÿ P(θ = i/n) = πi , i = 0, 1, 2, · · · , n ˘áÈk&E?1n\Û ©Ÿ°èk©Ÿ. k©Ÿo( TÇL ¨ü˛ú¹. XJ˘á©ŸV«åı8•3θ = 0NC, @T¨å±@è ¥/&L¨0. bX±ıgƒÜ{§]J¯k©Ÿòó, ¶^¸† “å±â—/ùu¨0˚½. ½ˆzƒò!¸g“v . éå˛<Â⁄ ‘Â. ƒu˛„n´&E?1⁄Ỏê{⁄nÿ°èBayes⁄OÆ. ßܲ;⁄ OÆÃá´O3u¥ƒ|^k&E. 3¶^˛è¥3O. Bayesê {¿Æ—y, Èˇôu)äÿɃ. BayesÆ¿k&E¬ 8!˜⁄\Û, ¶É/§k©Ÿ, Î\⁄Ỏ•5, ±Jp⁄Ỏ J. ¿k©Ÿ|^, kû¥ò´L§. !k©ŸÜ©Ÿ ½¬7.1.1 (k©Ÿ) ÎÍòmΘ˛?òV«©Ÿ—°èk©Ÿ (prior distribution). k©Ÿkÿ”a., 'á¸áVg¥Ã&Ek⁄›k©Ÿ. , òáØK¥X¤(½⁄¿Jk©Ÿ. ·ÇÚ3eò!0. k©ŸH(θ) (Xkó›, ±π(θ)Pó›ºÍ) ¥3ƒXÉcÈÎÍθå Uä@£. ©ŸH(θ|x) (Xkó›, ±π(θ|x)PŸó›ºÍ) ¥áN <Ç3ºÈθ#@£. ˘¥duXèù¹θ&E, œdòº X, <ÇÈθ@£u) Cz⁄N. §±©ŸH(θ|x)å±wä¥<Ç^ oN&E⁄&E(n‹°èƒ&E) Èk©ŸH(θ) äN(J. èQ„êBO, Ÿ•~b½k'kó›ºÍπ(θ)⁄ó›ºÍπ(θ|x) 3. ½¬7.1.2 (©Ÿ) 3ºX, θ©Ÿ (posterior distribution) “¥â½X=x^áeθ^á©Ÿ, ó› π(θ|x)keOé˙™: π(θ|x) = f(x, θ) fm(x) = f(x|θ)π(θ) R Θ f(x|θ)π(θ)dθ (7.1.1) (5: 3l—ú/eß“=C§Bayes˙™) Ÿ• f(x, θ) = f(x|θ)π(θ) èX⁄θÈ‹ó›, fm(x) = Z Θ f(x|θ)π(θ)dθ
72.先验分布的确定* 3 为X的边缘密度! 从Bayes学派的观点看获取后验分布后,对参数0的任何统计推断(估计、检验 等)必需基于且只能基于的后验分. S7.2先验分布的确定* 一、主观概率 1.引言和定义 在经典的统计学中概率是用公理化定义的,即用非负性、正则性和可加性三条 公理定义的.概率的确定有两种方法:一是古典方法(包括几何方法);另一种是频 率方法.实际中大量使用的是频率方法,如掷均匀硬币正面出现的概率是1/2,是通 过大量重复抛掷硬币试验,出现正面次数的频率在1/2附近.故经典统计研究的对象 是能大量重复的随机现象,不是这类随机现象就不能用频率方法去确定有关事件的 概率。 在诸多社会现象、经济领域和决策问题中,“事件”常常是不能大量重复的.如 气象预报“明天是晴天的概率为0.8”,就不能用频率去解释,因为天气随时间变化 而变化,不可重复.又如国家统计局预测“2003年失业率0”是3-5%(0可以认为是随 机变量),这一事件也是不可重复的,因为不同年份的经济形势是不一样的.一位投 资者认为明年“某种指定的股票行情上涨的可能为8%,”这一事件也是不可重复的. 因此主观概率的创立,使我们在频率解释不能适用的情形也能讨论概率.从这个意 义上说,主观概率至少是确定概率的频率方法和古典方法的补充, 定义7.2.1主观概率(subjective probability)是人们根据经验对事件发生机会 的个人信念 如对一场足球胜负的打赌,对明天是否下雨的估计,对股票市场行情明天是升 是降的估计等都是采用主观概率方法.主观概率提出以来,使用的人越来越多,特 别在社会、经济领域和决策分析中较为广泛使用.因为那里遇到的随机现象大多是 不可重复的,无法用频率方法去确定概率 2.确定主观概率的方法 (1)对一些事件进行对比,确定相对似然性是确定主观概率的最简单办法. 例如,某工厂已设计好一种新玩具,决策者要决定是否投产,需要评估新玩具 畅销的概率是多少.根据新玩具的特点,和多年经验认为畅销(A)是不畅销(④的可 能性的2倍,即P(A)=2/3,P(A④=1/3,由此决定生产. (2)利用专家意见来确定主观概率的方法是常用的, 例如,有一项带有风险的生意,欲估计成功的概率.为此决策者采访这方面的 专家,向专家请教这生意成功的可能性有多大.专家回答大约0.6(可以请教几位专 家用其平均值代替).如果决策者对专家比较了解,认为他的估计往往偏保守,决策 者可以修正这一估计,认为成功的概率为0.7,即P(A)=0.7,这就是主观概率
7.2. k©Ÿ(½* 3 èX>ó›. lBayesÆ*:wº©Ÿ, ÈÎÍθ?¤⁄Ỏ(O!u )7IƒuÖêUƒuθ©. ➜7.2 k©Ÿ(½* ò!Ã*V« 1. ⁄Û⁄½¬ 3²;⁄OÆ•V«¥^˙nz½¬, =^öK5!K5⁄å\5n^ ˙n½¬. V«(½k¸´ê{: ò¥;ê{(ù)A¤ê{) ; ,ò´¥™ «ê{. ¢S•å˛¶^¥™«ê{, Xï˛!M1°—yV«¥1/2,¥œ Lå˛EïM1£, —y°gÍ™«31/2NC. ²;⁄OÔƒÈñ ¥Uå˛EëÅyñ, ÿ¥˘aëÅyñ“ÿU^™«ê{(½k'Øá V«. 3Ãı¨yñ!²L+ç⁄˚¸ØK•,/Øá0~~¥ÿUå˛E. X Ìñ˝/²U¥öUV«è0.80, “ÿU^™«)º, œèUÌëûmCz Cz,ÿåE. qXI[⁄O¤˝ˇ/2003cîí«θ0¥3-5% (θå±@è¥ë ÅC˛),˘òØáè¥ÿåE, œèÿ”c°²L/³¥ÿò. ò†› ]ˆ@è²c/,´ç½¶1ú˛fiåUè8%,0˘òØáè¥ÿåE. œdÃ*V«M·, ¶·Ç3™«)ºÿU·^ú/èU?ÿV«. l˘áø ¬˛`, Ã*V«ñ¥(½V«™«ê{⁄;ê{÷ø. ½¬7.2.1 Ã*V« (subjective probability)¥<Ç䂲ÈØáu)Ũ á<&g. XÈò|v•ëKãŸ, ȲU¥ƒeÖO, ȶ½|1ú²U¥, ¥¸O—¥Ê^Ã*V«ê{. Ã*V«J—±5, ¶^<5ı, A O3¨!²L+ç⁄˚¸©¤•è2ç¶^. œè@pëëÅyñåı¥ ÿåE, Ã{^™«ê{(½V«. 2. (½Ã*V«ê{ (1) Èò Øá?1È', (½ÉÈq,5¥(½Ã*V«Å{¸ç{. ~X, ,ÛÇÆO–ò´# ‰, ˚¸ˆá˚½¥ƒ›, Iáµ# ‰ ÑùV«¥ı. ä‚# ‰A:, ⁄ıc²@èÑù(A)¥ÿÑù(A)å U52, =P(A) = 2/3, P(A) = 1/3,dd˚½). (2) |^;[øÑ5(½Ã*V«ê{¥~^. ~X, kòëëkºx)ø, ñO§ıV«. èd˚¸ˆÊñ˘ê° ;[, ï;[û˘)ø§ıåU5kıå. ;[£âå0.6 (å±ûA†; [^Ÿ²˛äìO) . XJ˚¸ˆÈ;[' ), @è¶O †Å, ˚¸ ˆå±?˘òO, @è§ıV«è0.7,=P(A) = 0.7,˘“¥Ã*V«.
CHAPTER7.BAYES方法和统计决策理论* (3)利用历史资料,做一些对比修正,确定主观概率」 例如,某公司经营玩具,现设计一种新式玩具将投放市场,要估计未来市场销 售情况.经理查阅了本公司生产的37种玩具的销售记录,得到销售状态如下:A1:畅 销,A2:一般,A3:滞销,分别有29,6,2种,于是得到销售状态的概率为 P(A1)=29/37=0.784,P(A2)=6/37=0.162, P(A3)=2/37=0.054. 考虑到新玩具不仅外形新颖而且开发儿童智力,认为它更畅销一些,故对上述概率 作了修正P(A1)=0.85,P(A2)=0.14,P(A3)=0.01作为该产品畅销、一般和滞 销的概率 二、客观法一利用先验信息确定先验分布 在Bavs方法中关键的一步是如何确定先验分布.当参数0是离散时,即参数空 间日为有限可列个点时,可对日中每个点确定一个主观概率,这就是前面所介绍的 当参数0是连续随机变量时,即日为实轴或其上的某个区间时,构造一个先验密 度就有些困难了.当的先验信息足够多时,下面的一些方法可以使用. 1.直方图方法 (1)当日为实轴上的区间时,先把日分成一些小区间,通常等长的子区间, (2)在每个小区间上决定主观概率或按历史数据算出频率】 (3)绘制直方图,纵坐标为主观概率或频率/区间长] (4)在直方图上画一光滑曲线,使下方与直方图面积相等.此曲线即为先验密 度π(©)(即曲线与横轴形成的曲边梯形的面积为1) 例7.2.1云南某药店销售云南三七,记录了100天的销售额,每天销售最多35kg, 最少是不超过5kg,数据见下表.要寻求每周平均销售量的概率分布, 表7.2.1每周平均销售量统计表 销售量(kg) [0,5(5,10](10,15)(15,20](20,25(25,30](30,35 天数 5 26 33 22 10 1 频率 0.05 0.26 0.33 0.22 0.10 0.03 0.01 解 利用此直方图来确定的概率分布.按下述步骤: (1)把参数空间(0,35)分成7个小区间,每个小区间长为5个单位(两). (2)在每个小区间上依据历史数据确定频率(表7.2.1已给出) (3)绘制频率直方图,纵坐标为”频率/5” (4)在直方图上画一光滑曲线,使下方与直方图面积相等.此曲线即为先验密 度π(0),见图7.2.1. 利用此直方图可以计算有关的概率,例如:P(20≤0≤21)=1×π(20.5)=0.03 2.相对似然法
4 CHAPTER 7. BAYESê{⁄⁄O˚¸nÿ* (3) |^{§], âò È'?, (½Ã*V«. ~X, ,˙i²E ‰, yOò´#™ ‰Ú›ò½|, áOô5½|ù »ú¹. ²n ˙i)37´ ‰ù»P¹, ù»GXe: A1 :Ñ ù, A2 :òÑ, A3 :¢ù, ©Ok29, 6, 2´, u¥ù»GV«è P(A1) = 29/37 = 0.784, P(A2) = 6/37 = 0.162, P(A3) = 2/37 = 0.054. ƒ# ‰ÿ= /#L Ömu÷úÂ, @èßçÑùò , È˛„V« ä ?P(A1) = 0.85, P(A2) = 0.14, P(A3) = 0.01 äèT¨Ñù!òÑ⁄¢ ùV«. !ê*{®|^k&E(½k©Ÿ 3Bayesê{•'Öò⁄¥X¤(½k©Ÿ, ÎÍθ¥l—û, =ÎÍò mΘèkÅåá:û, åÈΘ•zá:(½òáÃ*V«, ˘“¥c°§0. ÎÍθ¥ÎYëÅC˛û, =Θ袶½Ÿ˛,á´mû, Eòákó ›“k (J . θk&Ev ıû, e°ò ê{屶^. 1. Üê„ê{ (1) Θ袶˛´mû, krΘ©§ò ´m, œ~f´m. (2) 3zá´m˛˚½Ã*V«½U{§Í‚é—™«. (3) ±õÜê„, pãIèÃ*V«½[™«/´m] (4) 3Üê„˛xò1wÇ, ¶eêÜÜê„°»É. dÇ=èkó ›π(θ) (=ÇÜÓ¶/§>F/°»è1) ~7.2.1 H,ÜAù»Hn‘, P¹ 100Uù», zUù»Åı35kg, Å¥ÿáL5kg,Í‚ÑeL. ᜶z±²˛ù»˛θV«©Ÿ. L7.2.1 z±²˛ù»˛⁄OL ù»˛(kg) [0,5] (5,10] (10,15] (15,20] (20,25] (25,30] (30,35] U Í 5 26 33 22 10 3 1 ™ « 0.05 0.26 0.33 0.22 0.10 0.03 0.01 ) |^dÜê„5(½θV«©Ÿ. Ue„⁄½: (1) rÎÍòm(0, 35)©§7á´m, zá´mè5Ḇ(¸) . (2) 3zá´m˛ù‚{§Í‚(½™«(L7.2.1Æâ—) . (3) ±õ™«Üê„, pãIè”™«/5”. (4) 3Üê„˛xò1wÇ, ¶eêÜÜê„°»É. dÇ=èkó ›π(θ), Ñ„7.2.1. |^dÜê„å±Oék'V«, ~X: P(20 ≤ θ ≤ 21) = 1×π(20.5) = 0.03 . 2. ÉÈq,{
72.先验分布的确定* 5 个频率5 0.06 0.05 0.04 0.03 0.02 0.01 051015202530350 图7.2.1周平均销售量的直方图 此法大多用于日为(-o,∞)的有限子区间的情形.方法如下:对日中的各种点 的直观“似然”进行比较,再按确定了的值画图,即可得到先验密度草图,用下例来 作说明. 例如,设日=(0,1),从确定“最大可能”和 手似然 “最小可能”的参数点的似然性入手.设日= 3/4为最大可能的点,0=0为最小可能的点, 且0=3/4为0=0的似然性的3倍.再确定0= 1/4和0=1/2及0=1的相对似然性.为简单 计,与0=0的可能性比较,0=1/2和0=1的 0 可能性2倍于0=0,0=1/4的可能性为0=0 1/41/234 的可能性的1.5倍.令基本点0=0的先验密度 图7.2.2似然 为1,由此画出(0)图7.2.2.但示(0)d0≠1. 记π()=c元(),使6π(0)d=c(0)d0=1,则π()即为9的先验密度 注:当日=(-∞,∞)时此法会遇到较大困难.上述两种确定先验密度的方 法要求日局限于(-∞,∞)上的有限区间,当日=(-∞,∞)或其上无限区间时便失效. 下面介绍的方法更合适, 3.选定先验密度函数的形式,再估计超参数 (1)根据先验信息,选定0的先验分布π(0)的形式.如π(Θ)为N(4,2),其中μ和r称 为超参数(hyperparameter): (2)设先验分布的超参数为a,B,记先验分布为π(0:a,),对其超参数α和B作出 估计,得到a和3,使π(0:à,)和π(0:a,)很接近. 这个方法的关键是π()的形式的选定.若选择的不合适将导致失误. 例7.2.2在例7.2.1中设参数9为销售量,选用正态分布N(4,2)作为9的先验分 布π(0),试确定这一先验分布
7.2. k©Ÿ(½* 5 „ 7.2.1 ±²˛ù»˛Üê„ d{åı^uΘè(−∞, ∞)kÅf´mú/. ê{Xe: ÈΘ•à´: Ü*/q,0?1', 2U(½ äx„, =åkó›˙„, ^e~5 ä`². „ 7.2.2 q, ~X, Θ = (0, 1),l(½/ÅååU0⁄ /ÅåU0 ÎÍ:q,5\Ã. θ = 3/4èÅååU:,θ = 0èÅåU:, Öθ = 3/4èθ = 0q,53. 2(½θ = 1/4 ⁄ θ = 1/2 9 θ = 1ÉÈq,5. è{¸ O, Üθ = 0åU5', θ = 1/2 ⁄ θ = 1 åU52uθ = 0, θ = 1/4åU5èθ = 0 åU51.5. -ƒ:θ = 0kó› è1, ddx—π˜(θ)„7.2.2. R 1 0 π˜(θ)dθ 6= 1. Pπ(θ) = cπ˜(θ), ¶ R 1 0 π(θ)dθ = c R 1 0 π˜(θ)dθ = 1,Kπ(θ)=èθkó›. 5: Θ = (−∞, ∞)ûd{¨ëå(J. ˛„¸´(½kó›ê {á¶Θ¤Åu(−∞, ∞)˛kÅ´m, Θ = (−∞, ∞)½Ÿ˛ÃÅ´mûBî. e°0ê{ç‹·. 3. ¿½kó›ºÍ/™, 2OáÎÍ (1) ä‚k&E, ¿½θk©Ÿπ(θ)/™. Xπ(θ)èN(µ, τ 2 ), Ÿ•µ⁄τ 2° èáÎÍ(hyperparameter). (2) k©ŸáÎÍèα, β,Pk©Ÿèπ(θ; α, β),ÈŸáÎÍα⁄βä— O, αˆ⁄β, ˆ ¶π(θ; ˆα, βˆ)⁄π(θ; α, β)ÈC. ˘áê{'Ö¥π(θ)/™¿½. e¿Jÿ‹·Úóîÿ. ~7.2.2 3~7.2.1•ÎÍθèù»˛, ¿^©ŸN(µ, τ 2 )äèθk© Ÿπ(θ),£(½˘òk©Ÿ.
CHAPTER7.BAYES方法和统计决策理论* 解确定先验分布的问题就转化为估计超参数和的问题.这可用“每周平 均销售量统计表”作出估计.若对表中0的每个小区间用其中点代替,算得和2的 估计如下 i=2.5×0.05+7.5×0.26+..+32.5×0.01=13.45 T2=(2.5-)2×0.05+(7.5-μ4)2×0.26+…+(32.5-)2×0.01=36.85 故0~N(位,2)=N(13.45,36.85),用先验分布可求下列概率,如 P20≤0≤2=P203559-13.45<21-13.45 ≤7368两≤VW3. =Φ(1.24)-Φ(1.08)=0.8925-0.8508=0.0417 在给定先验分布形式时,决定超参数的另一方法是从先验信息中获得几个分位 数的估计值,然后选择超参数(即超参数的估计值),使其尽可能接近这些分位数. 例7.2.3设参数的取值范围为(-∞,∞),先验分布为正态分布,若从先验信 息得知:(1)先验的中位数为0,(2)0.25和0.75的分位数分别为-1和+1,试求此先验分 布 解由于0~N(4,),因此确定先验分布的问题就转化为估计4和的问 题.正态分布的中位数就是4,故μ=0.由0.75的分位数为1,即0.75=P(0<1)= P(0/r<1/)=P(Z<1/r),其中Z=/r~N(0,1),查标准正态分布表÷1/r= 0.675,即T=1.481,故→0~N(4,2)=N(0,1.4812)为9的先验分布. 又若在本例中假定不是正态分布,而是Cauchy?分布,其余条件不变,即9~ π(0:α,)=B/{π[32+(0-a)2]},-o<0<o,确定先验分布的问题就转化 为求a,B的估计. 由于Cauchy分布均值和方差皆不存在,但它关于a对称,故有a=0.又由条 件0.25分位数为-1,即 1 1 +2=0.25 1 -xπ(B2+2 =元arctg( 解出6=1,故9~C(a,)=C(0,1) 因此同样的先验信息有2个先验分布可供选择.若2个先验分布差别不大,可任 选其一.在本例中N(0,1.4812)和C(0,1)密度函数形状上相似(都关于0对称,中间高 两边低),但Cauchy分布的尾部概率较大.因此若的先验信息集中在中间,则选择 正态好些,若先验信息较分散,选择Cauchy分布更合适些, 三、无信息先验 Bays分析的一个重要特点就是在统计推断时要利用先验信息.但常常会出现 这样的情况:没有先验信息或者只有极少的先验信息可利用,但仍想用Byes方法. 此时所需要的是一种无信息先验(noninformative prior),即对参数空间日中的任何 一点没有偏爱的先验信息.这就引出了无信息先验分布的概念
6 CHAPTER 7. BAYESê{⁄⁄O˚¸nÿ* ) (½k©ŸØK“=zèOáÎ͵⁄τ 2ØK. ˘å^/z±² ˛ù»˛⁄OL0ä—O. eÈL•θ zá´m^Ÿ•:ìO, éµ⁄τ 2 OXe µˆ = 2.5 × 0.05 + 7.5 × 0.26 + · · · + 32.5 × 0.01 = 13.45 ˆ τ 2 = (2.5 − µ) 2 × 0.05 + (7.5 − µ) 2 × 0.26 + · · · + (32.5 − µ) 2 × 0.01 = 36.85 θ ∼ N(ˆµ, τˆ 2 ) = N(13.45, 36.85),^k©Ÿå¶eV«, X P(20 ≤ θ ≤ 21) = P( 20 − 13.45 √ 36.85 ≤ θ − 13.45 √ 36.85 ≤ 21 − 13.45 p√ 36.85 ) = Φ(1.24) − Φ(1.08) = 0.8925 − 0.8508 = 0.0417 3â½k©Ÿ/™û, ˚½áÎÍ,òê{¥lk&E•ºAᩆ ÍOä, ,¿JáÎÍ(=áÎÍOä) , ¶Ÿ¶åUC˘ ©†Í. ~7.2.3 ÎÍθäâåè(−∞, ∞),k©Ÿè©Ÿ, elk& E: (1)k•†Íè0,(2) 0.25⁄0.75©†Í©Oè-1⁄+1, £¶dk© Ÿ. ) duθ ∼ N(µ, τ 2 ),œd(½k©ŸØK“=zèOµ ⁄ τØ K. ©Ÿ•†Í“¥µ,µ = 0. d0.75©†Íè1, =0.75 = P(θ $) , Cauchy©Ÿó‹V«å. œdeθk&E8•3•m, K¿J – , ek&E©—, ¿JCauchy©Ÿç‹· . n!Ã&Ek Bayes©¤òááA:“¥3⁄Ỏûá|^k&E. ~~¨—y ˘ú¹: vkk&E½ˆêk4k&Eå|^, Eé^Bayesê{. dû§Iá¥ò´Ã&Ek (noninformative prior),=ÈÎÍòmΘ•?¤ ò:θvk†Ok&E. ˘“⁄— Ã&Ek©ŸVg.
72.先验分布的确定* 7 1.均匀分布与广义先验分布 (1)若日为有限集,即0只可能取有限个值,如0=0,i=1,2·n,无信息先验 给日中的每个元素以概率1/n,即P(0=0)=1/m,i=1,2…n. (2)若日为R1上的有限区间[a,b],则取无信息先验为区间[a,b]上的均匀分布U(a,b) (有时也记为R(a,b) (3)问题是若参数空间日无界,无信息先验如何选取?样本分布为N(0,σ), σ2已知,此时日=(-o,∞).若无信息先验取为π(0)三1,则π()不是通常的密度,因 为∫π()d=∞.这就引出广义先验分布的概念 定义设随机变量X~f(x9),0∈日,若9的先验分布π()满足下列条件: (①)π()≥0且∫6π(8)d=o ()后验密度π(x)是正常的密度函数, 则称π(d)为e的广义先验密度(improper prior density). 例7.2.4设X=X1,…,Xn为从N(0,1)总体中抽取的随机样本,设π()≡ 1,求0的后验密度 解由公式(7.1.1)可知 f(x0)π(8) π(x)= ezp{-∑1c:-)2] f()(0)do o exp(-0) n 这是正态分布N(,1/n)的密度,后验分布π(z)仍为正常的密度函数,故π(0)三1为 广义先验密度,它也是一种无信息先验 对一般常见的概率分布中的参数如何求其无信息先验分布?我们下面对位置 参数和刻度参数分别介绍. 2.位置参数和刻度参数的无信息先验 (1)位置参数的无信息先验 设总体分布有密度函数有形式f(x-),-oo<0<∞,为一位置参数(location parameters).让X平移c,得到Y=X+c,同时让也平移c得到n=0+c,显然Y有密 度(y-),仍为位置参数.所以(X,)与(Y,)的统计问题结构相同.因此主张它 们有相同的无信息先验是合理的.理解这一点的另一方法:X和Y的测量原点不同, 由于测量原点的选择是非常任意的,所以无信息先验应当与这种选择无关.如果无 信息先验不依赖于原点的选择,则它在等长区间内的先验概率应当一样.换言之 先验密度应当恒等于1.即取0的无信息先验密度 π(0)三1. 它是一个广义先验密度 这表明当为位置参数时,其无信息先验密度取为常数或者1
7.2. k©Ÿ(½* 7 1. ˛!©ŸÜ2¬k©Ÿ (1) eΘèkÅ8, =θêåUkÅáä, Xθ = θi , i = 1, 2 · · · n,Ã&Ek âΘ •záɱV«1/n,=P(θ = θi) = 1/n, i = 1, 2 · · · n . (2) eΘèR1˛kÅ´m[a,b], KÃ&Ekè´m[a,b]˛˛!©ŸU(a,b) (kûèPèR(a,b)). (3) ØK¥eÎÍòmΘÃ., Ã&EkX¤¿? ©ŸèN(θ, σ2 ), σ 2Æ, dûΘ = (−∞, ∞).eÃ&Ekèπ(θ) ≡ 1, Kπ(θ)ÿ¥œ~ó›, œ è R ∞ −∞ π(θ)dθ = ∞.˘“⁄—2¬k©ŸVg. ½¬ ëÅC˛X ∼ f(x|θ), θ ∈ Θ,eθk©Ÿπ(θ)˜ve^á: (i) π(θ) ≥ 0Ö R Θ π(θ)dθ = ∞, (ii)ó›π(θ|x)¥~ó›ºÍ, K°π(θ)èθ2¬kó› (improper prior density). ~7.2.4 X = X1, · · · , Xn èlN(θ, 1)oN•ƒëÅ, π(θ) ≡ 1,¶θó›. ) d˙™(7.1.1)å π(θ|x) = f(x|θ)π(θ) R ∞ −∞ f(x|θ)π(θ)dθ = exp{−1 2 Pn i=1(xi − θ) 2} R ∞ −∞ exp{−1 2 Pn i=1(xi − θ) 2} = r n 2π expn − n 2 (x − θ) 2 o . ˘¥©ŸN(x, 1/n)ó›, ©Ÿπ(θ|x)Eè~ó›ºÍ, π(θ) ≡ 1è 2¬kó›,ßè¥ò´Ã&Ek. ÈòÑ~ÑV«©Ÿ•ÎÍX¤¶ŸÃ&Ek©Ÿ? ·Çe°È†ò ÎÍ⁄è›ÎÍ©O0. 2. †òÎÍ⁄è›ÎÍÃ&Ek (1) †òÎÍÃ&Ek oN©Ÿkó›ºÍk/™f(x−θ), −∞ < θ < ∞, θèò†òÎÍ (location parameters). 4X²£c, Y = X + c,”û4θè²£cη = θ + c,w,Y kó ›p(y − η), ηEè†òÎÍ. §±(X, θ)Ü(Y, η)⁄OØK(É”. œdÃ‹ß ÇkÉ”Ã&Ek¥‹n. n)˘ò:,òê{: X⁄Y ˇ˛:ÿ”, duˇ˛:¿J¥ö~?ø, §±Ã&EkAܢ´¿JÃ'. XJà &Ekÿù6u:¿J, Kß3´mSkV«Aò. ÜÛÉ, kó›Aðu1. =θ Ã&Ekó› π(θ) ≡ 1. ߥòá2¬kó›. ˘L²θè†òÎÍû,ŸÃ&Ekó›è~ͽˆ1.
8 CHAPTER7.BAYES方法和统计决策理论* 例7.2.5(例7.2.4续).设X=(X1,·,Xn)为从~N(0,a2)中抽取的简单样 本,其中σ2已知.无任何先验信息可用,求的后验分布 解显见此时x=是∑1X:为充分统计量且元~N(6,o2/m),即 p(0)=vn en{-2a-P} V2πσ 由于无任何先验信息可用,此时可取无信息先验π()=1则由例7.2.4可知后验密度 是正态分布N(,σ/n)的密度.如取0的Bayes估计为后验均值,则Bayest估计为9B= 这个结果与经典统计中常用估计量一致. 这种现象被Bays学派解释为经典统计学中一些成功的估计量可以看作使用合 理的无信息先验的结果.无信息先验的开发和使用是Bayes?统计中最成功的结果之 (2)刻度参数的无信息先验 设总体分布有密度函数有形式olp(x/o),o>0为刻度参数(scale parame- ters)·对X作变换Y=cX,同时对也作相应的变换n=co.不难算出Y的密度仍 为m1p(y/m)可见(x,o)和(y,)统计问题的结构相同,故主张o的无信息先验与n的 无信息先验相同是合理的.理解这一点的另一方法:X和Y的度量单位不同,先验 分布应当不依赖于度量单位的选择,则对任何a,b,00,σ落在[a,内 先验概率,应当等于n落在[ca,cb内的先验概率,不难看出,这只有在先验密度为1/o (当σ>0,σ0. 例7.2.6设总体X为指数分布,其密度为 f()=A-lexpf-x/A},>0, 其中>0为刻度参数.令X=(X1,…,X)是从上述分布中抽取的简单样本,的 先验密度为无信息先验,求其后验密度 解由公式(7.1.1)可知的后验密度为 Π=1f(红入)() π(入x)= A-+ezp-3∑1z} =f()r(A)dXX(n+Deapf-dx Xa*en{-∑x r(n) 若取其Bayest估计为后验均值,则Bayes估计为 人-B6网=占 其方差为(=1X)/(n-1)2(n-2:
8 CHAPTER 7. BAYESê{⁄⁄O˚¸nÿ* ~7.2.5 (~7.2.4Y). X = (X1, · · · , Xn)èl∼ N(θ, σ2 ) •ƒ{¸ ,Ÿ•σ 2Æ. θÃ?¤k&Eå^, ¶θ©Ÿ. ) wÑdûX = 1 n Pn i=1 Xièø©⁄O˛Öx ∼ N(θ, σ2/n),= p(x|θ) = √ n √ 2πσ expn − n 2σ 2 (x − θ) 2 o duθÃ?¤k&Eå^, dûåÃ&Ekπ(θ) ≡ 1 Kd~7.2.4åó› ¥©ŸN(x, σ2/n)ó›. XθBayesOè˛ä,KBayesOèˆθB = X.˘á(Jܲ;⁄O•~^O˛òó. ˘´yñBayesÆ)ºè²;⁄OÆ•ò §ıO˛å±wä¶^‹ nÃ&Ek(J. Ã&Ekmu⁄¶^¥Bayes⁄O•Å§ı(JÉ ò. (2) è›ÎÍÃ&Ek oN©Ÿkó›ºÍk/™σ −1ϕ(x/σ), σ > 0èè›ÎÍ (scale parameters) . ÈXäCÜY = cX,”ûÈθèäÉACÜη = cσ. ÿJé—Y ó›E èη −1ϕ(y/η)åÑ(x, σ) ⁄ (y, η)⁄OØK(É”, ËσÃ&EkÜη Ã&EkÉ”¥‹n. n)˘ò:,òê{: X⁄Y ›˛¸†ÿ”, k ©ŸAÿù6u›˛¸†¿J, KÈ?¤a, b, 0 0, σ·3[a, b]S kV«, Auη·3[ca, cb]SkV«, ÿJw—, ˘êk3kó›è1/σ (σ > 0, σ 0. ~7.2.6 oNXèçÍ©Ÿ, Ÿó›è f(x|λ) = λ −1 exp{−x/λ}, x > 0, Ÿ•λ > 0èè›ÎÍ. -X = (X1, · · · , Xn) ¥l˛„©Ÿ•ƒ{¸, λ kó›èÃ&Ek, ¶Ÿó›. ) d˙™(7.1.1)åλó›è π(λ|x) = Qn i=1 f(xi |λ)π(λ) R ∞ 0 Qn i=1 f(xi |λ)π(λ)dλ = λ −(n+1)exp{− 1 λ Pn i=1 xi} R ∞ 0 λ−(n+1)exp{− 1 λ Pn i=1 xi}dλ = Pn i=1 xi n Γ(n) λ −(n+1)expn − 1 λ Xn i=1 Xi o . eŸBayesOè˛ä, KBayesOè λˆ B = E(λ|x) = 1 n − 1 Xn i=1 xi . Ÿêè Pn i=1 Xi 2 [(n − 1)2 (n − 2)]
72.先验分布的确定* 9 3.一般情形下的无信息先验 对非位置参数族和刻度参数族的无信息先验如何求,被广发采用的是Jeffreys (1961)的方法,由于推导涉及到变换群和Har测度,这里只给出结果,不推导结果 是如何得来的, 设X=(X1,·,Xn)是来自总体f(x9)的简单样本,这里0=(01,·,9p)为p维 参数向量.在对0无先验信息可用时,Jef伍reys用Fisher信息阵的平方根作为0的无信 息先验,这样的无信息先验称为.Jeffreys无信息先验.其求解步骤是: (1)写出样本的对数似然函数 (2)求样本的信息阵 I(0)=(Iij(0))pxp' 1(0)=Ex1e- 0211 00:08,J ,j=1,…,p 特别对p=1,即9为单参数的情形 10=Ex{- 821 (3)9的无信息先验的密度为π(0)=[detI(0)]1/2,其中detI(0)表示p阶方阵I(0)的 行列式.特别p=1,即单参数场合π(8)=[I(8)/2 例7.2.7设X=(X1,·,X)是从总体N(4,σ2)中抽取的简单样本,记0= (μ,σ),求(4,σ)的联合无信息先验 解给定X时,的对数似然函数是 1(0)--7 lg2r-nlgo- a-r 记I()=(I(0)pxp,则有 m0=5x{-g型}-A 2 122(0)=Ex1e- a21(0x) 12()=121(0)=ExIe{ }=层x,-}-0 0μ00 故有 I(0= 0 [detI(0)]2=v2n/a2 0
7.2. k©Ÿ(½* 9 3. òÑú/eÃ&Ek∗ Èö†òÎÍx⁄è›ÎÍxÃ&EkX¤¶, 2uÊ^¥Jeffreys (1961)ê{, duÌ9CÜ+⁄Harr ˇ›, ˘pêâ—(J, ÿÌ(J ¥X¤5. X = (X1, · · · , Xn)¥5goNf(x|θ){¸, ˘pθ = (θ1, · · · , θp) èpë ÎÍï˛. 3ÈθÃk&Eå^û, Jeffreys^Fisher&E ²êääèθÃ& Ek, ˘Ã&Ek°èJeffreysÃ&Ek. Ÿ¶)⁄½¥: (1) —ÈÍq,ºÍ l(θ|x) = ln hYn i=1 f(xi |θ) i = Xn i=1 ln f(xi |θ) (2) ¶&E I(θ) = Iij (θ) p×p , Iij (θ) = EX|θ n − ∂ 2 l ∂θi∂θj o i, j = 1, · · · , p AOÈp = 1,=θè¸ÎÍú/ I(θ) = EX|θ n − ∂ 2 l ∂θ2 o (3) θÃ&Ekó›èπ(θ) = [det I(θ)]1/2 ,Ÿ•det I(θ)L´pê I(θ) 1™. AOp = 1,=¸ÎÍ|‹π(θ) = [I(θ)]1/2 . ~7.2.7 X = (X1, · · · , Xn)¥loNN(µ, σ2 )•ƒ{¸, Pθ = (µ, σ),¶(µ, σ)È‹Ã&Ek. ) â½Xû, θÈÍq,ºÍ¥ l(θ|x) = − n 2 lg 2π − n lg σ − 1 2σ 2 Xn i=1 (xi − µ) 2 }. PI(θ) = (Iij (θ))p×p ,Kk I11(θ) = EX|θ n − ∂ 2 l(θ|x e ) ∂µ2 o = n σ 2 I22(θ) = EX|θ n − ∂ 2 l(θ|x) ∂σ2 o = − n σ 2 + 3 σ 4 E Xn i=1 (Xi − µ) 2 = 2n σ 2 I12(θ) = I21(θ) = EX|θ n − ∂ 2 l(θ|x) ∂µ∂θ o = E n 2 σ 3 Xn i=1 (Xi − µ) o = 0 k I(θ) = n σ2 0 0 2n σ2 ! , [detI(θ)]1/2 = √ 2 n/σ2
10 CHAPTER7.BAYES方法和统计决策理论* 所以,(4,σ)的Jeffreys先验(由于它是非正常先验,可以丢弃常数因子)为 π(4,o)=1/o2 即(4,σ)的联合无信息先验为1/σ2.它的几个特例为 ()当a已知时,I=E{-}=n/a2,故取x(=1. 2当u已知时,I0o)=E{-8}=2na2,故取xo)=1/o,∈(0,o) (3)当4和σ独立时,π(4,o)=(m)π(o)=1/o,o∈(0,∞) 由此可见,当μ和σ的无信息先验不独立时,它们的联合无信息先验为1/σ2: 而当μ和o的无信息先验独立时,它们的联合无信息先验为1/a.Jeffreys最终推荐 用π(4,o)=1/a为μ和σ的联合无信息先验 例7.2.8设为Benoulli试验中成功概率,则在n次独立的Benoulli试验中,记成 功次数为随机变量X,则X~b(n,).即 PX==(回)pr1-0n-3,=01,n 其对数似然函数为(x)=ln()+xl血0+(n-x)n(1-),故有 0=Bw{-g}=Bw倍+二}=日+2。= 故取π()xI()2=0-(1-)一,0∈(0,1),添加正则化因子得到先验密度π(),它 是一个Beta密度Be(1/2,1/2): 注7.2.1一般说来无信息先验不唯一,它们对Bay©s推断影响都很小,很少对 结果产生较大的影响,所以任何无信息先验都可以接受.当今无论在统计理论和应 用研究中无信息先验采用越来越多,就连经典统计学者也认为无信息先验是客观 的,可以接受的.这是近几十年中Bayes学派研究中最成功的部分. 四、共轭先验分布 1.共轭先验分布的概念 另外一种选择先验的方法是从理论的角度出发的,在已知样本分布的情形下, 为了理论上的需要常常选参数的先验为共轭先验分布,其定义如下: 定义7.2.2设F为9的先验分布族,样本X的分布为f(x9),如果对任取的π(0)∈ F及样本x,后验分布π(0z)仍属于F,则称F是一个共轭先验分布族(conjugate prior distribution family). 下面给出计算共轭先验分布的一个例子: 例7.2.9设X~b(n,0).(1)设0~U(0,1),即(0,1)上的均匀分布,证明9的后 验分布为Beta分布;(2)若取的先验分布为Beta分布Be(a,b),证明e的后验分布仍 为Beta分布.即样本分布如果为二项分布,则共轭先验分布为Beta分布
10 CHAPTER 7. BAYESê{⁄⁄O˚¸nÿ* §±, (µ, σ)Jeffreysk(duߥö~k, å±øÔ~Íœf)è π(µ, σ) = 1/σ2 . =(µ, σ)È‹Ã&Ekè1/σ2 . ßAáA~è (1) σÆû, I(µ) = E − ∂ 2 l(θ|x) ∂µ2 = n/σ2 , π(µ) ≡ 1. (2) µÆû, I(σ) = E − ∂ 2 l(θ|x) ∂σ2 = 2n/σ2 ,π(σ) = 1/σ, σ ∈ (0, ∞). (3) µ ⁄ σ’·û,π(µ, σ) = π(µ)π(σ) = 1/σ, σ ∈ (0, ∞). ddåÑ, µ ⁄ σÃ&Ekÿ’·û, ßÇÈ‹Ã&Ekè1/σ2 ; µ ⁄ σÃ&Ek’·û, ßÇÈ‹Ã&Ekè1/σ. JeffreysÅ™Ì ^π(µ, σ) = 1/σèµ ⁄ σÈ‹Ã&Ek. ~7.2.8 θèBenoulli£•§ıV«, K3ng’·Benoulli£•, P§ ıgÍèëÅC˛X,KX ∼ b(n, θ).= P(X = x) = n x θ x (1 − θ) n−x , x = 0, 1, · · · , n. ŸÈÍq,ºÍèl(θ|x) = ln n x + x ln θ + (n − x) ln(1 − θ),k I(θ) = EX|θ n − ∂ 2 l(θ|x) ∂θ2 o = EX|θ n X θ 2 + n − X (1 − θ) 2 o = n θ + n 1 − θ = n θ(1 − θ) π(θ) ∝ I(θ) 1/2 = θ − 1 2 (1−θ) − 1 2 , θ ∈ (0, 1), V\Kzœfkó›π(θ),ß ¥òáBetaó›Be(1/2, 1/2). 57.2.1 òÑ`5Ã&Ekÿçò, ßÇÈBayes̉Kè—È, ÈÈ (J)åKè, §±?¤Ã&Ek—å±…. 8Ãÿ3⁄Onÿ⁄A ^Ôƒ•Ã&EkÊ^5ı, “β;⁄Oƈè@èÃ&Ek¥ê* , å±…. ˘¥CAõc•BayesÆÔƒ•Å§ı‹©. o!›k©Ÿ 1. ›k©ŸVg , ò´¿Jkê{¥lnÿ›—u, 3Æ©Ÿú/e, è nÿ˛Iá~~¿ÎÍkè›k©Ÿ,Ÿ½¬Xe: ½¬7.2.2 Fèθk©Ÿx, X©Ÿèf(x|θ), XJÈ?π(θ) ∈ F9x,©Ÿπ(θ|x)E·uF, K°F¥òá›k©Ÿx (conjugate prior distribution family). e°â—Oé›k©Ÿòá~f: ~7.2.9 X ∼ b(n, θ). (1) θ ∼ U(0, 1),=(0, 1)˛˛!©Ÿ, y²θ ©ŸèBeta©Ÿ; (2) eθk©ŸèBeta©ŸBe(a, b),y²θ©ŸE èBeta©Ÿ. =©ŸXJèë©Ÿ, K›k©ŸèBeta©Ÿ.