第二章主观概率和先验分布 Subjective Probability and Prior Distribution 本章主要参考文献:60,52,上帝怎样掷骰子 §2-1基本概念 概率( probability) 1.频率 fn(aF=Na/N P(A== :lim fn(A)…古典概率的定义 2. Laplace在《概率的理论分析》(1812)中的定义 P(AF=k/N 式中,k为A所含基本事件数 N为基本事件总数 适用条件1基本事件有限 2每个基本事件等可能 3公理化定义 E是随机试验,S是E的样本空间对E的每一事件A对应有确定实数P(A)若满足 ①非负性:0≤P(A)≤1 ②规范性:P(S=1 ③可列可加性:对两两不相容事件Ak(k=1,2…)(AnAj=) P(∪A∑P(A) 则称P(A)为事件A发生的概率 主观概率( subjective probability, likelihood 1.为什么引入主观概率 。有的自然状态无法重复试验 如:明天是否下雨 新产品销路如何 明年国民经济增长率如何 能否考上博士生 。试验费用过于昂贵、代价过大 例:洲导弹命中率 战争中对敌方下一步行动的估计 2主观概率定义:合理的信念的测度 某人对特定事件会发生的可能的度量。 即他相信(认为)事件将会发生的可能性大小的程度。 这种相信的程度是一种信念,是主观的,但又是根据经验、各方而后知识,对 客观情况的了解进行分析、推理、综合判断而设定( Assignment)的,与主观臆测不同
2- 1 第二章 主观概率和先验分布 Subjective Probability and Prior Distribution 本章主要参考文献:60,52,上帝怎样掷骰子 §2-1 基本概念 一、概率(probability) 1. 频率 fn(A)==Na/N P (A)== lim n→ fn(A) … 古典概率的定义 2. Laplace 在《概率的理论分析》(1812)中的定义 P(A)==k/N 式中,k 为 A 所含基本事件数, N 为 基本事件总数 适用条件 1.基本事件有限 2.每个基本事件等可能 3.公理化定义 E 是随机试验,S 是 E 的样本空间,对 E 的每一事件 A,对应有确定实数 P(A),若满足: ① 非负性:0≤ P(A)≤ 1 ② 规范性: P(S)=1 ③可列可加性:对两两不相容事件 Ak (k=1,2… ) (Ai∩ Aj=φ ) P(∪Ak)=∑ P(Ak) 则称 P(A)为事件 A 发生的概率 二、主观概率(subjective probability, likelihood) 1. 为什么引入主观概率 。有的自然状态无法重复试验 如:明天是否下雨 新产品销路如何 明年国民经济增长率如何 能否考上博士生 。试验费用过于昂贵、代价过大 例:洲导弹命中率 战争中对敌方下一步行动的估计 2.主观概率定义:合理的信念的测度 某人对特定事件会发生的可能的度量。 即他相信(认为)事件将会发生的可能性大小的程度。 这种相信的程度是一种信念,是主观的,但又是根据经验、各方而后知识,对 客观情况的了解进行分析、推理、综合判断而设定(Assignment)的,与主观臆测不同
例:考博士生、掷硬币、抛图钉 三、概率的数学定义 对非空集Ω,元素ω,即Ω={ω},F是Ω的子集A所构成的σ-域即Ω∈F; 若A∈F则A∈F 若Ai∈Fi=1,2,,则uA∈F) 若P(A)是定在F上的实值集函数,它满足 ①非负性P(A)≥0 ②规范性P(Ω)=1 ③可列可加性 则称P(A)为直的(主以或客观概率测度,简称概率 U为基本事件 A为事件 三元总体(Ω,F,P)称为概率空间 注意:主观概率和客观概率( objective probability)有相同的定义 四、主客观概率的比较 )基本属性 O:系统的固有的客观性质,在相同条件下重复试验时频经的极限 S:概率是观察者而非系统的性质,是观察者对对系统处于某状态的信任程度 二抛硬币:正面向上概率为1/2 O:只要硬币均匀,抛法类似,次数足够多,正面向上的概率就是1/2,这是简单的 S:这确是定义,DMer认为硬币是均匀的,正、反面出现的可能性(似然率)相同,1 /2是个主观的量。 (三)下次抛硬币出现正面的概率是1/2 O:这种说法不对,不重复试验就谈不上概率 S:对DMer来说,下次出现正、反是等可能的。但是他不是说硬币本身是公正的,它 可能会有偏差,就他现有知识而言,没有理由预言一面出现的可能会大于另一面,但多次抛 掷的观察结果可以改变他的信念 O、S:下次抛硬币出现正面还是反面不能确定,但知道 要么是正面,要么是反面。 522先验分布( Prior distribution)及其设定 在决策分析中,尚未通过试验收集状态信息时所具有的信息叫先验信息,由先验信息所 确定的概率分布叫先验分布。 设定先验分布是 Bayesian分析的需要 设定先验分布时的几点假设
2- 2 例:考博士生、掷硬币、抛图钉 三、概率的数学定义 对非空集Ω ,元素ω,即Ω ={ω},F 是Ω 的子集 A 所构成的σ -域(即Ω ∈F; 若 A∈F 则 A∈F; 若 Ai∈F i=1,2,… 则∪Ai∈F) 若 P(A)是定在 F 上的实值集函数,它满足 ① 非负性 P(A)≥ 0 ② 规范性 P(Ω )=1 ③可列可加性 则称 P(A)为直的(主以或客观)概率测度,简称概率 ω为基本事件 A 为事件 三元总体(Ω ,F,P)称为概率空间 注意:主观概率和客观概率(objective probability)有相同的定义 四、主客观概率的比较 (一) 基本属性: O:系统的固有的客观性质,在相同条件下重复试验时频经的极限 S:概率是观察者而非系统的性质,是观察者对对系统处于某状态的信任程度 (二)抛硬币:正面向上概率为1/2 O:只要硬币均匀,抛法类似,次数足够多,正面向上的概率就是1/2,这是简单的 定义。 S:这确是定义,DMer 认为硬币是均匀的,正、反面出现的可能性(似然率)相同,1 /2是个主观的量。 (三)下次抛硬币出现正面的概率是1/2 O:这种说法不对,不重复试验就谈不上概率 S:对 DMer 来说,下次出现正、反是等可能的。但是他不是说硬币本身是公正的,它 可能会有偏差,就他现有知识而言,没有理由预言一面出现的可能会大于另一面,但多次抛 掷的观察结果可以改变他的信念。 O、S:下次抛硬币出现正面还是反面不能确定,但知道: 要么是正面,要么是反面。 §2-2 先验分布(Prior distribution)及其设定 在决策分析中,尚未通过试验收集状态信息时所具有的信息叫先验信息,由先验信息所 确定的概率分布叫先验分布。 设定先验分布是 Bayesean 分析的需要. 一、设定先验分布时的几点假设
1连通性( Connectivity),又称可比性 即事件A和B发生的似然性 likelihood是可以比较的 A>LB或A~LB或B>LA必有一种也仅有一种成 本*A>LB读作A发生的似然性大于B发生的似然性 A~LB读作A发生的似然性与B发生的似然性相当。 2传递性( Transitivity 若对事件A,B,C,A>LB,B>LC则A>LC 3.部分小于全体:若AB则BLA 例:设定明年国民经济增长率时 ①A:8~11%B:12~15% C:15~20% 若A B>LC,则A>1C ②A:8~11%D:8~10%必有D>LA 二、离散型随机变量先验分布的设定 1对各事件加以比较确定相对似然率 例1.考博士生 E:考取 E:考不取 若P(E=2P(E) 则P(E)=2/3 P(E=1/3 例2。某地气候状况:正常年景θ1,旱θ2,涝θ3 正常与灾年之比:3:2则P(θn)=0.6 水旱灾之比1:1 P(62)=P(63)=0.2 该法适用于状态数较少的场合 2.打赌法 设事件E发生时收入P,(0<P<1)且E\c=(1-P) 调整P,使决策人感到两者无差异为止,则:P(E=P 三、连续型RV的先验分布的设定 1.直方图法 该法适用于θ取值是实轴的的某个区间的情况 步骤:①将区间划分子区间θ∷…离散化 ②设定每个子区间的似然率π(ei)…赋值 ③变换成概率密度曲线 例如:明年国民经济的增长率 2-3
2- 3 1.连通性(Connectivity),又称可比性 即事件 A 和 B 发生的似然性 likelihood 是可以比较的: A >L B 或 A L B 或 B >L A 必有一种也仅有一种成立. ** A >L B 读作 A 发生的似然性大于 B 发生的似然性, A L B 读作 A 发生的似然性与 B 发生的似然性相当。 2.传递性(Transitivity) 若对事件 A,B,C , A >L B, B >L C 则 A >L C 3. 部分小于全体:若 A B 则 B L A 例:设定明年国民经济增长率时: ①A:8~11% B:12~15% C:15~20% 若 A >L B, B >L C , 则 A >L C ② A:8~11% D:8~10% 必有 D >L A 二、离散型随机变量先验分布的设定 1.对各事件加以比较确定相对似然率 例 1. 考博士生 E:考取 E:考不取 若 P(E)=2P(E) 则 P(E)=2/3 P(E)=1/3 例 2。某地气候状况:正常年景θ 1,旱θ 2,涝θ 3 正常与灾年之比:3∶2 则 P(θ 1)=0.6 水旱灾之比 1∶1 P(θ 2)=P(θ 3)=0.2 该法适用于状态数较少的场合 2.打赌法 设 事件 E 发生时收入 P,(0 <P <1) 且 E\c=(1—P) 调整 P,使决策人感到两者无差异为止, 则:P(E)=P 三、连续型 RV 的先验分布的设定 1.直方图法 ·该法适用于θ 取值是实轴的的某个区间的情况 ·步骤:①,将区间划分子区间θ i… 离散化 ②设定每个子区间的似然率π (θ i)… 赋值 ③变换成概率密度曲线 例如:明年国民经济的增长率
02 0.15 0.1 柱形图1 005 2%3%4%5%6%7%8%9%10%11%12%13%14%15% 缺点:①子区间的划分没有标准 ②赋值不易 ③尾部误差过大 2相对似然率法 适用范围:同1 步骤:①离散化 ②赋值:给出各区间似然的相对比值 ③规范化 例如:同1 相对似然率R 似然率π(A) 子区间8~9% 10/∑R 9/∑R 7.5 75/∑R B.决策者给出每二个状态似然率的比例关系 aj=p/pj (1) 应有 (3) 在(3)式不满足时,可用最小二乘法估计决策人心目中真正的主观概率分布Pi=1,…,n 即求规划问题 min{∑∑(apj-p st∑p=1,p≥0 *用拉格朗日乘数法,构造拉格朗日函数 L=∑∑(a4-p)2+2∑p-1 上式对p,i=1,2…n求偏导数,并令其为0,得 (auP-P)aa-2(ay P,-P1)+1=0 l=1,2,,n 与∑P=1联列,构成叶+1阶齐次方程组,求得P1…,n
2- 4 0 0.05 0.1 0.15 0.2 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 柱形图 1 ·缺点:①子区间的划分没有标准 ②赋值不易 ③尾部误差过大 2.相对似然率法 ·适用范围:同 1 步骤:①离散化 ②赋值:给出各区间似然的相对比值 ③规范化: 例如:同 1 A. 相对似然率 R 似然率π (A) 子区间 8~9% 10 10/Σ R 7~8 9 9/Σ R 9~10 7.5 7.5/Σ R B. 决策者给出每二个状态似然率的比例关系 aij= pi/pj (1) 应有 aij= 1/aji (2) aij=aik.akj (3) 在(3)式不满足时,可用最小二乘法估计决策人心目中真正的主观概率分布 Pi i=1,… ,n 即求规划问题 min{∑ ∑ (aijpj - pi)} s.t. ∑ pi= 1 , pi≥ 0 *用拉格朗日乘数法,构造拉格朗日函数 L= (a p ) ( p ) ij j n i n i i i n = = = − + − 1 1 2 1 2 1 上式对 pi ,i=1,2… n 求偏导数,并令其为 0,得: (a p p )a (a p p ) il i n l i il lj j n j l = = − − − + = 1 1 0 l=1,2,… ,n. 与 pi = 1 联列,构成 n+1 阶齐次方程组,求得 Pi, i=1,… ,n
3区间对分法 适用范围:可以是开区间 步骤:①求中位 ②确定上、下四分位点( quartile fractile ③由于误差积累最多确定八分位点( Eighth fractile) 例:产品销售量(预计明年) 缺点:精度差 4与给定形式的分布函数相匹配 这是最常用,且常常被滥用的方法 步骤:①选择一个与先验信息匹配得最好的函数 如正态,泊松,β,e- Cauchy分布等 例:a)在单位时间以恒常的平均比率入出现,则在T单位长度时间内该事件出现的次数服从 Poisson分布 2-4 b)若影响某一随机变量的因素很多而毎一因素的作用均不显著,则该变量服从正态分 布。例如,测量误差,弹落点,人的生理特征的度量,农作物产量等均服从正态分布。 c)事件A出现的概率为P,n次独立试验出现r次A的概率bprn=C〃p'(1-p)" 即服从二项分布。 ②参数估计 A矩法:N(μ, Be(a,β) 缺点:尾部估计不准,但对矩的影响却很大 B分位数:利用几个分位点和现成的概率密度 函数分位数表,估计参数并检验 5.概率盘法(dart) 用园盘中的扇形区表示抽奖事件,透用于西方管理人员 注意:状态的概率或概率分布不是也不应富由决策分析人员来设定,而应当由决策人和有 关问题专家提供基本信息 理由 §2-3无信息先验分布 为什么要研究无信息先验 Bayesian法需要有先验分布,贝叶斯法的简明性使人在无信息时也想用它。 如何设定无信息先验分布 1位置参数 随机变量X的概率密度函数形如(x)时0∈称为位置参数 其无信息先验T(θ)为一常数 2标度参数 2-5
2- 5 3.区间对分法 ·适用范围:可以是开区间 ·步骤:①求中位 ②确定上、下四分位点(quartile fractile) ③由于误差积累,最多确定八分位点(Eighth fractile) 例:产品销售量(预计明年) ·缺点:精度差 4.与给定形式的分布函数相匹配 这是最常用,且常常被滥用的方法 ·步骤:①选择一个与先验信息匹配得最好的函数 如正态,泊松,β ,e-Cauchy 分布等 例:a)在单位时间以恒常的平均比率入出现,则在 T 单位长度时间内该事件出现的次数服从 Poisson 分布 2-4 b)若影响某一随机变量的因素很多而每一因素的作用均不显著,则该变量服从正态分 布。例如,测量误差,弹落点,人的生理特征的度量,农作物产量等均服从正态分布。 c)事件 A 出现的概率为 P,n 次独立试验出现 r 次 A 的概率 b(p,r,n)= Cn p p r r n r (1− ) − . 即服从二项分布。 ②参数估计: A.矩法:N(μ ,σ ) Be(α ,β ) ·缺点:尾部估计不准,但对矩的影响却很大 B.分位数:利用几个分位点和现成的概率密度 函数分位数表,估计参数并检验。 5. 概率盘法(dart) 用园盘中的扇形区表示抽奖事件, 透用于西方管理人员 ·注意:状态的概率或概率分布不是也不应富由决策分析人员来设定,而应当由决策人和有 关问题专家提供基本信息。 理由: §2-3 无信息先验分布 一、为什么要研究无信息先验 ·Bayesean 法需要有先验分布,贝叶斯法的简明性使人在无信息时也想用它。 二、如何设定无信息先验分布 1.位置参数 随机变量 X 的概率密度函数形如 f(x-θ )时θ ∈ 称为位置参数 其无信息先验 π (θ )必为一常数 2.标度参数
X的密度函数为1f(x)>称为标度密度称为标度参数 其无信息先验π(σ)=10 524利用过去的数据设定先验分布 有θ的统计数据 为能获得θ的观察值θii=1…,n的数据,则可 ①通过直方图勾划出先验分布 ②选取可能的函数形式作为先验分布,再定参数 ③求频率(离散RV) 状态θ不能直接观察时 若直接观察的只是与θ有关的x(通常都是如此则要从x中获取θ,的先验信息很困难 的分布是随边缘分布m()而定的 m(x[f(球xOM或m(x∑pxO X、O的联合密度是hx6)=x|6(6) 由x估计m(x不难,但即使fx|8已知,由此估计μ(e就难得多 2-6
2- 6 X 的密度函数为 1/σ f(x/σ )σ >称为标度密度σ 称为标度参数 其无信息先验π (σ )=1/σ §2.4 利用过去的数据设定先验分布 一、有θ 的统计数据 为能获得θ 的观察值θ i i=1,… ,n 的数据,则可: ①通过直方图勾划出先验分布 ②选取可能的函数形式作为先验分布,再定参数 ③求频率(离散 RV) 二、状态θ 不能直接观察时 若直接观察的只是与 i 有关的 xi (通常都是如此)则要从 xi 中获取 i 的先验信息很困难: xi 的分布是随边缘分布 m(.)而定的: m(x)= f (x|)()d 或 m(x)= p(x|)() X、Θ 的联合密度是 h(x,θ )=f(x|θ )μ (θ ) 由 xi 估计 m(x)不难,但即使 f(x|θ )已知,由此估计μ (θ )就难得多