上海交通大学：《随机模拟方法与应用 Stochastic Simulation Methods and Its Applications》课程教学资源（学生作业）对MCMC 方法在瑞利分布样本采集及一元线性回归模型参数估计中应用的思考与研究——吴凯斌

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：275.04KB

《随机模拟方法与应用》课程大作业 2015年度春季学期对MCMC方法在瑞利分布样本采集及一元线性回归模型参数估计中应用的思考与研究学号：5110109140 姓名：吴凯斌授课老师：肖柳青 1.全文内容概要本文基于统计学中有关瑞利分布及一元线性回归分析的参考文献，主要对马尔可夫链蒙特卡罗方法（即MCMC方法）在瑞利分布样本采集以及一元线性回归模型参数估计中的应用进行了思考与研究。全文共分为三大部分：首先，简单介绍了马尔科夫链的数学概念，并通过提出一个具体的模型来说明其表示方法：其次，介绍了MCMC方法在电子工程中常用的一个数学分布一一瑞利分布中随机采集若干个样本的具体应用，并将算法通过matlab加以实现：最后，介绍了MCMC算法在一元线性回归模型参数估计中的应用思想，并将其与最小二乘法进行了对比。 2.马尔可夫链的概念及其表示方式无论是世界上重大的政治局势变化，还是我们每个人生活中的一些非常琐碎的事情，它们之间绝大多数都是有着一定的因果关系的，也就是说每件事情的发生都会对接下来出现的事情产生一定的影响，这种影响可以是有形的，也可以是无形的，其最终将反映到接下来每件事发生的概率上。事实上，从当前一件事的发生转变到受其影响的接下来的另一件事的发生，如果这样一个转变过程仅与当前这件事有关，这样就产生了一个简单的马尔可夫过程。下面举一个简单的例子加以说明，如果我好好复习准备考试周，各门功课都拿到A的概率是0.6：经过一般准备各门功课都拿到A的概率是0.3：而不好好复习，各门功课都拿到A 的概率是0.1。显然，这样的假设基于：我各门功课最终是否都能拿到A仅与当前我是否认真准备考试周有关。另一方面，假如我各门功课都能拿到A,我暑假期间选择和同学一起去旅游的概率为0.6，而选择上小学期的概率为0.4：假如我没能各门功课都拿到A,暑假期间和同学一起去旅游的概率是0.3，而上小学期的概率则为0.7。显然，此时我们的假设基于：我暑假是和同学出去旅游还是上小学期仅与我各门功课是否都拿到A有关。从我是否好好准备考试周的当前状态一直转移到暑假我是和同学出去旅游还是上小学期的将来状态，这样一整个过程就是一个简单的马尔可夫过程。如果记我好好复习准备考试周为事件A,作一般准备为事件B,而不好好准备为事件 C,则2(A,B,C)组成了当前所有可能的事件空间。若记我所有课程都拿到A为事件D, 未能所有课程都拿A为事件D,则由题意，知： P(D|A)=0.6,P(D1B)=0.3,P(D|C)=0.1 (1) 又由我各门功课都拿到A和不能都拿到A为互斥事件，故有：

《随机模拟方法与应用》课程大作业 2015 年度春季学期 1 对 MCMC 方法在瑞利分布样本采集及一元线性回归模型参数估计中应用的思考与研究学号：5110109140 姓名：吴凯斌授课老师：肖柳青 1.全文内容概要本文基于统计学中有关瑞利分布及一元线性回归分析的参考文献，主要对马尔可夫链蒙特卡罗方法（即 MCMC 方法）在瑞利分布样本采集以及一元线性回归模型参数估计中的应用进行了思考与研究。全文共分为三大部分：首先，简单介绍了马尔科夫链的数学概念，并通过提出一个具体的模型来说明其表示方法；其次，介绍了 MCMC 方法在电子工程中常用的一个数学分布——瑞利分布中随机采集若干个样本的具体应用，并将算法通过 matlab 加以实现；最后，介绍了 MCMC 算法在一元线性回归模型参数估计中的应用思想，并将其与最小二乘法进行了对比。 2.马尔可夫链的概念及其表示方式无论是世界上重大的政治局势变化，还是我们每个人生活中的一些非常琐碎的事情，它们之间绝大多数都是有着一定的因果关系的，也就是说每件事情的发生都会对接下来出现的事情产生一定的影响，这种影响可以是有形的，也可以是无形的，其最终将反映到接下来每件事发生的概率上。事实上，从当前一件事的发生转变到受其影响的接下来的另一件事的发生，如果这样一个转变过程仅与当前这件事有关，这样就产生了一个简单的马尔可夫过程。下面举一个简单的例子加以说明，如果我好好复习准备考试周，各门功课都拿到 A 的概率是 0.6；经过一般准备各门功课都拿到 A 的概率是 0.3；而不好好复习，各门功课都拿到 A 的概率是 0.1。显然，这样的假设基于：我各门功课最终是否都能拿到 A 仅与当前我是否认真准备考试周有关。另一方面，假如我各门功课都能拿到 A，我暑假期间选择和同学一起去旅游的概率为 0.6，而选择上小学期的概率为 0.4；假如我没能各门功课都拿到 A，暑假期间和同学一起去旅游的概率是 0.3，而上小学期的概率则为 0.7。显然，此时我们的假设基于：我暑假是和同学出去旅游还是上小学期仅与我各门功课是否都拿到 A 有关。从我是否好好准备考试周的当前状态一直转移到暑假我是和同学出去旅游还是上小学期的将来状态，这样一整个过程就是一个简单的马尔可夫过程。如果记我好好复习准备考试周为事件 A ，作一般准备为事件 B ，而不好好准备为事件 C ，则( , , ) A B C 组成了当前所有可能的事件空间。若记我所有课程都拿到 A 为事件 D ，未能所有课程都拿 A 为事件 D ，则由题意，知： P D A P D B P D C ( | ) 0.6, ( | ) 0.3, ( | ) 0.1    （1）又由我各门功课都拿到 A 和不能都拿到 A 为互斥事件，故有：

《随机模拟方法与应用》课程大作业 2015 年度春季学期 2 P D A P D B P D C ( | ) 0.4, ( | ) 0.7, ( | ) 0.9    （2）同样由于是互斥事件，若设暑假我和同学一起旅游为事件 E ，则上小学期为事件 E 。若记我所得成绩的事件集合为： ( , ) D D ，暑期所做的事件集合为： ( , ) E E 。那么：    ( , , ) , ( , ) A B C D D E E     （3）这样一整个转移过程即为马尔可夫链，不难发现，在整个转移过程中，决定事件走向，或者说决定马尔可夫链走向的关键就是其转移概率。马尔科夫链的精髓，其实就是简化了系统从一个时刻到下一个时刻的随机演化方式，也就是假定系统的下一步状态仅取决于当前时刻的系统状态，而与其整个发展历史无关，或者说，马尔可夫链具有遗忘性。马尔科夫链也可以用转移矩阵的形式来表示，以上面的模型为例，则转移矩阵的形式如下： 0.6 0.4 0.3 0.7 E D E D                            （4）而其中，又有： 0.6 0.3 0.1 0.4 0.7 0.9 A D B D C                            (5) 观察可知，转移矩阵中每一行之和均满足归一性条件： 1 ij   p 。 3.MCMC 方法在瑞利分布中采集样本的应用 3.1 瑞利分布简介瑞利分布是最常见的用于描述平坦衰落信号接收包络或独立多径分量接收包括统计时变特性的一种分布类型。当一个随机二维向量的两个分量呈独立的、有着相同的方差的正态分布时，这个向量的模呈瑞利分布，其在电子工程、通信系统等学科中有着极为广泛的应用。因此，对其进行相关研究是非常有必要的。 3.2 瑞利分布若随机变量 X 的分布函数形式为： 2 2 ( ) 1 exp( ) 2 x F x      ，其中 x   0, 0  。则称随机变量服从瑞利分布，同时不难看出其对应的密度函数为： 2 2 2 ( ) exp( ) 2 x x f x     。 3.3 特征数

《随机模拟方法与应用》课程大作业 2015 年度春季学期 8 4.3 Gibbs 抽样方法目前，Gibbs 抽样方法在贝叶斯分析中应用最为广泛。Gibbs 抽样是由 Geman 在 1984 年提出来的，最早用于图像的处理分析、人工智能和神经网络等大型复杂数据的分析，后经 Gelfand 和 Smith（1990）引入贝叶斯模型研究中，通过模拟进行积分运算，这给贝叶斯方法的实际应用产生了深刻影响。Gibbs 抽样方法的思路很直观：它通过一系列步骤，构建了一条具有  不变性的马尔可夫链。若设 1 ( , )      k 为 k 维向量，它的概率密度为 p( )  ，显然，这是一个联合概率密度。若令i 表示 的第 i 个分量， i 表示 中除去i 之后剩下的（k-1）个分量，记转移核函数为： ( , ) ( , ) ( | ) 1, 2, . i i i p A p A p A i k            （19）其中 A 为 k 维可测向量空间。令初始点为 (0) (0) (0) ( , )     i k  ，考虑如下循环：（1）从条件分布 ( 1) ( 1) 1 1 2 ( | , ) t t P    k    中抽样得到 1 t  ；  （j）从条件分布 ( ) 1 1 ( | , ) t t Pj j k      中抽样得到 t  j ；   （k）从条件分布 ( ) 1 1 ( | , ) t t Pk k k      中抽样得到 t  k ；上述（1）-（k）步抽样完成了一轮循环，这就是 Gibbs 抽样。在（1）-（k）步过程中，每一步只抽一个变量，同时其他变量保持不变。一轮循环结束后，再以该循环所得变量值为起点进行下一轮循环，如此往复，得到 ( ) ( ) ( ) 1 ( , ) t t t      k ，t=1,2,。这显然是一条马尔可夫链。 4.4 一元线性回归模型参数的贝叶斯估计在（6）式中，变量 x 和 y 均为可观察的已知量，未知量为参数 2 a b, , 。根据贝叶斯原理，给定 y 和 x 时， 2 a b, , 的后验联合分布为： 2 2 2 1 2 2 2 1 ( , , | , ) ( , , ) ( | , , , ) 1 ( , , ) exp [ ( ) ] 2 n i i i n i i i p a b y x p a b p y a b x p a b y a bx               （20）假定参数变量 2 a b, , 之间相互独立，且它们的先验分布分别取为：

《随机模拟方法与应用》课程大作业 2015年度春季学期周波49.2 50.0 49.3 49.049.0 49.549.8 49.950.2 50.2 盘速16.7 17.0 16.8 16.6 16.7 16.8 16.9 17.0 17.0 17.1 度根据表中所给的电流周波与第一导丝盘速度的10对数据，求线性回归方程。解法1：选用最小二乘法，先计算出： 0 10 x,=496.1,∑y=168.6, isl i=l 2-24613512=8364,92 10 代入式(8)，则有：a=0.04,b=0.339,所求线性回归方程为： y=0.04+0.339x (27) 下面的解法2考虑，若基于MCMC方法，取循环次数t=200000,每一轮循环都收集a,b 两个参数，去除前2000轮未收敛的循环，剩余的循环中每隔50个收集一个，这样共得到 3960个数据，将各统计数作柱形图。由柱形图看出，a,b分布是左右对称的，因此分别以其平均数0.039和0.342估计相应的参数，从而得到回归方程： y=0.039+0.342x (28) 比较不难发现，此结果与应用最小二乘法求解的结果非常一致。 4.7对结果的分析与思考在经典的统计学理论中，对于较简单的一元线性回归模型参数的估计，无论是最小二乘法还是极大似然方法，都仅利用了所采集数据的样本信息和总体信息。而贝叶斯估计，不仅仅利用了已有数据的样本信息和总体信息，而且还利用了先验信息，即在抽样前有关已有参数的一些信息，由于这些先验信息参与到了统计推断中来，无疑提高了统计推断的质量。近年来，随着现代统计学的迅猛发展，利用MCMC方法处理复杂的统计问题，己经获得令人瞩目的成功，在经济、物理、生物技术、工业自动化等诸多领域都得到了日益广泛的应用，并成为这些学科中一些重要原理与方法的依据之一。在许多较为复杂的情况下， MCMC算法比经典数理统计方法能更直接地解决问题，且可有效整合部分先验信息，但因其需要高强度计算的特性曾一度限制了其应用与推广。随着高性能计算机的发展，贝叶斯统计方法已被广泛用于科学研究的各个领域。虽然贝叶斯方法并未给出参数估计的具体表达式，但是它可以推导出参数估计的后验分布，借助于计算机进行概率抽取，同样可以对参数进行估计。在简单模型参数估计上，两者方法效果相差不大，在复杂模型参数估计上，贝叶斯方法较经典统计方法显示出更大的优越性。 o

《随机模拟方法与应用》课程大作业 2015 年度春季学期 10 周波 49.2 50.0 49.3 49.0 49.0 49.5 49.8 49.9 50.2 50.2 盘速度 16.7 17.0 16.8 16.6 16.7 16.8 16.9 17.0 17.0 17.1 根据表中所给的电流周波与第一导丝盘速度的 10 对数据，求线性回归方程。解法 1：选用最小二乘法，先计算出： 10 10 1 1 10 10 2 1 1 496.1, 168.6, 24613.51, 8364.92 i i i i i i i i i x y x x y             代入式（8），则有： ^ ^ a b   0.04, 0.339 ，所求线性回归方程为： ^y x   0.04 0.339 （27）下面的解法 2 考虑，若基于 MCMC 方法，取循环次数 t=200000，每一轮循环都收集 a,b 两个参数，去除前 2000 轮未收敛的循环，剩余的循环中每隔 50 个收集一个，这样共得到 3960 个数据，将各统计数作柱形图。由柱形图看出，a,b 分布是左右对称的，因此分别以其平均数 0.039 和 0.342 估计相应的参数，从而得到回归方程： ^y x   0.039 0.342 （28）比较不难发现，此结果与应用最小二乘法求解的结果非常一致。 4.7 对结果的分析与思考在经典的统计学理论中，对于较简单的一元线性回归模型参数的估计，无论是最小二乘法还是极大似然方法，都仅利用了所采集数据的样本信息和总体信息。而贝叶斯估计，不仅仅利用了已有数据的样本信息和总体信息，而且还利用了先验信息，即在抽样前有关已有参数的一些信息，由于这些先验信息参与到了统计推断中来，无疑提高了统计推断的质量。近年来，随着现代统计学的迅猛发展，利用 MCMC 方法处理复杂的统计问题，己经获得令人瞩目的成功，在经济、物理、生物技术、工业自动化等诸多领域都得到了日益广泛的应用，并成为这些学科中一些重要原理与方法的依据之一。在许多较为复杂的情况下， MCMC 算法比经典数理统计方法能更直接地解决问题，且可有效整合部分先验信息，但因其需要高强度计算的特性曾一度限制了其应用与推广。随着高性能计算机的发展，贝叶斯统计方法已被广泛用于科学研究的各个领域。虽然贝叶斯方法并未给出参数估计的具体表达式，但是它可以推导出参数估计的后验分布，借助于计算机进行概率抽取，同样可以对参数进行估计。在简单模型参数估计上，两者方法效果相差不大，在复杂模型参数估计上，贝叶斯方法较经典统计方法显示出更大的优越性

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录