《概率论与数理统计》课程教学资源（整理资料）正态分布的前世今生.pdf_大学文库

P(II X-12 ≤cr-~=~∑-(n2+iA Vexp(-2i2m) ()-2cs2imN2cl2r -Vexpl 1-V2c-2l2 -Vexp(-x22)d x. 看，正态分布的密度函数的形式在积分公式中出现了！这也就是我们在数理统计课本上学到的二项分布的极限分布是正态分布。以上只是讨论了=12的情形，棣莫弗也对12做了一些计算，后来拉普拉斯对 P12的情况做了更多的分析，并把二项分布的正态近似推广到了任意P的情况。这是第一次正态密度函数被数学家勾画出来，而且是以二项分布的极限分布的形式被推导出来的。熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。 [De Moivre-Laplace中心极限定理]设随机变量Xn(=l,2…)服从参数为p的二项分布，则对任意的x,恒有 limn-nPX-Xpnp(l-p） -5x)=fx-z12z--Vexp(-t2)dt 我们在大学学习数理统计的时候，学习的过程都是先学习正态分布，然后才学习中心极限定理。而学习到正态分布的时候，直接就描述了其概率密度的数学形式，虽然数学上很漂亮，但是容易困感数学家们是如何凭空就找到这个分布的。读了陈希孺的《数理统计学简史》之后，我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问意的进程很少是按照我们数学课本的安排顺序推进的，现代的数学课本都是按照数学内在的逻辑进行组织编排的，虽然逻辑结构上严谨优美，却把数学问题研究的历史痕迹抹得一千二净。DNA双螺旋结构的发现者之一James Waston在他的名著《DNA双螺旋》序言中说：“科学的发现很少会像门外汉所想象的一样，按照直接了当合乎逻辑的方式进行的。” 棣莫弗给出他的发现后40年（大约是1770），拉普拉斯建立了中心极限定理较一般的形式，中心极限定理随后又被其它数学家们推广到了其它任意分布的情形，而不限于二项分布。后续的统计学家发现，一系列的重要统计量，在样本量N趋于无穷的时候，其极限分布都有正态的形式，这构成了数理统计学中大样本理论的基础。棣莫弗在二项分布的计算中警见了正态曲线的模样，不过他并没有能展现这个曲线的美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视，原因在于棣莫弗不是个统计学家，从未从统计学的角度去考虑其工作的意义。正态分布（当时也没有被命名为正态分 4

4 P(∣∣∣Xn−12∣∣∣ ≤cn−√)= ∼ = ∼ ∑−cn√≤i≤cn√b(n2+i)∑−cn√≤i≤cn√22πn−−−√exp(−2i2n) (1)∑−2c≤2in√≤2c12π−−√exp⎛⎝−12(2in−√)2⎞⎠2n−√∫2c−2c12π−−√exp(−x22)d x. 看，正态分布的密度函数的形式在积分公式中出现了！这也就是我们在数理统计课本上学到的二项分布的极限分布是正态分布。以上只是讨论了 p=12 的情形，棣莫弗也对 p≠12 做了一些计算，后来拉普拉斯对 p≠12 的情况做了更多的分析，并把二项分布的正态近似推广到了任意 p 的情况。这是第一次正态密度函数被数学家勾画出来，而且是以二项分布的极限分布的形式被推导出来的。熟悉基础概率统计的同学们都知道这个结果其实叫棣莫弗-拉普拉斯中心极限定理。 [De Moivre-Laplace 中心极限定理] 设随机变量 Xn(n=1,2...)服从参数为 p 的二项分布，则对任意的 x，恒有 limn→∞P{Xn−Xpnp(1−p)−−−−−−−−√≤x}=∫x−∞12π−−√exp(−t22)dt. 我们在大学学习数理统计的时候，学习的过程都是先学习正态分布，然后才学习中心极限定理。而学习到正态分布的时候，直接就描述了其概率密度的数学形式，虽然数学上很漂亮，但是容易困惑数学家们是如何凭空就找到这个分布的。读了陈希孺的《数理统计学简史》之后，我才明白正态分布的密度形式首次发现是在棣莫弗-拉普拉斯的中心极限定理中。数学家研究数学问题的进程很少是按照我们数学课本的安排顺序推进的，现代的数学课本都是按照数学内在的逻辑进行组织编排的，虽然逻辑结构上严谨优美，却把数学问题研究的历史痕迹抹得一干二净。DNA 双螺旋结构的发现者之一 James Waston 在他的名著《DNA 双螺旋》序言中说：“科学的发现很少会像门外汉所想象的一样，按照直接了当合乎逻辑的方式进行的。” 棣莫弗给出他的发现后 40 年（大约是 1770），拉普拉斯建立了中心极限定理较一般的形式，中心极限定理随后又被其它数学家们推广到了其它任意分布的情形，而不限于二项分布。后续的统计学家发现，一系列的重要统计量，在样本量 N 趋于无穷的时候，其极限分布都有正态的形式，这构成了数理统计学中大样本理论的基础。棣莫弗在二项分布的计算中瞥见了正态曲线的模样，不过他并没有能展现这个曲线的美妙之处。棣莫弗的这个工作当时并没有引起人们足够的重视，原因在于棣莫弗不是个统计学家，从未从统计学的角度去考虑其工作的意义。正态分布(当时也没有被命名为正态分

以上涉及的问题，我们直接关心的目标量往往无法直接观测，但是一些相关的量是可以观测到的，而通过建立数学模型，最终可以解出我们关心的量。这些问题都可以用如下数学模型描述：我们想估计的量是m,…,,另有若干个可以测量的量x1,p八，这些量之间有线性关系 y=B0+B1x1+.+Bpxp 如何通过多组观测数据求解出参数0，…，B即呢？欧拉和拉普拉斯采用的都是求解线性 2) p叶山，则得到的线性矛盾方程组，无法直接求解。所以歌拉和拉普拉斯采用的方法都是通过一定的对数据的观察，把个线性方程分为p+1组，然后把每个组内的方程线性求和后归并为一个方程，从而就把个方程的方程组化为叶1个方程的方程组，进一步解方程求解参数。这些方法初看有一些道理，但是都过于经验化，无法形成统一处理这一类问题的个通用解决框架。以上求解线性子盾方程的问题在现在的本科生看来都不困难，就是统计学中的线性回归问题，直接用最小二乘法就解决了，可是即便如歌拉、拉普拉斯这些数学大牛，当时也未能对这些问题提出有效的解决方案。可见在科学研究中，要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在1805年发表的，基本思想就是认为测量中有误差，所以所有方程的累积误差为累积误差=∑（观测值·理论值）2 我们求解出导致累积误差最小的参数即可。 B==argming>i-ine2iargming>i-inlyi-(B+BLx+.+Bpxpi)2 勒让德在论文中对最小二乘法的优良性傲了几点说明：最小二乘使得误差平方和最小，并在各个方程的误差之间建立了一种平衡，从而防止某一个极端误差取得支配地位 ·计算中只要求偏导后求解线性方程组，计算过程明确便捷。最小二乘可以导出算术平均值作为估计值对于最后一点，推理如下：假设真值为0，x1,,m为n次测量值，每次测量的误差为 e=x0,按最小二乘法，提差累积为 L(0=∑=1ne2=∑=1nr-02 求解0使得L(0达到最小，正好是算术平均由于算术平均是一个历经考验的方法，而以上的推理说明，算术平均是最小二乘的一个特例，所以从另一个角度说明了最小二乘方法的优良性，使我们对最小二乘法更加有借心。 6

6 以上涉及的问题，我们直接关心的目标量往往无法直接观测，但是一些相关的量是可以观测到的，而通过建立数学模型，最终可以解出我们关心的量。这些问题都可以用如下数学模型描述：我们想估计的量是 β0,⋯,βp，另有若干个可以测量的量 x1,⋯,xp,y，这些量之间有线性关系 y=β0+β1x1+⋯+βpxp 如何通过多组观测数据求解出参数 β0,⋯,βp 呢？欧拉和拉普拉斯采用的都是求解线性方程组的方法。 ⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪y1=β0+β1x11+β2x21+⋯+βpxp1y2=β0+β1x12+β2x22+⋯+βpxp2 (2) ⋮yn=β0+β1x1n+β2x2n+⋯+βpxpn 但是面临的一个问题是，有 n 组观测数据，p+1 个变量，如果 n>p+1，则得到的线性矛盾方程组，无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察，把 n 个线性方程分为 p+1 组，然后把每个组内的方程线性求和后归并为一个方程，从而就把 n 个方程的方程组化为 p+1 个方程的方程组，进一步解方程求解参数。这些方法初看有一些道理，但是都过于经验化，无法形成统一处理这一类问题的一个通用解决框架。以上求解线性矛盾方程的问题在现在的本科生看来都不困难，就是统计学中的线性回归问题，直接用最小二乘法就解决了，可是即便如欧拉、拉普拉斯这些数学大牛，当时也未能对这些问题提出有效的解决方案。可见在科学研究中，要想在观念上有所突破并不容易。有效的最小二乘法是勒让德在 1805 年发表的，基本思想就是认为测量中有误差，所以所有方程的累积误差为累积误差 =∑( 观测值 - 理论值 )2 我们求解出导致累积误差最小的参数即可。 β^==argminβ∑i=1ne2iargminβ∑i=1n[yi−(β0+β1x1i+⋯+βpxpi)]2 (3) 勒让德在论文中对最小二乘法的优良性做了几点说明： • 最小二乘使得误差平方和最小，并在各个方程的误差之间建立了一种平衡，从而防止某一个极端误差取得支配地位 • 计算中只要求偏导后求解线性方程组，计算过程明确便捷 • 最小二乘可以导出算术平均值作为估计值对于最后一点，推理如下：假设真值为 θ,x1,⋯,xn 为 n 次测量值，每次测量的误差为 ei=xi−θ，按最小二乘法，误差累积为 L(θ)=∑i=1ne2i=∑i=1n(xi−θ)2 求解 θ 使得 L(θ)达到最小，正好是算术平均 x¯=1n∑i=1nxi. 由于算术平均是一个历经考验的方法，而以上的推理说明，算术平均是最小二乘的一个特例，所以从另一个角度说明了最小二乘方法的优良性，使我们对最小二乘法更加有信心

这个摄率密度函数现在被称为拉普拉斯分布。 m/2 【Laplace的误差态分布曲线】以这个函数作为误差分布，拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。拉普拉斯可以算是一个贝叶斯主义者，他的参数估计的原则和现代贝叶斯方法非常相似：假设先验分布是均匀的，计算出参数的后验分布后，取后验分布的中值点，即1/2分位点，作为参数估计值。可是基于这个误差分布函数做了一些计算之后，拉普拉斯发现计算过于复杂，最终没能给出什么有用的结果。拉普拉斯可是概率论的大牛，写过两本极有影响力的《概率分析理论》，不过以我的数学审美，实在无法理解拉普拉斯这样的大牛怎么找了一个零点不可导的误差的分布函数拉普拉斯最终还是没能搞定误差分布的问题。现在轮到高斯登场了，高斯在数学史中的地位极高，号称数学史上的弧理，数学家阿贝尔对他的评论是"他像狐狸一样，用其尾巴把其在沙滩上的踪迹清除掉"(He is like the fox,who effaces his tracks in the sand with his tail..)我们的数学大师陈省身把奖曼和庞加莱(Henri Poincare)称为数学家中的菩萨，而称自己为罗汉：高斯是奖曼的导师，数学圆里有些教授把高斯称为数学家中的佛。在数学家中既能仰望理论数学的星空，又能脚踏应用数学的实地的可不多见，高斯是数学家中少有的项”天”立“地”的人物，他既对纯理论数学有深刻的洞察力，又极其重视数学在实践中的应用。在误差分布的处理中，高斯以极其简单的手法确立了随机误差的概率分布，其结果成为数理统计发展史上的块里程碑。高斯的介入首先要从天文学界的一个事件说起。1801年1月，天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动，这颗现在被称作谷神星(Ceres)的小行星在夜空中出现6个星期，扫过八度角后在就在太阳的光芒下没了踪影，无法观测。而留下的观测数据有限，难以计算出他的轨道，天文学家也因此无法确定这颗新星是彗星还是行星，这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了，这个问题也引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的

9 这个概率密度函数现在被称为拉普拉斯分布。【Laplace 的误差态分布曲线】以这个函数作为误差分布，拉普拉斯开始考虑如何基于测量的结果去估计未知参数的值。拉普拉斯可以算是一个贝叶斯主义者，他的参数估计的原则和现代贝叶斯方法非常相似：假设先验分布是均匀的，计算出参数的后验分布后，取后验分布的中值点，即 1/2 分位点，作为参数估计值。可是基于这个误差分布函数做了一些计算之后，拉普拉斯发现计算过于复杂，最终没能给出什么有用的结果。拉普拉斯可是概率论的大牛，写过两本极有影响力的《概率分析理论》，不过以我的数学审美，实在无法理解拉普拉斯这样的大牛怎么找了一个零点不可导的误差的分布函数，拉普拉斯最终还是没能搞定误差分布的问题。现在轮到高斯登场了，高斯在数学史中的地位极高，号称数学史上的狐狸，数学家阿贝尔对他的评论是“他像狐狸一样，用其尾巴把其在沙滩上的踪迹清除掉”(He is like the fox, who effaces his tracks in the sand with his tail.)我们的数学大师陈省身把黎曼和庞加莱(Henri Poincaré)称为数学家中的菩萨，而称自己为罗汉；高斯是黎曼的导师，数学圈里有些教授把高斯称为数学家中的佛。在数学家中既能仰望理论数学的星空，又能脚踏应用数学的实地的可不多见，高斯是数学家中少有的顶“天”立“地”的人物，他既对纯理论数学有深刻的洞察力，又极其重视数学在实践中的应用。在误差分布的处理中，高斯以极其简单的手法确立了随机误差的概率分布，其结果成为数理统计发展史上的一块里程碑。高斯的介入首先要从天文学界的一个事件说起。1801 年 1 月，天文学家 Giuseppe Piazzi 发现了一颗从未见过的光度 8 等的星在移动，这颗现在被称作谷神星（Ceres）的小行星在夜空中出现 6 个星期，扫过八度角后在就在太阳的光芒下没了踪影，无法观测。而留下的观测数据有限，难以计算出他的轨道，天文学家也因此无法确定这颗新星是彗星还是行星，这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了，这个问题也引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的

计算方法，一个小时之内就计算出了行星的轨道，并预言了它在夜空中出现的时间和位置。 1801年12月31日夜，德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里，用望远镜对准了这片天空。果然不出所料，谷神星出现了1 高斯为此名声大展，但是高斯当时拒绝透露计算轨道的方法，原因可能是高斯认为自己的方法的理论基础还不够成熟，而高斯一向治学严谨、精益求精，不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后，才将他的方法公布于众，而其中使用的数据分析方法，就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的？让我们看看高斯是如何猜测上帝的意图的，设真值为0，而xl,…,心m为n次独立测量值，每次测量的误差为e=x广-0，假设误差 ei的密度函数为几)，则测量值的联合概率为n个误差的联合横率，记为 L(=L(0:x1,…r=fe1)fen=fx1-fxm-. (4) 但是高斯不采用贝叶新的推理方式，而是直接取L(0达到最大值的=0(,,m)作为 0的估计值，即 0A=argmax0L(仍. 现在我们把L(称为样本的似然函数，而得到的估计值^称为极大似然估计。高斯首次给出了极大似然的思想，这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的极大似然估计理论。高斯接下来的想法特别牛，他开始揣度上帝的意图，而这充分体现了高斯的数学天才。他把整个问愿的思考棋式倒过来：既然千百年来大家都认为算术平均是一个好的估计，那我就认为极大似然估计导出的就应该是算术平均！所以高斯猜测上帝在创世纪中的旨意就是：误差分布导出的极大似然估计=算术平均值然后高斯去找误差密度函数∫以迎合这一点。即寻找这样的概率分布函数∫使得极大似然估计正好是算术平均日小-x。通过应用数学技巧求解这个函数了高斯证明（证明不难，后续给出)了所有的概率密度函数中，唯一满足这个性质的就是 l2π-Vaexp(-x22o2) 雕，正态分布的密度函数N0,2)被高斯他老人家给解出来了！ 10

10 计算方法，一个小时之内就计算出了行星的轨道，并预言了它在夜空中出现的时间和位置。 1801 年 12 月 31 日夜，德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间里，用望远镜对准了这片天空。果然不出所料，谷神星出现了！高斯为此名声大震，但是高斯当时拒绝透露计算轨道的方法，原因可能是高斯认为自己的方法的理论基础还不够成熟，而高斯一向治学严谨、精益求精，不轻易发表没有思考成熟的理论。直到 1809 年高斯系统地完善了相关的数学理论后，才将他的方法公布于众，而其中使用的数据分析方法，就是以正态误差分布为基础的最小二乘法。那高斯是如何推导出误差分布为正态分布的？让我们看看高斯是如何猜测上帝的意图的。设真值为 θ，而 x1,⋯,xn 为 n 次独立测量值，每次测量的误差为 ei=xi−θ，假设误差 ei 的密度函数为 f(e)，则测量值的联合概率为 n 个误差的联合概率，记为 L(θ)=L(θ;x1,⋯,xn)=f(e1)⋯f(en)=f(x1−θ)⋯f(xn−θ). (4) 但是高斯不采用贝叶斯的推理方式，而是直接取 L(θ)达到最大值的 θ^=θ^(x1,⋯,xn)作为 θ 的估计值，即 θ^=argmaxθL(θ). 现在我们把 L(θ)称为样本的似然函数，而得到的估计值 θ^称为极大似然估计。高斯首次给出了极大似然的思想，这个思想后来被统计学家 R.A.Fisher 系统地发展成为参数估计中的极大似然估计理论。高斯接下来的想法特别牛，他开始揣度上帝的意图，而这充分体现了高斯的数学天才。他把整个问题的思考模式倒过来：既然千百年来大家都认为算术平均是一个好的估计，那我就认为极大似然估计导出的就应该是算术平均！所以高斯猜测上帝在创世纪中的旨意就是：误差分布导出的极大似然估计 = 算术平均值. 然后高斯去找误差密度函数 f 以迎合这一点。即寻找这样的概率分布函数 f,使得极大似然估计正好是算术平均 θ^=x¯。通过应用数学技巧求解这个函数 f，高斯证明(证明不难，后续给出)了所有的概率密度函数中，唯一满足这个性质的就是 f(x)=12π−−√σexp(−x22σ2). 瞧，正态分布的密度函数 N(0,σ2)被高斯他老人家给解出来了！