
目录第五章数理统计的基本概念及抽样分布195.1引言185.1.1什么叫数理统计学1数理统计学的应用4$5.1.26统计学发展简史$5.1.37数理统计的若干基本概念85.27$5.2.1总体和样本样本的两重性和简单随机样本9$5.2.2统计模型$5.2.310统计推断$5.2.411$5.3统计量12统计量的定义$5.3.112若干常用的统计量85.3.213i
8 ¹ 1ÊÙ ênÚOÄVg9ĩ٠1 §5.1 Úó . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 §5.1.1 oênÚOÆ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 §5.1.2 ênÚOÆA^ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 §5.1.3 ÚOÆuÐ{¤ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 §5.2 ênÚOeZÄVg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 §5.2.1 oNÚ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 §5.2.2 ü5Ú{üÅ . . . . . . . . . . . . . . . . . . . . . . 9 §5.2.3 ÚO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 §5.2.4 ÚOíä . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 §5.3 ÚOþ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 §5.3.1 ÚOþ½Â . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 §5.3.2 eZ~^ÚOþ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 i

第五章数理统计的基本概念及抽样分布教学目的:1)使学生对什么叫数理统计及其发展史有一个初步的了解。2)使学生掌握数理统计的若干基本概念,如总体、样本、简单样本、统计模型等。3)使学生掌握统计量x2、t、F、正态总体样本均值和样本方差的分布及其简单性质$5.1引言85.1.1什么叫数理统计学本课程的前四章介绍了概率论的基本内容,为数理统计学建立了重要的数学基础.从本章起,我们转入本课程的第二部分一数理统计学,下面我们首先说明什么是数理统计学.统计学的任务是研究怎样有效地收集、整理和分析带有随机性影响的数据,从而对所考虑的问题作出一定结论的方法和理论.它是一门实用性很强的学科,在人类活动的各个领域有着广泛的应用研究统计学方法的理论基础问题的那一部分构成“数理统计学”的内容.一般地可以认为数理统计是数学的一个分支,它是研究如何有效地收集和有效地使用带有随机性影响的数据的一门学科.下面通过例子对此加以说明1.有效地收集数据收集数据的方法有:全面观察(或普查)、抽样调查和安排试验等方式例5.1.1.人口普查和抽样调查,我国在2000年进行了第五次人口普查:如果普查的数据是准确无误的,无随机性可言,不需用数理统计方法,由于人口普查,调查项目很多我国有13亿人口,普查工作量极大,而训练有素的工作人员缺乏,因此虽是全面调查,但数据并不可靠,农村超计划生育满报、漏报人口的情况时有发生:针对普查数据不可靠,国家统计局在人口普查的同时还派出专业人员对全国人口进行抽样调查,根据抽样调查的结果,对人口普查的数字进行适当的修正.抽样调查在普查不可靠时是一种补充办法.1
1ÊÙ ênÚOÄVg9ĩ٠Æ8: 1) ¦Æ)éoênÚO9ÙuФkÐÚ )" 2) ¦Æ)ݺênÚOeZÄVg§XoN!!{ü!ÚO." 3) ¦Æ)ݺÚOþχ 2!t!F!oNþÚ©Ù9Ù{ü5. §5.1 Úó §5.1.1 oênÚOÆ §coÙ0 VÇØÄSN, ênÚOÆïá êÆÄ:.l Ùå, ·=\§1Ü©—ênÚOÆ. e¡·Äk`²o´ênÚO Æ. ÚOÆ?Ö´ïÄNk/Â8!nÚ©ÛkÅ5Kêâ, l é ¤Ä¯Kѽ(Ø{ÚnØ. §´¢^5érÆ, 3<a¹Ä +kX2A^. ïÄÚOÆ{nØÄ:¯K@Ü©¤“ênÚO Æ”SN. /±@ ênÚO´êÆ©|, §´ïÄXÛk/Â8Úk/¦^kÅ5K êâÆ. e¡ÏL~féd\±`². 1. k/Â8êâ Â8êâ{k: ¡* (½Ê)!ÄNÚSüÁª. ~ 5.1.1. <ÊÚÄN. ·I32000c?1 1Êg<Ê. XJÊê â´O(ÃØ, ÃÅ5ó, ØI^ênÚO{. du<Ê, N8éõ, ·Ik13·<, Êóþ4, Ôökó< "y. Ïd´¡N, êâ¿Ø, à~Oy)ô!¦<¹ku). éÊêâØ, I[ÚOÛ3<ÊÓÑ;< éI<?1ÄN, âÄN (J, é<Êêi?1·?. ÄN3ÊØ´«Ö¿ {. 1

如何安排抽样调查,这是有效收集数据的重要问题,这构成数理统计学的一个重要分支一《抽样调查方法》,例5.1.2.考察某地区10000农户的经济状况.从中挑选100户做抽样调查.若该地区分成平原和山区两部分,平原地区较富,占该地区农户的70%,山区的30%农户较穷.我们的抽样方案规定在抽取的100户中,从平原地区抽70户,山区抽30户,在各自范围内用随机化方法抽取在本例中有效收集数据是通过合理地设计抽样方案来实现的.在通过试验收集数据的情形如何做到有效收集数据,请看下例例5.1.3.某化工产品的得率与温度、压力和原料配方有关。为提高得率,通过试验寻找最佳生产条件:试验因素和水平如下水平2314因素温度800100012001400压力10203040D配方A8c3个因素,每个因素4个水平共要做43=64次试验.做这么多试验人力、物力、财力都不可能,因此,如何通过尽可能少的试验获得尽可能多的信息?比如采用正交表安排试验就是一种有效的方法如何安排试验方案和分析试验结果,这构成数理统计的另一分支一《试验的设计和分析》,在本例中有效收集数据是通过科学安排试验的方法来实现的在有效收集数据中一个重要问题是:数据必须具有随机性2.有效的使用数据获取数据后,需要用有效的方法,去集中和提取数据中的有关信息,以对所研究的问题作出一定的结论,在统计上称为“推断”为了有效的使用数据进行统计推断,需要对数据建立一个统计模型,并给定某些准则去评判不同统计推断方法的优劣2
XÛSüÄN, ù´kÂ8êâ¯K, ù¤ênÚOÆ ©|—5ÄN{6. ~ 5.1.2. ,/«10000àr²LG¹. l¥]À100rÄN. eT/«©¤ ²Úì«üÜ©, ²/«L, ÓT/«àr70%, ì«30%àr¡. · ÄY5½3Ä100r¥, l²/«Ä70r, ì«Ä30r, 3gS^Å z{Ä. 3~¥kÂ8êâ´ÏLÜn/OÄY5¢y. 3ÏLÁÂ8ê â/XÛkÂ8êâ, we~: ~ 5.1.3. ,zó¬Ç§Ý!ØåÚk'. JpÇ, ÏLÁÏé Z)^. ÁÏÚY²Xe P Ï P PPPPPPPPP Y² 1 2 3 4 §Ý 800 1000 1200 1400 Øå 10 20 30 40 A B C D 3Ï, zÏ4Y² 4 3 = 64 gÁ. ùoõÁ<å!Ôå!ãåÑØ U. Ïd, XÛÏL¦UÁ¼¦Uõ&E? 'Xæ^LSüÁ Ò´«k{. XÛSüÁYÚ©ÛÁ(J, ù¤ênÚO,©|—5ÁOÚ ©Û6. 3~¥kÂ8êâ´ÏLÆSüÁ{5¢y. 3kÂ8ê⥯K´: êâ7LäkÅ5. 2. k¦^êâ ¼êâ, I^k{, 8¥ÚJêâ¥k'&E, ±é¤ïÄ ¯Kѽ(Ø, 3ÚOþ¡“íä”. k¦^êâ?1ÚOíä, IéêâïáÚO., ¿½, O KµØÓÚOíä{`. 2

例5.1.4.为估计一个物体的重量a,把它在天平上称5次获得数据1,2,.,5,它们都受到随机性因素的影响(天平的精度反映了影响的大小)估计a的大小有下列三种不同方法:(1)用5个数的算术平均值=(a1+..+5)去估计a;(2)将21,2,,5按大小排列为(1)≤(2)≤≤(5),取中间一个值(3)去估计a;(3)用W=((1)+(5)去估计a.你可能认为优于(3),而(3)优于W.这是不是对的?为什么是这样?在什么条件下才对?事实上,对这些问题的研究正是数理统计学的任务,要回答这些问题我们需要对数据建立一个统计模型和制定评判不同统计推断方法的准则.本例中在适当的假定下,可认为数据服从正态模型下面我们举一个例子说明采用合适的统计方法也是有效使用数据的一个重要方面例5.1.5.某农村有100户农户,要调查此村农民是否脱贫.脱贫的标准是每户年均收入超过1万元.经调查此村90户农户年收入5000元,10户农户年收入10万元,问此村农民是否脱贫?(1)用算术平均值计算该村农户年均收入如下:=(90×0.5+10×10)/100=1.45(万)按此方法得出结论:该村农民已脱贫.但90%的农户年均收入只有5000元,事实上并未脱贫.(2)用样本中位数计算该村农户年均收入:即将100户的年收入记为1,32,.2100,将其按大小排列为(1)≤(2)≤≤(100)·样本中位数定义为排在最中间两户的平均值,即((50)+(51)/2=0.5(万)按此方法得出结论:该村农民尚未脱贫.这与实际情况相符3.数理统计方法的归纳性质数理统计是数学的一个分支,但是它的推理方法是不一样的:统计方法的本质是归纳式的,而数学则是演绎式的.统计方法的归纳性质,源于它在作结论时,是根据所观察到的大量的“个别”情况,“归纳”起来所得.而不是从一些假设、命题或已知事实出发按一定的逻辑推理得出来的(这后者称为演绎推理):举一例子说明:统计学家通过大量的3
~ 5.1.4. OÔNþa,r§3U²þ¡5g¼êâ x1, x2, · · · , x5, §Ñ ÉÅ5ÏK(U²°ÝN K). Oaken«ØÓ {: (1) ^5êâ²þ x¯ = 1 5 (x1 + · · · + x5) Oa; (2) ò x1, x2, · · · , x5 U ü x(1) ≤ x(2) ≤ · · · ≤ x(5) , ¥m x(3) Oa; (3) ^ W = 1 2 (x(1) + x(5)) Oa.\U@ x¯ `u x(3), x(3) `u W.ù´Ø´é? o´ù? 3 o^eâé? ¯¢þ, éù ¯KïÄ´ênÚOÆ?Ö. £ù ¯K·IéêâïáÚO.Ú½µØÓÚOíä{ OK. ~¥3·b½e, @êâÑl. e¡·Þ~f`²æ^Ü·ÚO{´k¦^êâ¡. ~ 5.1.5. ,à~k100ràr, Nd~à¬´Äø«. ø«IO´zrcþÂ\ L1. ²Nd~90ràrcÂ\5000, 10ràrcÂ\10, ¯d~଴ Äø«? (1) ^â²þOT~àrcþÂ\Xe: x¯ = (90 × 0.5 + 10 × 10)/100 = 1.45() Ud{Ñ(Ø: T~ମø«. 90%àrcþÂ\k5000, ¯¢þ¿ø «. (2) ^¥ êOT~àrcþÂ\: =ò100rcÂ\P x1, x2, · · · , x100, òÙUü x(1) ≤ x(2) ≤ · · · ≤ x(100) . ¥ ê½Âü3¥mür ²þ, = (x(50) + x(51))/2 = 0.5() Ud{Ñ(Ø: T~à¬ÿø«. ù¢S¹Î. 3. ênÚO{8B5 ênÚO´êÆ©|, ´§ín{´Ø. ÚO{´8 Bª, êÆK´ü̪. ÚO{8B5, u§3(Ø, ´â¤* þ“O”¹, “8B”å5¤. Ø´l b!·K½®¯¢ÑuU ½Ü6ínÑ5(ùö¡üÌín) . Þ~f`²: ÚOÆ[ÏLþ 3

观察资料发现,吸烟与某种呼吸系统的疾病有关,他得出这一结论的根据是:从观察到的大量例子,看到吸烟者中患此种疾病的比例远高于不吸烟者.他不可能用逻辑推理的方法证明这一点,试拿统计学与几何学进行比较就可以清楚地看出二者方法的差别所在,在几何学中要证明“等腰三角形两底角相等”,只需从等腰这个前提出发,运用几何公理,一步步地推出这个结论(这一方法属于演绎推理):而一个习惯于统计方法的人就可能想出这样的方法:作很多大小形状不一的等腰三角形,实际测量它的底角查看区别如何,根据所得数据,看看可否作出底角相等的结论,这属于归纳推理的方法众所周知,归纳推理是要冒风险的.事实上归纳推理的不确定性的出现,是一种逻辑的必然人们不可能做出十分肯定的结论,因为归纳推理所依据的数据具有随机性然而,不确定性的推理是可行的,所以推理的不确定性程度是可以计算的,统计学的作用之一就是提供归纳推理和计算不确定性程度的方法.不确定性是用概率计算的.以后会见到我们求参数的区间估计,不但给出区间估计的表达式,而且给出这一估计区间包含未知参数的可靠程度的大小$5.1.2数理统计学的应用人类在科学研究、生产和管理等各方面的活动,大都离不开数据资料的收集、整理和分析的工作.因此统计学的应用领域也及其广泛1.国家行政机关和各种职能机构的工作,需要经常收集各种有关的数据资料,以了解情况并做出相应的决策,这里面的统计工作,固然有大量的描述性统计的成份,但统计推断的方法也很有用并且十分必要.例如在判断某一时期经济运行是否过热,以便采取宏观调控措施等重大决策时,对当时经济运行种数据和资料进行定量分析是必不可少的.这就离不开统计推断方法用数理统计方法进行社会调查,这种工作常属于国家职能部门的工作范围.“抽样调查”是常用的方法,统计学的方法在决定调查规模和制定有效的抽样方案是很有用,统计推断方法在对调查得来的资料进行正确分析时也有指导意义.例如经过精心设计和组织的社会抽样调查,其效果有时可达到甚至超过全面调查的水平,在人口学中,确定一个合适的人口发展动态模型需要掌握大量的观察资料,而且要使用包括统计方法在内的一些科学方法.再如,社会保险基金需要用到精算学,建立精算模型、对寿命数据的分析都要用到许多统计方法2.在工农业生产中我们常常要利用试验设计和方差分析的方法寻找最佳生产条件例如为提高农业中的单位面积产量,有一些因素对这个指标有影响:种子的品种、施肥量4
* ]uy, áë,«áXÚ;¾k'. ¦Ñù(Øâ´: l* þ~f, wáëö¥d«;¾'~puØáëö. ¦ØU^Ü6ín {y²ù:. Á<ÚOÆAÛÆ?1'Ò±Ù/wÑö{O¤ 3. 3AÛÆ¥y²“n/ü.”, IlùcJÑu, $^AÛ ún, ÚÚ/íÑù(Ø(ù{áuüÌín) . S.uÚO{<, ÒUÑù{: éõ/GØn/, ¢Sÿþ§.w« OXÛ, â¤êâ, wwÄÑ.(Ø, ùáu8Bín{. ¯¤±, 8Bín´kºx. ¯¢þ8BínØ(½5Ñy, ´«Ü 67,. <ØUÑ©½(Ø, Ï8Bín¤âêâäkÅ5. , , Ø(½5ín´1, ¤±ínØ(½5§Ý´±O. ÚOÆ ^Ò´Jø8BínÚOØ(½5§Ý{. Ø(½5´^VÇO. ± ¬·¦ëê«mO, ØÑ«mOLª, ÑùO«m ¹ëê§Ý. §5.1.2 ênÚOÆA^ <a3ÆïÄ!)Ú+n¡¹Ä, ÑlØmêâ]Â8!n Ú©Ûó. ÏdÚOÆA^+9Ù2. 1. I[1Å'Ú« UÅó, I²~Â8«k'êâ], ± )¹¿ÑAûü. ùp¡ÚOó, ,kþ£ã5ÚO¤°, Ú Oíä{ék^¿ ©7. ~X3ä,ϲL$1´ÄL9, ±Bæ ÷*Nûü, é²L$1«êâÚ]?1½þ©Û´7Ø . ùÒlØmÚOíä{. ^ênÚO{?1¬N, ù«ó~áuI[ UÜó. “ÄN ”´~^{. ÚOÆ{3û½N5Ú½kÄY´ék^, Ú Oíä{3éN5]?1(©Ûk¿Â. ~X²L°%OÚ| ¬ÄN, ÙJk$L¡NY². 3<Æ¥, (½ Ü·<uÐÄ.Iݺþ* ], ¦^)ÚO{3S Æ{. 2X, ¬xÄ7I^°Æ, ïá°.!鯷êâ©Û Ñ^NõÚO{. 2. 3óà)¥·~~|^ÁOÚ©Û{ÏéZ)^. ~XJpà¥ü ¡Èþ, k ÏéùIkK: «f¬«!þ 4

和浇水量等:工业生产中影响某项产品质量指标的因素有原材料产地、配方、温度和压力等因素:为了找到一组较好的生产条件就要进行试验,如何科学的安排试验和分析试验结果,就需要用到统计方法试验设计的基本思想和方差分析方法就是R.A.Fisher等在1923-1926年期间,在进行田间试验中发展起来的,这一方法后来广泛应用于工业生产中数理统计方法应用于工业生产的另一个重要方面是产品质量控制、抽样调查和工业产品寿命的可靠性问题.现代工业生产有批量大和很高可靠度的特点需要在连续生产过程中进行工序控制.成批的产品在交付使用前要进行验收,这种验收一般不能进行全面检验,而只能是抽样验收,需要根据统计学的原理制定合适的抽样方案.大型设备或复杂产品(如导弹)包含成千上万个元件.由于元件的数目很大,元件的寿命服从一定的概率分布,整个设备(或产品)的寿命与其结构和元件的寿命分布有关,为了估计设备(或产品)的可靠性,发展了一系列的统计方法统计质量管理就是由上述提到的这些方法构成的3.数理统计方法在经济和金融领域也有广泛的应用,在经济学中定量分析的趋势比其他社会科学部门更早更深入.现在有一门叫做“计量经济学的学科,其内容主要就是将统计方法(及其他数学方法)用于分析种种经济问题的数量方面.例如早在20世纪二、三十年代时间序列的统计分析方法就用于市场预测,目前在金融等领域也广泛的使用时间序列方法4.统计方法在生物、医学和遗传学中有广泛的应用.一种药品的疗效如何,要通过细心安排的试验并使用正确的统计分析方法,才能比较可靠地做出结论.分析某种疾病的发生是否与特定因素有关(一个典型的例子是吸烟与患肺癌的关系),这些问题常常是从观察和分析大量资料的基础上得到启示,再提高到理论上的研究.这方面的应用还有流行病数据的统计分析、遗传基因数据的统计分析等5.数理统计方法在气象预报、水文、地震、地质等领域有广泛应用.在这类领域中人们对事物规律性的认识不充分,使用统计方法有助于获得一些潜在规律性的认识,用以指导人们的行动6.数理统计方法在科学研究中也具有重要作用:自然科学研究的根本任务是揭示自然界的规律性,科学试验是重要手段,而随机因素对试验结果的影响无所不在.一个好的统计方法有助于提取观察和实验数据中带根本性的信息,因而有助于提出较正确的理论或假说.有了一定的理论和假说后,统计方法可以指导研究工作者如何进一步安排试验或观察,以使所得数据更有助于判定定理或假说是否正确,数理统计学也提供了理5
ÚYþ; ó)¥K,¬þIÏká/!!§ÝÚØ åÏ; é|Ð)^Ò?1Á. XÛÆSüÁÚ©ÛÁ (J, ÒI^ÚO{. ÁOÄgÚ©Û{Ò´R.A. Fisher 3 1923–1926 cÏm, 3?1XmÁ¥uÐå5, ù{52A^uó) ¥. ênÚO{A^uó),¡´¬þ!ÄNÚó ¬Æ·5¯K. yó)k1þÚépÝA:, I3ëY) L§¥?1óS. ¤1¬3G¦^c?1Â, ù«ÂØU?1 ¡u, U´ÄÂ, IâÚOÆn½Ü·ÄY. .½ E,¬(X) ¹¤Zþ. duê8é, Æ·Ñl½ VÇ©Ù, (½¬) Æ·Ù(ÚÆ·©Ùk', O(½ ¬) 5, uÐ XÚO{. ÚOþ+nÒ´dþãJù { ¤. 3. ênÚO{3²LÚ7K+k2A^, 3²LÆ¥½þ©Ûª³ 'Ù¦¬ÆÜ@\. y3k“Oþ²LÆ”Æ, ÙSNÌÒ ´òÚO{(9Ù¦êÆ{) ^u©Û««²L¯Kêþ¡. ~X@320V !ncmSÚO©Û{Ò^u½|ýÿ, 8c37K+2¦ ^mS{. 4. ÚO{3)Ô!ÆÚ¢DÆ¥k2A^. «¬XÛ, ÏL [%SüÁ¿¦^(ÚO©Û{, âU'/Ñ(Ø. ©Û,«;¾ u)´ÄA½Ïk'(;.~f´áë¡J'X), ù ¯K~~´ l* Ú©Ûþ]Ä:þé«, 2JpnØþïÄ. ù¡A^k 61¾êâÚO©Û!¢DÄÏêâÚO©Û. 5. ênÚO{3íý!Y©!/!/+k2A^. 3ùa+¥, <é¯Ô5Æ5@£Ø¿©, ¦^ÚO{kÏu¼ d35Æ5@£, ^ ±<1Ä. 6. ênÚO{3ÆïÄ¥äk^. g,ÆïÄ?Ö´« g,.5Æ5, ÆÁ´Ãã, ÅÏéÁ(JKäØ3. ÐÚO{kÏuJ* Ú¢êâ¥5&E, Ï kÏuJÑ( nؽb`. k ½nØÚb`, ÚO{±ïÄóöXÛ?ÚSü Á½* , ±¦¤êâkÏu½½n½b`´Ä(. ênÚOÆJø n 5

论上有效的方法去估量观察或试验数据与理论的符合程度如何.一个著名的例子是遗传学中的Mendal定律.这个根据观察资料提出的定律,经历了严格的统计检验.由此可见数理统计方法是科学研究中一个必不可少的手段另一方面,应用上的需要文是统计方法发展的动力,例如现代统计学的奠基人、英国著名学者R.A.Fisher和K.Pearson在20世纪初期从事统计学的研究,就是出于生物学、遗传学和农业科学方面的需求.85.1.3统计学发展简史数理统计学是一门较年轻的学科,它主要的发展是从20世纪初开始.大概可分为两个阶段.前一阶段大致上到第二次世界大战结束时为止.在这一早期发展阶段中,起主导作用的是以R.A.Fisher和K.Pearson为首的英国学派,特别是Fisher,在本学科的发展中起了独特的作用.其他一些著名的学者,如W.S.Gosset(Student)、J.Neyman、E.S.Pearson(K.Pearson的儿子)、A.Wald以及我国的许宝教授等都作出了根本性的贡献.他们的工作奠定了许多统计分支的基础,提出了一系列具有重要应用价值的统计方法,和一系列的基本概念和重要理论问题.有一种意见认为瑞典统计学家H.Cramer在1946年发表的著作《MathematicalMethodsof Statistics》标志了这门学科达到成熟的地步收集和记录种种数据的活动,在人类历史来源已久.翻开我国二十四史,可以看到上面有很多关于钱粮、人口及地震洪水等自然灾害的记录.在西方国家,Statistics(统计学)一词源出于State(国家),意指国家收集的国情材料.19世纪中叶以后,包括政治统计、人口统计、经济统计、犯罪统计、社会统计等多方面内容的“社会统计学”一词在西方开始出现,与此相应的社会调查也有了较大发展,人们试图通过社会调查,搜集、整理、分析数据,以揭示社会现象和问题,并提出解决具体问题的方法,这种情况延续了许多年,研究方法属于描述统计学的范畴.这是因为,没有一定的数学工具特别是概率论的发展,无法建立现代意义下的数理统计学,也因为这方面的需求还没达到那么迫切,足以构成一股强大的推动力,到于九世纪未和二十世纪初情况才起了较大的变化,有人认为二十世纪初K.Pearson关于x2统计量极限分布的论文可以作为数理统计诞生的一个标志:也有人认为,直到1922年Fisher关于统计学的数学基础那篇著名论文的发表,数理统计才正式诞生综上所述,我们可否可以得到如下粗略的结论:收集和整理乃至使用观察和试验数据的工作由来已久,这类活动对于数理统计学的产生,可算是一个源头十九世纪,特别是十九世纪后半期发展速度加快,且有了质的变化.十九世纪未到二十世纪初这一阶段6
Øþk{þ* ½ÁêânØÎܧÝXÛ. Ͷ~f´¢D Æ¥Mendal½Æ. ùâ* ]JѽÆ, ²{ îÚOu. dd ênÚO{´ÆïÄ¥7ØÃã. ,¡, A^þIq´ÚO{uÐÄå. ~XyÚOÆCÄ<!= IͶÆöR.A. FisherÚK. Pearson320VÐÏl¯ÚOÆïÄ, Ò´Ñu)ÔÆ! ¢DÆÚàÆ¡I¦. §5.1.3 ÚOÆuÐ{¤ ênÚOÆ´cÆ, §Ìuдl20VÐm©. V©ü ã. cãþ1g.Ô(å. 3ù@ÏuÐã¥, åÌ ^´±R.A. FisherÚK. PearsonÄ=IÆ, AO´Fisher, 3ÆuÐ¥å ÕA^. Ù¦ ͶÆö, XW.S. Gosset (Student)!J. Neyman!E.S. Pearson (K. Pearsonf)!A. Wald±9·INèÇÑÑ 5z. ¦ óC½ NõÚO©|Ä:, JÑ XäkA^dÚO{, ÚX ÄVgÚnدK. k«¿@a;ÚOÆ[H. Cramer3 1946 cuL Í5Mathematical Methods of Statistics6I ùƤÙ/Ú. Â8ÚP¹««êâ¹Ä, 3<a{¤5 ®È. m·Io¤, ±w þ¡kéõ'ua÷!<9/öYg,/³P¹. 3ÜI[, Statistics (ÚO Æ) c ÑuState (I[) , ¿I[Â8Iá. 19V¥±, )£Ú O!<ÚO!²LÚO!ÚO!¬ÚOõ¡SN“¬ÚOÆ”c3Ü m©Ñy, dA¬Nk uÐ. <ÁãÏL¬N, |8! n!©Ûêâ, ±«¬yÚ¯K, ¿JÑ)ûäN¯K{. ù«¹òY Nõc, ïÄ{áu£ãÚOÆÆ. ù´Ï, vk½êÆóäAO´VÇ ØuÐ, Ã{ïáy¿ÂeênÚOÆ. Ïù¡I¦v@o½, v±¤ríÄå. ÊV"ÚVйâå Cz. k< @VÐK. Pearson'uχ 2ÚOþ4©ÙØ©±ênÚO) I; k<@, 1922cFisher'uÚOÆêÆÄ:@ͶةuL, ên ÚOâª). nþ¤ã, ·Ä±XeoÑ(Ø: Â8ÚnD¦^* ÚÁê âód5®È, ùa¹ÄéuênÚOÆ), ´ Þ. ÊV, AO ´ÊVÏuÐÝ\¯, k Cz. ÊVVÐùã, 6

出现了一系列的重要工作.无论如何,至迟到二十世纪二十年代,这门科学已稳稳的站住了脚跟.二十世纪前四十年有了迅速而全面的发展,到二十世纪四十年代时,已形成为一个成熟的数学分支从战后到现在可以说是第二阶段.在这个时期中,许多战前开始形成的数理统计分支,在战后得到纵深的发展,理论上的深度也比以前大大加强了,同时还出现了带根本性的发展,如Wald的统计判决理论和Bayes学派的兴起.在数理统计的应用方面,也给人印象深刻.这不仅是战后工农业生产和科学技术迅速发展所提出的要求,也是由于电子计算机这一有力工具的出现和飞速发展推动了数理统计学的进步战前由于计算工具跟不上,许多需要大量计算的统计方法很难得以使用.战后有了高速计算机便变得很容易这就大大推广厂统计方法的应用:自前,统计方法仍在逢勃发展中在一些统计学发达的国家中,特别在美国,这方面的人才数以十万计,并在大多数大学中建立了统计系.近三十年来数理统计学在我国的发展也是令人瞩目的85.2数理统计的若干基本概念35.2.1总体和样本通过下面的例子说明总体、个体和样本的概念,例5.2.1.假定一批产品有10000件,其中有正品也有废品,为估计废品率,我们往往从中抽取一部分,如100件进行检查,此时这批10000件产品称为总体,其中的每件产品称为个体,而从中抽取的100件产品称为样本.样本中个体的数目称为样本的大小,也称为样本容量.而抽取样本的行为称为抽样从本例我们可对总体和样本作如下直观的定义总体是与我们所研究的问题有关的所有个体组成,而样本是总体中抽取的一部分个体.若总体中个体的数目为有限个,则称为有限总体,否则称为无限总体在统计研究中,人们所关心的不是总体内个体的本身,而是关心个体上的一项(或几项)数量指标,如日光灯的寿命,零件的尺寸.在例5.2.1中若产品为正品用0表示,若产品为废品用1表示,我们关心的个体取值是0还是1.因此我又可获得总体的如下定义:总体可以看成是由所有个体上的某种数量指标构成的集合,因此它是数的集合7
Ñy Xó. ÃØXÛ, ´Vc, ùÆ®Õ 4 . Vcock × ¡uÐ, Voc, ®/¤ ¤ÙêÆ©|. lÔy3±`´1ã. 3ùÏ¥, NõÔcm©/¤ênÚO© |, 3ÔpuÐ, nØþÝ'±c\r . ÓÑy 5uÐ, XWaldÚOûnØÚBayesÆ,å. 3ênÚOA^¡, f OÅùkåóäÑyÚuÐíÄ ênÚOÆ?Ú. ÔcduOóä Øþ, NõIþOÚO{éJ±¦^. Ôk pOÅBCéN´, ùÒí2 ÚO{A^. 8c, ÚO{E3%ÇuÐ¥. 3 ÚOÆu I[¥, AO3{I, ù¡<âê±O, ¿3õêÆ¥ïá ÚOX. C nc5ênÚOÆ3·Iuд-<Ê8. §5.2 ênÚOeZÄVg §5.2.1 oNÚ ÏLe¡~f`²oN!NÚVg. ~ 5.2.1. b½1¬k10000, Ù¥k¬k¢¬, O¢¬Ç, · l¥ ÄÜ©, X100?1u. dù110000¬¡oN, Ù¥z¬¡ N, l¥Ä100¬¡. ¥Nê8¡, ¡ Nþ. Ä1¡Ä. l~·éoNÚXe*½Â: oN´·¤ïįKk'¤kN|¤, ´oN¥ÄÜ© N. eoN¥Nê8k, K¡koN, ÄK¡ÃoN. 3ÚOïÄ¥, <¤'%Ø´oNSN, ´'%Nþ(½A ) êþI, XF1Æ·, "º. 3~5.2.1¥e¬¬^0L«, e¬ ¢¬^1L«, ·'%N´0´1. Ïd·q¼oNXe½Â: oN±w¤´d¤kNþ,«êþI¤8Ü, Ïd§´ê8Ü. 7

由于每个个体在抽样时的出现是随机的,所以相应的个体上的数量指标的出现也带有随机性.从而可以把此种数量指标看成随机变量,随机变量的分布就是该数量指标在总体中的分布.以例5.2.1来说明,假定10000只产品中废品数为100件,其余的为正品,废品率为0.01.我们定义随机变量X如下:【1废品X=10正品其概率分布为0-1分布,且有P(X=1)=0.01.因此,特定个体上的数量指标是随机变量X的观察值.这样一来,总体可以用一个随机变量X及其分布来描述,获得如下定义定义5.2.1.一个统计问题所研究的对象的全体称为总体.在数理统计学中总体可以用一个随机变量及其概率分布来描述由于总体的特征由其分布来刻画,因此统计学上常把总体和总体分布视为同义语由于这个缘故,常用随机变量的符号或分布的符号来表示总体,比如研究某批日光灯寿命时,人们关心的数量指标是寿命X,那么此总体就可以用随机变量X来表示,或用其分布函数F来表示,若F有密度,记为f,则此总体也可用密度函数f来表示有时也根据总体分布的类型来称呼总体的名称,如正态总体、二项分布总体、0-1分布总体,若总体分布函数记为F,当有一个从该总体中抽取的相互独立同分布(i.i.d.)的大小为n的样本Xi,Xn,则常记为Xi,...,Xnii.d. ~F(5.2.1)若F有密度f,可记为Xi,..,Xn ii.d. ~ f(5.2.2)若所考虑的总体用随机变量X表示其分布函数为F,则样本X1,.·,X,可视为随机变量X的观察值,亦可记为Xi,..",Xn ii.d. ~X(5.2.3)(5.2.1)、(5.2.1)和(5.2.3)表示相同的意思当个体上的数量指标不止一项时,我们用随机向量来表示总体.例如研究某地区小学生的发育状况时,人们关心的是其身高×和体重Y这两个数量指标,此时总体就可以用二维随机向量(X,Y)或其联合分布F(r,y)表示8
duzN3ÄÑy´Å, ¤±ANþêþIÑy kÅ5. l ±rd«êþIw¤ÅCþ, ÅCþ©ÙÒ´TêþI3 oN¥©Ù. ±~5.2.15`², b½10000¬¥¢¬ê100, Ù{¬, ¢ ¬Ç0.01. ·½ÂÅCþXXe: X = ( 1 ¢¬ 0 ¬, ÙVÇ©Ù0–1©Ù, kP(X = 1) = 0.01. Ïd,A½NþêþI´ÅC þX* . ù5, oN±^ÅCþX 9Ù©Ù5£ã, ¼Xe½Â: ½Â 5.2.1. ÚO¯K¤ïÄéN¡oN.3ênÚOÆ¥oN±^ ÅCþ9ÙVÇ©Ù5£ã. duoNAdÙ©Ù5x, ÏdÚOÆþ~roNÚoN©ÙÀÓÂ. duù, ~^ÅCþÎÒ½©ÙÎÒ5L«oN. 'XïÄ,1F1Æ ·, <'%êþI´Æ·X, @odoNÒ±^ÅCþX5L«, ½^Ù ©Ù¼êF 5L«. eFkÝ, Pf, KdoN^ݼêf5L«. k âoN©Ùa.5¡oN¶¡, XoN!©ÙoN!0–1©ÙoN. e oN©Ù¼êPF, klToN¥ÄpÕáÓ©Ù(i.i.d.)n X1, · · · , Xn,K~P X1, · · · , Xn i.i.d. ∼ F (5.2.1) eFkÝf,P X1, · · · , Xn i.i.d. ∼ f (5.2.2) e¤ÄoN^ÅCþXL«Ù©Ù¼êF,KX1, · · · , Xn ÀÅCþX * , ½P X1, · · · , Xn i.i.d. ∼ X (5.2.3) (5.2.1)!(5.2.1)Ú(5.2.3)L«Ó¿g. NþêþIØ, ·^Åþ5L«oN. ~XïÄ,/« Æ)uG¹, <'%´ÙpXÚNYùüêþI, doNÒ±^ Åþ(X, Y )½ÙéÜ©ÙF(x, y)L«. 8

85.2.2样本的两重性和简单随机样本1、样本的两重性当我们从总体中作具体抽样时,每次抽样的结果都是些具体的数,如例5.2.3的打靶问题中,3维样本X=(X1,X2,X3),其中0≤X,≤10为整数,i=1,2,3,它是数字向量。但若是在相同条件下,再打三发,由于种种不可控制的随机因素的影响,中靶的环数不可能和上一次完全一样,具有随机性.如果无穷次打下去,每次打三发,出现的结果可视为随机向量(X1.X2.X3)的观察值样本的两重性是说,样本既可看成具体的数,又可以看成随机变量(或随机向量).在完成抽样后,它是具体的数;在实施抽样前,它被看成随机变量.因为在实施具体抽样之前无法预料抽样的结果,只能预料它可能取值的范围,故可把它看成一个随机变量,因此才有概率分布可言。为区别起见,今后用大写的英文字母表示随机变量或随机向量,用小写字母表示具体的观察值对理论工作者,更重视样本是随机变量这一点,而对应用工作者虽则将样本看成具体的数学,但仍不可忽视样本是随机变量(或随机向量)这一背景:否则样本就是一堆杂乱无章毫无规律可言的数字,无法进行任何统计处理.样本既然是随机变量(或随机向量),就有分布而言,这样才存在统计推断问题2、简单随机样本抽样是指从总体中按一定方式抽取样本的行为.抽样的目的是通过取得的样本对总体分布中的某些未知因素做出推断,为了使抽取的样本能很好的反映总体的信息,必须考虑抽样方法最常用的一种抽样方法叫作“简单随机抽样”,它要求满足下列两条:(1)代表性总体中的每一个体都有同等机会被抽入样本,这意味着样本中每个个体与所考察的总体具有相同分布.因此,任一样本中的个体都具有代表性(2)独立性.样本中每一个体取什么值并不影响其它个体取什么值.这意味着,样本中各个体X1,X2,,Xn是相互独立的随机变量由简单随机抽样获得的样本(X1,..,Xn)称为简单随机样本,用数学语言将这一定义叙述如下:定义5.2.2.设有一总体F,X1,.,Xn为从F中抽取的容量为n的样本,若(i)Xi,,Xn相互独立,9
§5.2.2 ü5Ú{üÅ 1!ü5 ·loN¥äNÄ, zgÄ(JÑ´ äNê, X~5.2.3q ¯K¥, 3X = (X1, X2, X3),Ù¥0 ≤ Xi ≤ 10ê, i = 1, 2, 3,§´êiþ. e´3Ó^e, 2nu, du««ØÅÏK, ¥qêØ UÚþg, äkÅ5. XJáge, zgnu, Ñy(JÀ Åþ(X1, X2, X3)* . ü5´`, Qw¤äNê, q±w¤ÅCþ(½Åþ). 3 ¤Ä§§´äNê¶3¢Äc§§w¤ÅCþ. Ï3¢äNÄ cÃ{ýÄ(J, Uý§U,r§w¤ÅCþ§Ï dâkVÇ©Ùó"«Oå, 8^=©i1L«ÅCþ½Åþ, ^i1L«äN* . énØóö, À´ÅCþù:, éA^óöKòw¤ä Nêi, EØÀ´ÅCþ(½Åþ) ùµ. ÄK, Ò´æ ,ÏÃÙÎÃ5Æóêi, Ã{?1?ÛÚO?n. Q,´ÅCþ(½Å þ), Òk©Ù ó, ùâ3ÚOíä¯K. 2!{üÅ Ä´loN¥U½ªÄ1. Ä8´ÏLéo N©Ù¥, ÏÑíä, ¦ÄUéÐNoN&E, 7L ÄÄ{. ~^«Ä{“{üÅÄ”, §¦÷veü^: (1) L5. oN¥zNÑkÓŬÄ\, ù¿X¥z N¤ oNäkÓ©Ù. Ïd, ?¥NÑäkL5. (2) Õá5. ¥zNo¿ØKÙ§No. ù¿X, ¥NX1, X2, · · · , Xn ´pÕáÅCþ. d{üÅļ(X1, · · · , Xn)¡{üÅ. ^êÆóòù½ ÂQãXe: ½Â 5.2.2. koNF, X1, · · · , XnlF¥ÄNþn, e (i) X1, · · · , XnpÕá, 9