统计分析的原则 Principles of statistical analysis a distinctive function of statistics is this it enables the scientist to make a numerical evaluation of the uncertainty of his conclusion Snedecor(1950)
统计分析的原则 Principles of statistical analysis A distinctive function of statistics is this: it enables the scientist to make a numerical evaluation of the uncertainty of his conclusion. -- Snedecor (1950)
●●。引言 o统计分析的目的 把从样本中得到的结论推广到(同质) 总体中去。 Sample→> Population o利用均数、标准差;百分构成/率;图 表等进行描述。不同处理组间的比较。 o样本结论(统计量)能否代表总体(参 数)? o统计分析的两个基本工具一估计 Estimation和假设检验 Hypothesis Test
引言 统计分析的目的 把从样本中得到的结论推广到(同质) 总体中去。Sample → Population 利用均数、标准差;百分构成/率;图 表等进行描述。不同处理组间的比较。 样本结论(统计量)能否代表总体(参 数)? 统计分析的两个基本工具—估计 Estimation和假设检验Hypothesis Test
●·。统计学的一个重要思想 如何表明从样本中得出的结果是对总体 的最好的估计( Estimate)? 例1:服用A药的病人63%得到缓解,而服用B药的 病人只有53%。A药的疗效比B药好10%。 (P=0.15) 例2:服用A药的病人56%得到完全缓解,而服用B 药的病人只有36%。A药的疗效比B药好18%。 (P<0.01)
统计学的一个重要思想 如何表明从样本中得出的结果是对总体 的最好的估计(Estimate)? 例1:服用A药的病人63%得到缓解,而服用B药的 病人只有53%。A药的疗效比B药好10%。 (P=0.15) 例2:服用A药的病人56%得到完全缓解,而服用B 药的病人只有36%。A药的疗效比B药好18%。 (P<0.01)
●●·抽样变异Samp| ling Variation
抽样变异Sampling Variation
●●● 样木均数的变异 Variability ot sample means o性质 1.较大样本的均数的变异小于较小样 本的均数的变异 2.样本均数的变异小于观测值的变异 3.样本均数的变异随观测值变异的增 大而增大
样本均数的变异Variability of sample means 性质 1. 较大样本的均数的变异小于较小样 本的均数的变异 2. 样本均数的变异小于观测值的变异 3. 样本均数的变异随观测值变异的增 大而增大
随机样本的均数的分布 ●●● 抽样分布 Sampling Distribution o从一个总体中随机地、不断地抽出样本大小 相同的样本,这些样本具有如下性质 1样本均数/方差的期望=总体均数/方差 2.样本均数的均数=总体均数 样本均数的方差=总体方差样本量 样本均数的标准差=√总体方差/样本量一标准误 标准误的估计=样本方差样本量=样本标准差/样本量 3.如果总体为正态分布,那么样本均数的分布也 是正态分布。如果样本量足够大,那么即使总体 不是正态分布,样本均数的分布也近似正态分 布一中心极限定理( Central Limited Theoren)
随机样本的均数的分布— 抽样分布Sampling Distribution 从一个总体中随机地、不断地抽出样本大小 相同的样本,这些样本具有如下性质: 1. 样本均数/方差的期望=总体均数/方差 2. 样本均数的均数=总体均数 样本均数的方差=总体方差/样本量 样本均数的标准差 -标准误 标准误的估计 3. 如果总体为正态分布,那么样本均数的分布也 是正态分布。如果样本量足够大,那么即使总体 不是正态分布,样本均数的分布也近似正态分 布—中心极限定理(Central Limited Theorem)。 = 总体方差 样本量 = 样本方差 样本量 = 样本标准差 样本量
●·。对抽样分布的补充说明 o在实际应用中,只要样本数据呈单峰、大致 对称的分布,就可以认为其均数的分布服从 正态或接近于正态 o在实际应用中,只要样本量足够大,那么不 管数据呈何种分布,都可以将其均数的分布 当作正态分布来处理。 o随机样本的均数的分布的第1条性质和第3条 性质同样适用于样本的百分构成(如二项分 布)。但是由于这类数据所代表的显然不是 正态总体,所以只有在样本量相当大时才可 以应用性质1和3
对抽样分布的补充说明 在实际应用中,只要样本数据呈单峰、大致 对称的分布,就可以认为其均数的分布服从 正态或接近于正态。 在实际应用中,只要样本量足够大,那么不 管数据呈何种分布,都可以将其均数的分布 当作正态分布来处理。 随机样本的均数的分布的第1条性质和第3条 性质同样适用于样本的百分构成(如二项分 布)。但是由于这类数据所代表的显然不是 正态总体,所以只有在样本量相当大时才可 以应用性质1和3
●●4记号 Notations :总体均数a2总体方差a:总体标准差SD) x:样本均数s2:样本方差s:样本标准差(SD) N(a2)均数为,方差为的正态总体 N(0,1)均数为0,方差为的标准正态总体 x:样本均数的均数a2:样本均数的方差 x:样本均数的标准差--标准误(SE) S:标准误的估计--标准误(SE) G=0/ynS==s/√n
记号Notations ( ) ( ) ( ) ( ) ( ) ( ) n s s n s SE SE x N N x s s SD SD x x x x x = = − − − − : : : : 0,1 : 0, 1 , : , : : : : : : 2 2 2 2 2 标准误的估计 标准误 样本均数的标准差 标准误 样本均数的均数 样本均数的方差 均数为 方差为 的标准正态总体 均数为 方差为 的正态总体 样本均数 样本方差 样本标准差 总体均数 总体方差 总体标准差
●●● 理解抽样分布 x~N(u,a2)则:x~N 即使x不服从正态分布,随着样本量的增大 x也逐渐接近于正态分布 x±1.96SD包含95%的x x±196SE包含95%的x→ y±190/Vm包含95%的x
理解抽样分布 ( ) ( ) n x x SE x x SD x x x x N x N x 包含 的 包含 的 包含 的 也逐渐接近于正态分布 即使 不服从正态分布 随着样本量的增大 则 1.96 95% 1.96 95% 1.96 95% , ~ , : ~ , 2 2
●●。计算机模拟 Simulation o正态总体的抽样分布 例:假设原发性胆石症患者的血清白蛋白服 从均数35g/标准差6g/的正态分布。现从中 随机抽取样本量10、25、100的样本各100个 考察它们的均数的分布 理论上,均数的均数均应该等于35,均数的 标准差应该分别等于 6/√10=196/√25=1.2;6/100=06
计算机模拟Simulation 正态总体的抽样分布 例:假设原发性胆石症患者的血清白蛋白服 从均数35g/l标准差6g/l的正态分布。现从中 随机抽取样本量10、25、100的样本各100个 考察它们的均数的分布。 理论上,均数的均数均应该等于35,均数的 标准差应该分别等于 6 / 10 =1.9; 6 / 25 =1.2; 6 / 100 = 0.6