基本概念复习 Meta分析是以统计量为观察单位进行统计分析,因此需要了解统计量的规律性和一些基本 统计概念 教学目的:复习总体、抽样分布概念、随机现象的规律性一一概率分布,特别正态分布 介绍统计量的定义、分布和统计量的总体平均值。效应差异度量( Effect size) 总体:根据研究目的确定所有同质个体的某指标观察值(或测量值)构成的集合称为总体 ( population),或更严谨地称为该观察指标(变量)的总体。总体中所有观察值的平均数 称为总体均数。例如:研究某地区7岁健康男孩身高,如果该地区共有10000个7 健康男孩,则这10000个7岁健康男孩的身高测量值构成的集合就是这个研究目的 所确定的总体。这10000个7岁男孩的身高平均值就是这个研究问题的总体均数。 个体变异:在同一研究目的下确定的相同特征的研究对象(称为同质个体)中,研究对象之间 的观察值相互不同,称为个体变异(严格地说研究对象观察值与总体均数的差值称为 个体变异)。个体变异是随机的。 随机现象的规律性:对某一种随机现象进行大量重复观察,可以发现其规律性。同种随机现 象的规律性是相同,但是单个随机现象是无法考察其规律性。例如,观察某地区7 岁健康男孩身高的分布情况,把身高分为3段:第一段为身高小于125cm:第二段为 身高在125cm~135cm:第三段为身高高于135cm。对于在该地区随机抽一个7岁健 康男孩并测量他的身高而言,该男孩的身高在这3个身高范围中的任何一个都是可 能,所以在抽样前不能断定所抽到的健康男孩身高在哪个范围中。但如果在该地区抽 了10000个7岁健康男孩并测量其身高,结果为身高小于125cm共有720人占总数 的72%;身高在125cm~135cm范围中共有8950人占总数的89.5%;身高大于135cm 共有330人占总数的3.3%,因此可以断定大多数男孩的身高在125cm~135cm范围 中,这就是大量重复观察时所呈现的规律性。从另一角度上分析,对于随机考察一个 7岁健康男孩身高而言,虽因为随机性而不能断定其身高在哪个范围中,但可以肯定 身高在125cm~135cm范围中的机会要远高于其它身高两个范围。本例只是一种较简 单的概率分布。任何随机现象或随机变异在大量重复观察的意义下都会呈现一定的 随机特征的规律性,即这种随机特征的规律性就是指观察值出现在可能的不同范围 对应有不同的机会(概率),这就是所谓的“概率分布”。 统计量:样本表达式构成的样本统计指标估计未知总体参数,这种样本统计指标称为统计量 ( statistIc)并且要求统计量的样本表达式中不含有未知参数。例如:样本均数、样本 OR、样本RR等 样本均数的抽样误差:总体均数与样本均数的差称为样本均数的抽样误差。由于通常总体均 数是未知的,故用样本均数的标准误大小刻划样本均数的抽样误差的平均度量。由于 个体变异是随机的,所以样本均数也是随机的。即:抽样前是无法确切知道样本均数 将是多大。由于样本均数的抽样误差=样本均数一总体均数,总体均数是确切的常数, 故样本均数的抽样误差是随机的。下面将举例说明: 例如,已知某地高中三年级男生的平均身高为168.15厘米,这里,将该地高中三年级男生 的身高视为一个总体,其总体均数=168.15,总体标准差σ=600。现从该总体中反复 抽取5个样本,每个样本中有9个高中三年级男生的身高测量值,每个样本计算样本均数(在 每个样本中,对9个身高测量值计算平均数),因此共得到5个样本均数如下:
1 基本概念复习 Meta 分析是以统计量为观察单位进行统计分析,因此需要了解统计量的规律性和一些基本 统计概念。 教学目的:复习总体、抽样分布概念、随机现象的规律性――概率分布,特别正态分布, 介绍统计量的定义、分布和统计量的总体平均值。效应差异度量(Effect Size) 总体:根据研究目的确定所有同质个体的某指标观察值(或测量值)构成的集合称为总体 (population),或更严谨地称为该观察指标(变量)的总体。总体中所有观察值的平均数 称为总体均数。例如:研究某地区 7 岁健康男孩身高,如果该地区共有 10000 个 7 岁健康男孩,则这 10000 个 7 岁健康男孩的身高测量值构成的集合就是这个研究目的 所确定的总体。这 10000 个 7 岁男孩的身高平均值就是这个研究问题的总体均数。 个体变异:在同一研究目的下确定的相同特征的研究对象(称为同质个体)中,研究对象之间 的观察值相互不同,称为个体变异(严格地说研究对象观察值与总体均数的差值称为 个体变异)。个体变异是随机的。 随机现象的规律性:对某一种随机现象进行大量重复观察,可以发现其规律性。同种随机现 象的规律性是相同,但是单个随机现象是无法考察其规律性。例如,观察某地区 7 岁健康男孩身高的分布情况,把身高分为 3 段:第一段为身高小于 125cm;第二段为 身高在 125cm~135cm;第三段为身高高于 135cm。对于在该地区随机抽一个 7 岁健 康男孩并测量他的身高而言,该男孩的身高在这 3 个身高范围中的任何一个都是可 能,所以在抽样前不能断定所抽到的健康男孩身高在哪个范围中。但如果在该地区抽 了 10000 个 7 岁健康男孩并测量其身高,结果为身高小于 125cm 共有 720 人占总数 的 7.2%;身高在 125cm~135cm 范围中共有 8950 人占总数的 89.5%;身高大于 135cm 共有 330 人占总数的 3.3%,因此可以断定大多数男孩的身高在 125cm~135cm 范围 中,这就是大量重复观察时所呈现的规律性。从另一角度上分析,对于随机考察一个 7 岁健康男孩身高而言,虽因为随机性而不能断定其身高在哪个范围中,但可以肯定 身高在 125cm~135cm 范围中的机会要远高于其它身高两个范围。本例只是一种较简 单的概率分布。任何随机现象或随机变异在大量重复观察的意义下都会呈现一定的 随机特征的规律性,即这种随机特征的规律性就是指观察值出现在可能的不同范围 对应有不同的机会(概率),这就是所谓的“概率分布”。 统计量:样本表达式构成的样本统计指标估计未知总体参数,这种样本统计指标称为统计量 (statistic)并且要求统计量的样本表达式中不含有未知参数。例如:样本均数、样本 OR、样本 RR 等。 样本均数的抽样误差:总体均数与样本均数的差称为样本均数的抽样误差。由于通常总体均 数是未知的,故用样本均数的标准误大小刻划样本均数的抽样误差的平均度量。由于 个体变异是随机的,所以样本均数也是随机的。即:抽样前是无法确切知道样本均数 将是多大。由于样本均数的抽样误差=样本均数-总体均数,总体均数是确切的常数, 故样本均数的抽样误差是随机的。下面将举例说明: 例如,已知某地高中三年级男生的平均身高为 168.15 厘米,这里,将该地高中三年级男生 的身高视为一个总体,其总体均数 =168.15 ,总体标准差 = 6.00 。现从该总体中反复 抽取 5 个样本,每个样本中有 9 个高中三年级男生的身高测量值,每个样本计算样本均数(在 每个样本中,对 9 个身高测量值计算平均数),因此共得到 5 个样本均数如下:
样本 样本观测值 样本均|抽样 数(X)误差 161.1173.7173.7167.316221622166.6166.61574165.64-2.51 1668159.1159.11661173.3173.3169.11691165.2166.79-1.36 3 1574174172.3175.81666182.1163.115941594167.79-0.36 174.5182.11685171.317411656173717191675172.133.98 5 164116661696169.6173.8173.21643166.6182.1169.991.84 由上表可知,由于个体变异的存在,而抽样又是随机进行的,因此,各样本均数与总体 均数之间一般说来是有差异的。这种由个体变异和随机抽样所引起的样本均数与总体均数 (本例为=16815)之间的差异就是抽样误差,并且是随机的。 由于任何的随机变异都是有其随机特征的规律性,只是单个随机变异往往无法考察其规 律性,如果大量重复观察同一种随机变异,就可以发现其随机特征的规律性。下面考察如果 资料X服从正态分布N(μ,2),它的样本均数的随机特征规律性(概率分布)是什么? 由于在实际研究中,同一特征的研究对象往往只有一个样本,因此只能得到一个样本均 数,故往往无法依据样本资料考察样本均数的分布情况。如果我们对同一总体随机抽了许多 样本,并且对每个样本计算其样本均数,因此可以得到许多样本均数,然后作这些样本均数 (视为新的样本资料)的频数图,就可以得到样本均数的规律性。因此我们以下将借助计算机 随机模拟抽样,在同一正态分布的总体中随机抽许多样本,对每一个样本计算样本均数,因 此可以得到许多样本均数,这样可以考察样本均数的随机特征的规律性 正态分布样本的样本均数分布 为了给读者关于样本均数分布的直观认识,下面做3个抽样试验,仍以某地高三男生的 身高为例。设身高变量为X,假定X服从正态分布,记为XM(168.15,62)。从总体X中反 复随机抽样,样本含量分别为n=4,n=16和n=36,分别随机抽10000个样本并计算样本均 数,把同一样本含量的10000个样本均数视为一个新的样本资料作频数图(见图3.1),并且 表3.2分别给出同一样本含量的前20个样本均数。读者不难从频数图和表32可以发现样本 均数的变异有如下特点
2 样本 号 样本观测值 (n=9) 样本均 数( X ) 抽 样 误差 1 161.1 173.7 173.7 167.3 162.2 162.2 166.6 166.6 157.4 165.64 -2.51 2 166.8 159.1 159.1 166.1 173.3 173.3 169.1 169.1 165.2 166.79 -1.36 3 157.4 174 172.3 175.8 166.6 182.1 163.1 159.4 159.4 167.79 -0.36 4 174.5 182.1 168.5 171.3 174.1 165.6 173.7 171.9 167.5 172.13 3.98 5 164.1 166.6 169.6 169.6 173.8 173.2 164.3 166.6 182.1 169.99 1.84 由上表可知,由于个体变异的存在,而抽样又是随机进行的,因此,各样本均数与总体 均数之间一般说来是有差异的。这种由个体变异和随机抽样所引起的样本均数与总体均数 (本例为 =168.15 )之间的差异就是抽样误差,并且是随机的。 由于任何的随机变异都是有其随机特征的规律性,只是单个随机变异往往无法考察其规 律性,如果大量重复观察同一种随机变异,就可以发现其随机特征的规律性。下面考察如果 资料 X 服从正态分布 N(, 2 ),它的样本均数的随机特征规律性(概率分布)是什么? 由于在实际研究中,同一特征的研究对象往往只有一个样本,因此只能得到一个样本均 数,故往往无法依据样本资料考察样本均数的分布情况。如果我们对同一总体随机抽了许多 样本,并且对每个样本计算其样本均数,因此可以得到许多样本均数,然后作这些样本均数 (视为新的样本资料)的频数图,就可以得到样本均数的规律性。因此我们以下将借助计算机 随机模拟抽样,在同一正态分布的总体中随机抽许多样本,对每一个样本计算样本均数,因 此可以得到许多样本均数,这样可以考察样本均数的随机特征的规律性。 正态分布样本的样本均数分布 为了给读者关于样本均数分布的直观认识,下面做 3 个抽样试验,仍以某地高三男生的 身高为例。设身高变量为 X,假定 X 服从正态分布,记为 X~N(168.15, 62 )。从总体 X 中反 复随机抽样,样本含量分别为 n=4,n=16 和 n=36,分别随机抽 10000 个样本并计算样本均 数,把同一样本含量的 10000 个样本均数视为一个新的样本资料作频数图(见图 3.1),并且 表 3.2 分别给出同一样本含量的前 20 个样本均数。读者不难从频数图和表 3.2 可以发现样本 均数的变异有如下特点:
样本含量n= 样本含量n=16 样本含量n=36 0.24 0.24 0.16 0.16 0.12 12 0.08 0.08 0.04 0.04 0.04 00 00 152160168176184152160168176184152160168176184 X的平均数=168198 X的平均数=168.185 的平均数=168135 x的标准差=29930X的标准差=14868356-5x的标准差=0.9973=10 图3.1从正态分布总体N681562)中随机抽样的结果 曲线是正态总体N(168.156)的分布密度曲线×组距 直方图为正态分布总体N(1685,62)的样本均数的频数图(纵坐标为频率) 表3.2从正态总体N(168.15,62)随机抽样,样本含量分别为4,16和36 分别对应的前20个样本的样本均数 n=16 样本号均数样本号均数樺样本号均数样本号均数|样本号均数样本号均数 1169.2211166.821167.9111168.101168.3711166.71 2169.6112162.472170.912166.452167.4712167.76 3165.7313170.023168.6013168.853170.3613169.46 5169.9915168.16|5168.9515168.745168.6815167.90 61664316164.256168.5416172.506168.7816168.43 7171.7717164.637167.8717168.527169.5417167.60 816.6518164.728168.6618167.158168.7718167.17 9170.7119165.83|9170.0119166.199167.6119168.94 10170.8420169.8310167.1920166.1510168.9520169.29 1)大多数的样本均数相互之间存在差异,绝大多数的样本均数x不等于X的总体均数, 但都离X的总体均数比较近 2)无论样本含量n多大,在每个抽样试验中,X的均数都接近于X的总体均数,即样 本均数X的集中趋势位置与个体资料X的集中趋势位置较为接近,样本均数X的频数图 (图3.1)均呈现出中间多、两边少且基本对称的正态分布特征。随着样本含量的增大,样 本均数X的频数图范围越来越窄。 3)图3.1所给出的3种样本含量的10000个样本均数的频数图及其统计描述可以发现:
3 样本含量 n=4 样本含量 n=16 样本含量 n=36 X 的平均数=168.198 X 的标准差=2.9995 6 3.0 4 = X 的平均数=168.185 X 的标准差=1.4868 6 1.5 16 = X 的平均数=168.135 X 的标准差=0.9997 6 1.0 36 = 图 3.1 从正态分布总体 N(168.15,62 )中随机抽样的结果 曲线是正态总体 N(168.15,62 )的分布密度曲线×组距 直方图为正态分布总体N(168.15,62 )的样本均数的频数图(纵坐标为频率) 表 3.2 从正态总体 N(168.15,6 2 )随机抽样,样本含量分别为 4,16 和 36 分别对应的前 20 个样本的样本均数 n=4 n=16 n=36 样本号 均数 样本号 均数 样本号 均数 样本号 均数 样本号 均数 样本号 均数 1 169.22 11 166.82 1 167.91 11 168.10 1 168.37 11 166.71 2 169.61 12 162.47 2 170.19 12 166.45 2 167.47 12 167.76 3 165.73 13 170.02 3 168.60 13 168.85 3 170.36 13 169.46 4 166.60 14 171.53 4 165.48 14 169.72 4 167.16 14 168.31 5 169.99 15 168.16 5 168.95 15 168.74 5 168.68 15 167.90 6 166.43 16 164.25 6 168.54 16 172.50 6 168.78 16 168.43 7 171.77 17 164.63 7 167.87 17 168.52 7 169.54 17 167.60 8 166.65 18 164.72 8 168.66 18 167.15 8 168.77 18 167.17 9 170.71 19 165.83 9 170.01 19 166.19 9 167.61 19 168.94 10 170.84 20 169.83 10 167.19 20 166.15 10 168.95 20 169.29 1)大多数的样本均数相互之间存在差异,绝大多数的样本均数 X 不等于 X 的总体均数, 但都离 X 的总体均数比较近。 2)无论样本含量 n 多大,在每个抽样试验中, X 的均数都接近于 X 的总体均数,即样 本均数 X 的集中趋势位置与个体资料 X 的集中趋势位置较为接近,样本均数 X 的频数图 (图 3.1)均呈现出中间多、两边少且基本对称的正态分布特征。随着样本含量的增大,样 本均数 X 的频数图范围越来越窄。 3) 图 3.1 所给出的 3 种样本含量的 10000 个样本均数的频数图及其统计描述可以发现:
每种样本量的10000样本均数值所计算出的标准差都非常接近G/Vn(o为个体资料X的 总体标准差)。 理论上可以证明:从正态分布N(μ,G2)的总体中随机抽取样本含量为n的一个样本X …,Xn,其样本均数X有如下性质: 1)样本均数X服从正态分布N(μ,o2/n)。 2)样本均数的总体标准差资料X的总体标准差σ。为了区分样本所在总体的标准 差,通常称样本均数的标准差为样本均数的标准误(简称均数标准误,记为σx。故样本均 数与个体资料所在的总体变异程度有如下规律: n 由于在实际研究中,我们往往只有一个样本,不能利用样本均数直接估计均数标准误 x,但可以用样本标准差S估计总体标准差o,利用公式(31)得到均数标准误的估计式 为了叙述方便,常称S为标准误,称Gx为理论标准误 二、非正态总体的样本均数分布 在非正态总体中随机抽样,样本均数X在抽样前也是不能确定的,任意二次随机抽样 的样本均数往往也是不同的,所以无论正态总体抽样还是非正态总体抽样,样本均数X都 是随机的,同样在概率意义下是有一定规律的 为了帮助读者比较直观地了解从非正态总体抽样的样本均数分布规律,下面给出总体均 数为1的指数分布(密度)曲线图和一个样本含量n=1000的样本资料(个体观察值)频数图(图 32)。并且做3个抽样试验,在这个总体中大量重复随机抽样,样本量为n=4,n=9和n=100, 分别抽10000个样本并作其样本均数的频数图(图3.3)和统计描述
4 每种样本量的 10000 个样本均数值所计算出的标准差都非常接近 n (为个体资料 X 的 总体标准差)。 理论上可以证明:从正态分布 N(, 2 )的总体中随机抽取样本含量为 n 的一个样本 X1, X2,…,Xn,其样本均数 X 有如下性质: 1)样本均数 X 服从正态分布 N(, 2 /n)。 2)样本均数的总体标准差= n 资料X的总体标准差 。为了区分样本所在总体的标准 差,通常称样本均数的标准差为样本均数的标准误(简称均数标准误),记为 X 。故样本均 数与个体资料所在的总体变异程度有如下规律: n = X (3.1) 由于在实际研究中,我们往往只有一个样本,不能利用样本均数直接估计均数标准误 X ,但可以用样本标准差 S 估计总体标准差,利用公式(3.1)得到均数标准误的估计式 n S S X = (3.2) 为了叙述方便,常称 X S 为标准误,称 X 为理论标准误。 二、非正态总体的样本均数分布 在非正态总体中随机抽样,样本均数 X 在抽样前也是不能确定的,任意二次随机抽样 的样本均数往往也是不同的,所以无论正态总体抽样还是非正态总体抽样,样本均数 X 都 是随机的,同样在概率意义下是有一定规律的。 为了帮助读者比较直观地了解从非正态总体抽样的样本均数分布规律,下面给出总体均 数为 1 的指数分布(密度)曲线图和一个样本含量 n=1000 的样本资料(个体观察值)频数图(图 3.2)。并且做 3 个抽样试验,在这个总体中大量重复随机抽样,样本量为 n=4,n=9 和 n=100, 分别抽 10000 个样本并作其样本均数的频数图(图 3.3)和统计描述
总体均数μ=1(可以证明:总体标准差σ=1) 在μ=1的指数分布总体随机抽取一个样本 a:指数分布(密度曲线)图 b:个体观察值频数图(样本含量n=1000) X=09994,S=09672,中位数M=0.7417 图32指数分布的密度曲线和个体观察值频数图 n=100 A (a)x的均数=09903 x的均数=1.0068 x的 标准差()1的均数=0995 x的标准差=04891=05 0.31321-033 的中位数=09087 x的中位数=09976 x的中位数=0.9696 图3.3从总体均数为1的指数分布总体中随机抽10000个样本的样本均数频数图 从上述抽样结果可以看出:从非正态的指数分布总体X中抽样所得到的样本均数X, 在样本含量较小时呈偏态分布但也有别于指数分布,而在大样本时X的频数分布图接近正 态分布。x的均数始终在X的总体均数=1两侧附近,下的标准差X的总体标准差 事实上,无论样本来自什么总体,理论上可以证明: 1.样本均数x的总体标准差是个体资料x的总体标准差的√(o=,即样本 均数的理论标准误),理论标准误σr的样本估计式为S=S/V 2样本均数X与个体资料X的集中趋势位置相同,即样本均数X与个体资料Ⅹ的总体 均数相同。 3若个体资料所属总体x呈正态分布N(,a),则由前面所述可知,样本均数X的 分布规律仍为正态分布N(a,G2/m):作标准化变换
5 总体均数=1(可以证明:总体标准差=1) 在=1 的指数分布总体随机抽取一个样本 a:指数分布(密度曲线)图 b:个体观察值频数图(样本含量 n=1000)。 X = 0.9994 ,S= 0.9672,中位数 M=0.7417 图 3.2 指数分布的密度曲线和个体观察值频数图 n=4 n=9 n=100 (a) X 的均数=0.9903 X 的标准差=0.4891 1 0.5 4 = X 的中位数=0.9087 (b) X 的均数=1.0068 X 的 标 准 差 = 0.3313 1 0.3333 9 = X 的中位数=0.9696 (c) X 的均数=0.9995 X 的标准差=0.1002 1 0.1 100 = X 的中位数=0.9976 图 3.3 从总体均数为 1 的指数分布总体中随机抽 10000 个样本的样本均数频数图 从上述抽样结果可以看出:从非正态的指数分布总体 X 中抽样所得到的样本均数 X , 在样本含量较小时呈偏态分布但也有别于指数分布,而在大样本时 X 的频数分布图接近正 态分布。 X 的均数始终在 X 的总体均数 =1 两侧附近, X 的标准差 X n 的总体标准差 。 事实上,无论样本来自什么总体,理论上可以证明: 1. 样本均数 X 的总体标准差是个体资料 X 的总体标准差的 1 n ( X n = ,即样本 均数的理论标准误) ,理论标准误 X 的样本估计式为 S S n X = / 。 2.样本均数 X 与个体资料 X 的集中趋势位置相同,即样本均数 X 与个体资料 X 的总体 均数相同。 3.若个体资料所属总体 X 呈正态分布 ( ) 2 N , ,则由前面所述可知,样本均数 X 的 分布规律仍为正态分布 ( ) 2 N n , ;作标准化变换
X √n 则U服从标准正态分布N(O,1)。也就是说,若资料服从正态分布N(μG2),样本含量为n 的样本均数X出现在(-1.967,+1.967)的概率为0.95,由此可见样本含量越大, 这个范围就越小 4若被抽样总体X呈偏态分布且样本量n较大时(如n>40),由上述结果可知样本均数X 近似地服从正态分布N(,a2/m),作标准化变换U= -,则可以证明:U近似服从 标准正态分布N(0,1) 例3.2已知7岁正常发育男孩的身高服从正态分布,在某地的正常7岁男孩中随机抽 个样本,样本含量为110,得到样本均数为121.92,样本标准差为4.527,则相应的标准误 为Sr 4.527 110=0.4316。 例3.3已知在某地7岁正常发育男孩的身高服从正态分布N(121,52),则正常发育7岁 男孩身高的95%范围为121±1.96×5=(1112,130.8)。若在该地正常7岁男孩中随机抽 个样本,样本含量为100,则样本均数X的95%范围为121±1.96-=(1202,12198) 样本含量为100的样本均数的变异范围要比个体的变异范围小得多 其他统计量的抽样误差问题: 抽样误差:总体统计指标与其样本统计指标的差值称为抽样误差。例如,总体均数与样本均 数的差值称为样本均数的抽样误差。由于个体变异的原因,任何随机抽样的样本所构 造的统计量都有抽样误差并且这个抽样误差都呈随机变化的。即:抽样前,抽样误差 是不知道的 标准误:总体参数往往是未知参数,通常用统计量的标准差估计抽样误差,为了区分资料的 标准差,故称统计量的标准差为标准误。例如:样本均数的标准差称为样本均数的标 准误。 所有的统计量都是有其概率分布的,常用的统计量其概率分布如下: 统计量 取变换 相应的分布 两个样本均数的差值 服从(或近似服从)正态分布 OR 取对数ln(OR) 近似服从正态分布 RR 取对数hR)近似服从正态分布 6
6 X U n − = (3.3) 则 U 服从标准正态分布 N(0, 1) 。也就是说,若资料服从正态分布 N(, 2 ),样本含量为 n 的样本均数 X 出现在 ( 1.96 , 1.96 ) n n − + 的概率为 0.95,由此可见样本含量越大, 这个范围就越小。 4.若被抽样总体 X 呈偏态分布且样本量 n 较大时(如 n>40),由上述结果可知样本均数 X 近似地服从正态分布 ( ) 2 N n , ,作标准化变换 X U n − = ,则可以证明:U 近似服从 标准正态分布 N(0, 1)。 例 3.2 已知 7 岁正常发育男孩的身高服从正态分布,在某地的正常 7 岁男孩中随机抽一 个样本,样本含量为 110,得到样本均数为 121.92,样本标准差为 4.527,则相应的标准误 为 0.4316 110 4.527 = = X S 。 例 3.3 已知在某地 7 岁正常发育男孩的身高服从正态分布 N(121,52 ),则正常发育 7 岁 男孩身高的 95%范围为 1211.965=(111.2,130.8)。若在该地正常 7 岁男孩中随机抽一 个样本,样本含量为 100,则样本均数 X 的 95%范围为 100 5 1211.96 =(120.2,121.98), 样本含量为 100 的样本均数的变异范围要比个体的变异范围小得多。 其他统计量的抽样误差问题: 抽样误差:总体统计指标与其样本统计指标的差值称为抽样误差。例如,总体均数与样本均 数的差值称为样本均数的抽样误差。由于个体变异的原因,任何随机抽样的样本所构 造的统计量都有抽样误差并且这个抽样误差都呈随机变化的。即:抽样前,抽样误差 是不知道的。 标准误:总体参数往往是未知参数,通常用统计量的标准差估计抽样误差,为了区分资料的 标准差,故称统计量的标准差为标准误。例如:样本均数的标准差称为样本均数的标 准误。 所有的统计量都是有其概率分布的,常用的统计量其概率分布如下: 统计量 取变换 相应的分布 两个样本均数的差值 服从(或近似服从)正态分布 OR 取对数 ln(OR) 近似服从正态分布 RR 取对数 ln(RR) 近似服从正态分布
相关系数r z=0.5ln( 近似服从正态分布 线性回归b 服从正态分布 两个率的差值RD=P1-P2要求P1和P2都较大时RD近似服从正态分布 模拟两个样本均数的差值 设:第一组:样本来自正态总体,样本量nl=25,总体均数为10,总体标准差为2 设:第二组:样本来自正态总体,样本量n2=25,总体均数为12,总体标准差为2, 两个总体均数的差值=均数1一均数2=-02 随机在上述总体中抽10000个样本,每个样本计算两个组的样本均数及其两个样本均 数的差值,因此得到10000个两个样本均数的差值RD,视这10000个样本均数的差值为新 指标的观察资料,统计描述如下 平均数为-1.999112,标准差为0.5658609,中位数为-1.997535 视这10000个样本均数的差值为新指标的观察数据,作频数图: r 由于原始资料来自正态总体,故其样本均数的差值也称正态分布,总体均数为2 以下通过模拟抽样说明样本OR、样本RR、样本对数OR、样本对数RR和两个样本 率的差值的分布情况 下列抽了10000个样本,A组的样本量为30,发生率πA=0.4,B组的样本量为40, πB=0.3,每个样本计算一个OR值、RR值以及相应的对数OR和对数RR以及两个率的差 值,因此共有10000个样本OR值、10000个样本RR值、10000个对数OR值、10000个样 本RR值以及10000个两个率的差值RD 0.4 则总体OR=1-04=14=1.55,5总体R 0.4 1.333333 0.3 总体对数OR=0.44183275 总体对数RR=0.2877
7 相关系数 r 1 0.5ln( ) 1 r z r − = + 近似服从正态分布 线性回归 b 服从正态分布 两个率的差值 RD=P1-P2 要求P1和P2都较大时 RD 近似服从正态分布 模拟两个样本均数的差值 设:第一组:样本来自正态总体,样本量 n1=25,总体均数为 10,总体标准差为 2; 设:第二组:样本来自正态总体,样本量 n2=25,总体均数为 12,总体标准差为 2, 两个总体均数的差值=均数 1-均数 2=-0.2 随机在上述总体中抽 10000 个样本,每个样本计算两个组的样本均数及其两个样本均 数的差值,因此得到 10000 个两个样本均数的差值 RD,视这 10000 个样本均数的差值为新 指标的观察资料,统计描述如下: 平均数为-1.999112,标准差为 0.5658609,中位数为 -1.997535 视这 10000 个样本均数的差值为新指标的观察数据,作频数图: Fraction xxd -4 -2 0 0 .02 .04 .06 .08 由于原始资料来自正态总体,故其样本均数的差值也称正态分布,总体均数为-2。 以下通过模拟抽样说明样本 OR、样本 RR、样本对数 OR、样本对数 RR 和两个样本 率的差值的分布情况 下列抽了 10000 个样本,A 组的样本量为 30,发生率A=0.4,B 组的样本量为 40, B=0.3,每个样本计算一个 OR 值、RR 值以及相应的对数 OR 和对数 RR 以及两个率的差 值,因此共有 10000 个样本 OR 值、10000 个样本 RR 值、10000 个对数 OR 值、10000 个样 本 RR 值以及 10000 个两个率的差值 RD。 则总体 0.4 1 0.4 14 1.55555556 0.3 9 1 0.3 OR − = = = − ,总体 0.4 1.333333 0.3 RR = = 总体对数 OR=0.44183275 总体对数 RR=0.2877
把这些10000个样本统计量视为新的指标资料,统计如下 对数ORRR 对数RR两个率的差值 1.807 0.44859491.4210490.28915040.0993442 中位数 555550.44183281.33330.2876821 几何均数1.56611048584391.335293031416090.1075269 从上述估计可见,中位数比较接近总体值,估计的精度相对比较高。 视10000个样本OR作为新指标的数据作频数图 视10000个样本对数OR作为新指标的数据作频数图 视10000个样本RR作为新指标的数据作频数图
8 把这些 10000 个样本统计量视为新的指标资料,统计如下 OR 对数 OR RR 对数 RR 两个率的差值 平均值 1.807 0.4485949 1.421049 0.2891504 0.0993442 中位数 1.5555556 0.4418328 1.333333 0.2876821 0.1 几何均数 1.56611 0.4858439 1.335293 0.3141609 0.1075269 从上述估计可见,中位数比较接近总体值,估计的精度相对比较高。 视 10000 个样本 OR 作为新指标的数据作频数图 Fraction or 0 5 10 15 0 .4241 视 10000 个样本对数 OR 作为新指标的数据作频数图 Fraction lor -2 0 2 4 0 .2309 视 10000 个样本 RR 作为新指标的数据作频数图 Fraction rr 0 2 4 6 8 0 .343
视10000个样本对数RR作为新指标的数据作频数图 视10000个样本率的差值作为新指标的数据作频数图 1685 Effect size(效应差异度量):在Meta分析中,两组总体效应指 标的差异。由于在Meta分析中,通常要求 Effect size的对应样本统 计量近似服从正态分布,所以常见的 Effect Size选择如下 效应指标为均数,则 Effect size=u2-u1 ●效应指标为率,则 Effect size可以为对数相对危险度 n(RR)=ln(兀1/π2) ●效应指标为比较大的率,则 Effect size可以为两个率的差 值 兀1—兀2 效应指标为率或Odds,则 Effect Size可以为对数Ods
9 视 10000 个样本对数 RR 作为新指标的数据作频数图 Fraction lrr -2 -1 0 1 2 0 .2336 视 10000 个样本率的差值作为新指标的数据作频数图 Fraction rd -.5 0 . 5 0 .1685 Effect Size(效应差异度量):在 Meta 分析中,两组总体效应指 标的差异。由于在 Meta 分析中,通常要求 Effect Size 的对应样本统 计量近似服从正态分布,所以常见的 Effect Size 选择如下: ⚫ 效应指标为均数,则 Effect Size=2-1 ⚫ 效应指标为率,则 Effect Size 可以为对数相对危险度 ln(RR)=ln(1/2) ⚫ 效应指标为比较大的率,则 Effect Size 可以为两个率的差 值=1-2 ⚫ 效应指标为率或 Odds,则 Effect Size 可以为对数 Odds
Ratio, In(OR)=In (1-x1) =In 丌1(1-x2) (1-x71)2 效应指标为回归系数, Effect size即为回归系数 效应指标为相关系数, Effect Size=0sh-2 1+p Meta分析是把多个研究的统计分析结果进行综合分析,Meta分 析分为确定性模型和随杋模型,一般而言,确定性模型的检验 效能比随杋模型中的检验效能要高一些,但确定性模型要求各 个研究的 Effect size齐性 Effect size齐性是指各个研究的总体 Effect size相同 对于两个总体均数差值为 Effect Size,则有如下性质: 1)各个研究的每一组总体均数相同,则 Effect Size齐性。 2)各个研究的每一组总体均数可能不同,但各个研究两组总体 均数的差值相同,则 Effect size齐性。 例如: 第一种情况的 Effect Size齐性第二种情况的 Effect Size齐性 noA组B组| Effect Sizeno|A组|B组| Effect Size 总体均数总体均数 总体均数总体均数 10 10 10 10.5 9.5 310 9.5 8.5
10 Ratio,ln(OR)= 1 1 1 2 2 1 2 2 (1 ) (1 ) ln ln (1 ) 1 − − = − − ⚫ 效应指标为回归系数,Effect Size 即为回归系数 ⚫ 效应指标为相关系数,Effect Size= 1 0.5ln 1 − + Meta 分析是把多个研究的统计分析结果进行综合分析,Meta 分 析分为确定性模型和随机模型,一般而言,确定性模型的检验 效能比随机模型中的检验效能要高一些,但确定性模型要求各 个研究的 Effect Size 齐性。 Effect Size 齐性是指各个研究的总体 Effect Size 相同。 对于两个总体均数差值为 Effect Size,则有如下性质: 1) 各个研究的每一组总体均数相同,则 Effect Size 齐性。 2) 各个研究的每一组总体均数可能不同,但各个研究两组总体 均数的差值相同,则 Effect Size 齐性。 例如: 第一种情况的 Effect Size 齐性 第二种情况的 Effect Size 齐性 no A 组 总体均数 B 组 总体均数 Effect Size no A 组 总体均数 B 组 总体均数 Effect Size 1 10 9 1 1 10 9 1 2 10 9 1 2 10.5 9.5 1 3 10 9 1 3 9.5 8.5 1