正在加载图片...
2 扬州大学学(白然科学版】 第4整 (1) 出现的随机数,凡在0一子(低限用≤号,高限用<号,即0≤R<,下同)之间的取编码“1“变量,凡 在一异之间的取编码“2变量,,凡在号一1之间的取编网变量,这就称为自举抽样,由这。 个“新”变量组的样本则称为自举样本(即mple.当对原始样本变基重复进行,m轮自举袖 样,就得到m个容量均为n的自举样本。再对每一样本都按照在原始样本中所用的计求d的方法,求 其统计数高,得到1个次数为m的高分布.这称为自举统计数成分布.由此分布,我们就可以研究A 的基本性质,其最主要特征数是自举平均数:(boostrap average)和自举标准误,(tdard error),定义为: 0:-8u/m, (2) =[∑(0.-0/(m-10] (3) 以上(3)式即总分布的标准差。不论成是什么样的统计数,自举抽样都能意健地提供它的平均数和标 准误估计.这是自举法的一个重要特征和丰凡功能. 如果A能够描述有关随机变量的取值中心(即通常所说的“无偏估计”),则品和日:之间的差异应 在误差(标准误)所许可的范围内:如果的标准误为未知,则5戏将是其最佳替代。一殷为估计8;和 ,m-100即可(这是在0和5能相对稳定的意义上而言的),不必大于200.但是,如果要了解成的 较精确分布和对于8的100(1一a)%置信区间,一般应选m=1000.这时,在值从小到大的顺序排 列中,k=6,26和51的成值依次为对于日的置信系数为99%,95%和90%的区间低限;而=995, 975和950的高值则依次为相应的区间高限.它们与高的分布形状(如是否左右对称)无关 2.2示例 10位因食用沙门氏菌污染食物而“中毒”的患者的潜伏期(⑧/小)列于表1列2.计算的统计数有 潜伏期的算术平均数A,标准差a,日的标准误月,A的标准误A.由于已知潜伏期资料多属左偏分 布),故又计算中位数A(在偏态下以中位数描述变量中心常较算术平均数更为恰当,因为一组变量 与其中位数离差的绝对值之和不大 们与任何其他统计数离差的绝对值之和).其定义和结果为: 8==2Y/m=260/10=26h, 0,=s=[∑Y,-/m-1)]-18.5h, (4) 8=5=/√=18.5/o=5.85h, 0=5.=5//2m=18.5//20=4.14h, a=Md=(Y,+Y,/2=(20+22)/2=21h. 以上成和日是假设Y,的分布为正态的结果;A中的Y和Y。是Y,从小到大顺序排列时=5和6的 此例”=10,故根据(1)式,自举随机号的分组数列为00.1一0.2~0.3一0.4一0.5一0.6~0.7 0.8~0.91.0. 其第1 3 单本及其根据于(4)式的计算结果均列于表1.经100次自举抽样 后,各自举统计数的变幅及根据(2)或(3)式算得的平均数、标准误则列于表2.表1和表2的结果主 要说明: 1)石(表2)和a,(表1)都有一定差异,但其最大差异都在土0.5个标准误范固内.例如对于y是 (26.0-25.01)/4.77-0.208,对于s是(18.5-16.46)/4.83=0.422.这表明不能否认各个A都是无 万方数据2 扬州大学学报(自然科学敝) 第4卷 o~上,上~呈,呈~立,…,竺1~1' (1) n n 月 n ” ” 出现的随机数,凡在o~寺(低限用≤号,高限用<号,即o≤R<寺;下同)之间的取编码“l”变量,凡 在音~音之间的取编码“2”变量,…,凡在!≠~1之间的取编码“””变量·这就称为自举抽样,由这n 个“新”变量组成的样本则称为自举样本(bo。tstrap sample).当对原始样本变量重复进行m轮自举抽 样,就得到m个容量均为”的自举样本.再对每一样本都按照在原始样本中所用的计求鼠的方法,求 其统计数鼠,得到1个次数为m的巍分布.这称为自举统计数群分布.由此分布,我们就可以研究穗 的基本性质,其最主要特征数是自举平均数目:(b00strap ave。age)和自举标准误叫(boostmp standard error),定义为: 口:=>:a:加, (2) 置 蹦一『∑(a:一口:)2/(m一1)]“2. (3) 。鬲 。 以上(3)式即劈分布的标准差.不论嶷是什么样的统计数,白举抽样都能稳链地提供它的平均效和标 准误估计.这是自举法的一个重要特征和非凡功能. 如果鼠能够描述有关随机变量的取值中心(即通常所说的“无偏估计”),则岔和口:之间的差异应 在误差(标准误)所许可的范围内i如果窟的标准误为未知,则州将是其最佳替代.一般为估计a:和 轼,m;100即可(这是在口:和蹦能相对稳定的意义上而言的),不必大于200.但是,如果要了解毹的 较精确分布和对于鼠的100(1一n)%置信区间,一般应选m一1 000.这时,在以值从小到大的顺序排 列中,j=6,26和51的以值依次为对于豌的置信系数为99%,95%和90%的区间低限;而{=995, 975和950的靠值则依次为相应的区间高限.它们与巍的分布形状(如是否左右对称)无关. 2.2示倒 lo位因食用沙门氏菌污染食物而“中毒”的患者的潜伏期(反/h)列于表1列2.计算的统计数有: 潜伏期的算术平均数目。,标准差巩,鱼的标准误吼,巩的标准误鼠.由于已知潜伏期资料多属左偏分 布‘”,故又计算中位数兜(在偏态下以中位数描述变量中心常较算术平均数更为恰当,因为一组变量 与其中位数离差的绝对值之和不大于它们与任何其他统计数离差的绝对值之和).其定义和结果为: 口。;予;∑一加一260/10=26 h, l 目。=s一[∑(L一,)2/h一1)]”一18.5 h, I 以=曲一s//i一18.5//而=5.85 h, 良;L—s//磊一18.5//丽一4.14 h, 兜=Md一(y;+y。)/2=(20+22)/2—21 h. (4) 以上巩和吼是假设n的分布为正态的结果;吼中的ys和ye是L从小到大顺序排列时J=5和6的 变量. 此例n一10,故根据(1)式,自举随机号的分组数列为o~o.1~o.2~o.3~o.4~o.5~o.6~o.7 ~o.8~o.9~1.o.其第1~3自举样本及其根据于(4)式的计算结果均列于表1.经100次自举抽样 后,各自举统计数的变幅及根据(z)或(3)式算得的平均数、标准误则列于表2.表l和表2的结果主 要说明: 1)a:(表2)和鼠(表1)都有一定差异,但其最大差异都在士o.5个标准误范围内.例如对于,是 (26.o一25.01)/4.77一o.208,对于s是(18.5一16.46)/4.83=o.422.这表明不能否认各个岔都是无 万方数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有