目录 绪论 1.1 试验设计与数据处理的概念和意义 1.2 试验设计与数据处理的发展和应用…………… 1.3 试验设计与数据处理的基本概念 …………………3 2样本及其分布 6 2.1总体与样本 …………石 2.2样本分布函数与统计量 ……7 2.3直方图和秩…… ……10 2.4抽样分布…… ……13 3参数估计与假设检验 … …………………………19 3.1概述……………… ………………………………19 3.2参数估计…………………………………… ……………19 3.3参数的假设检验………………… 27 4正交试验设计的基本思想与正交表……s……………………… 35 4.1正交试验设计的基本思想…………………… 35 4.2 正交表的概念与类型………………… 35 4.3正交表的构造……………… ………40 5正交试验设计的直观分析……………………… ……………………46 5.]单指标正交试验设计…………… 46 5.2多指标正交试验设计………………… 52 5.3混合型正交试验设计…心…… ……………63 5.4考虑交互作用的正交试验设计……… ………………………67 6试验设计的方差分析………………… 76 6.1概述 ………76 6.2单因素试验的方差分析…… ………76 6.3正交试验设计方差分析的基本原理…………………… ………87 6.4相同水平正交试验设计的方差分析……………………………………91 6.5不同水平正交试验设计的方差分析…………………… 101 6.6 重复试验和重复取样的方差分析…………………………… 103 6.7正交试验设计的效应估计 …………………………………………………107 一
7正交试验设计中正交表的灵活运用………………………… ,, 115 7.1并列法…………………………… 115 7.2拟水平法………… 117 7.3拟因素法……………… 120 7.4其它方法…… 125 8SN比试验设计与产品三次设计简介 134 8.1SN比及其应用 134 8.2产品三次设计 ……………………………】41 9一元线性回归分析 ……………….147 9.1回归分析的基本概念………………………… …147 9.2一元线性回归的数学模型…………………… … 148 9.3参数。、的最小二乘估计…………………… ……149 9.4相关系数及其显著性检验……………… ……… 153 9.5一元线性回归的方差分析…………………… 155 9.6重复试验的方差分析 ……… 157 9.7利用回归方程进行预报和控制…………… …*……162 9.8化非线性为线性回归 ……………165 9.9回归直线的简便求法 167 10多元线性回归分析………………… 168 10.1多元线性回归的数学模型……………………………………………… 168 10.2参数的最小二乘估计……… 168 10.3多元线性回归的方差分析……………… ………………171 10.4逐步回归方法……… + 176 10.5回归正交设计…… ………………………177 10.6多项式回归与正交多项式…………………… …………182 附表1秋……… ………189 阳表2标准正态分布表………………………………………… 192 附表3x2分布表…… ………………194 附表4t分布表……………… …………196 附表5下分布表……………… ………………197 附表6常用正交表………………… …………….206 考文献………………… 234
1绪论 试验设计与效据处理是以概率论、数理统计及线性代数为理论基础,经济地、科学地安排 式驻和分析处理试验结果的一项科学技术,其主要内容是讨论如何合理地安排试验方案和科 ♀地分析处理试验数据和结果、从而达到解决生产中和科学硏究中的实际问题。它要求除具备 概率论、数理统计和线性代数等基础知识外,还应有较深和较广的专业知识和丰富的实际经 验。只有这三者紧密地结合起来,才能取得良好的效果。 1试验设计与数据处理的概念和意义 在科学研究和生产中,经常要做许多试验,并通过试验数据的分析,企图寻求问题的解决 法。如此就仔在着如何安排试验和如何分析试验数据和试验结果的问题,也就是如何进行 试验设计和数据处理的问题。 1.L.I试验设计 试验设计是理统计学中的一个较人的分支。它主要研究试验数据的合理获得方法·其内 ·分丰富 如果试式验安排得合理试验次数不多就能得到满意的结果:若试验安排得不合理,试验次 数既结果还往往乂不彘令人满蕙。试次数过多既浪費大量的人力和物力,时还会由于 l拖得很长,使试验条件发生变化而导致试验失斆。囚此,如何合理地安排试验方案是值得 硏究的一个重要闰題。·頑科学合坪的试验安排方法应能做到以下三点:(1)试验次数尽可能 地少:(2)便于分析和处理试验数据;(3)能得到满意的结果。 对于单因素的试验可以采用0.618法、黄金分割法、分数法、平行线法、交替法和调优法筝 厶决,并]在生产中都取得了显著成效 而灯于纟素的试验安排方法有正交试验设计、SN比试验设计、产晶∵次设计、完全随 H化试验设计、随机区组试验设计、拉丁方试验设计和i交拉」方试验设计容。其中目前应用 衫的是交试验设计该方法是依据效据的正交性(即均匀塔配)*进行试验方案设计的,t 〕该方法广泛·为了左便起见,已经构造出了一套现成规格化的正交表。根据止交長的表 ⅱ中的牧孓结构就玎以科学地挑选试验糸件(阆水)令理地安排试验。它的主要优 i在众ξ的试修糸件屮选出代表怍强的少数试验糸件;(2)据代性强的少数试验结 3,可推所出贔佳的试驯糸件或生宀岂:(3)通过试验数据的进·步分忻处理,可以提供 试≮身作乡的脊f的分;(1)在t交试验的堪础上不仅可作方片分析,还能 :等数掉处理的,算变得十分简中 1.1.2数捃处理 ∷嘈也数埋中的·部分慶内滓,它主奖俪究试验測或视鍪效据分枓计 ⅲ:可算和蚬律咔的鬟.这个规和对业生宀、农,天
气、地震等进行预报和控制,进而掌握和主宰客观事物的发展规律,使之服从和服务于人类。 数据处理的方法很多,如参数估计、假设检验、方差分析和回归分析等。其中参数估计主要 对某些重要参数进行点估计和区间估计;方差分析是分析各影响因素对考察指标影响的显著 性程度;回归分析是如何获得反映事物客观规律性的数学表达式;假设检验是判断各种数据处 理结果的可靠性程度。 1.2试验设计与数据处理的发展和应用 数理统计是应用概率论的基本理论,而试验设计与数据处理则是数理统计的重要分支和 组成部分。因此试验设计与数据处理是在概率论和数理统计的基础上不断完善和发展起来的。 早在17世纪,随机试验是与掷硬币和掷骰子等游戏紧密联系在一起的。硬币和骰子就是 最简单的概率模型。数学家赫依琴斯( huygens)就曾预言过,不要小看这些博弈游戏,它有更 重要的应用 8世纪,法国科学家巴芬( Buffon)对概率论在博弈游戏中的应用深感兴趣,发现了用随 机投币试验计算x的方法。 1908年,统计学家戈塞待( Gosset)在推导t分布的同时,通过抽样的试验方法对总体方差 和样本方差的分布进行了研究 在20世纪初,英国生物统计学家费歇(R.A. Fisher)在统计学的基础上首创了“试验设 计”方法。在农业、生物学和遗传学等方面都取得了丰硕成果,使农业大幅度增产。费歇于1935 年出版了他的“试验设计”专著。从此开创了试验设计这门新的应用技术科学 20世纪30年代和40年代,英、美、苏把试验设计推广到采矿、冶金、建筑、纺织、机械和医 药等行业,都取得了很好的经济效益。 二次世界大战后,日本从英、美引进了这一技术。于1949年日本的田口玄一博士在试验设 的基础上又创造了“正交试验设计”方法 2年田口玄一在日本东海电报公司运用L2(32)正交表进行正交试验取得成功。之后, 在日本工业生产中得到了迅速推广。仅在1952年至1962年的10年中试验达到了100万项 其中三分之一的项目都取得了十分明显的效果,并获得了极大的经济效益。其中之一,如他们 运用正交试验设计对电讯研究所研制的“线形弹簧继电器”的数十个特性值2000多个变量进 行了试验研究经过7年的努力制造出了比美国先进的产品这一产品本身只有几美元,而试 验研制花费了几百万美元,但研究成果给该研究所带来几十亿美元的利益。几年后,他们的竞 争对手美国西方电器公司不得不停产转而从日本引进这种先进的继电器。在日本“正交试验 设计”技术已成为企业界、工程技术界的研究人员和管理人员必备的技术知识已成为工程师 的共同语言的一部分 1957年田口玄一博士在正交试验设计的基础上又提出了“信噪比设计”和“产品三次设 计 信噪比SN( Signal- Noise Ratio)通常被用来表示信号功率与噪音功率的比值,即7=N 噪音功率可以用来评价仪器和设备质量的好坏 产品三次设计(即系统设计 System design、参数设计 Parameter design,容差设计 Toler-
ance design)是使整机的元器件或零件各参数合理搭配,对于某些地方,采用低级价廉的元器 件或零部件仍能保证整机质量稳定和高的可靠性。 在二次世界大战后,日本的工业飞速发展的原因之一,就是在工业领域里普遍推广和应用 正交试验设计和产品三次设计的结果。日本的电子产品能够打进美国市场畅销世界各国的秘 诀之一也是运用了正交试验设计和产品三次设计这个得力工具因此,日本把正交试验设计技 术誉为“国宝”是有一定道理的。 数据处理是在大量试验数据基础上,也可在正交试验设计的基础上,通过数学处理和计 算揭示产品质量和性能指标与众多影响因素之间的内在关系,还可以回归出数学表达式,在 生产和科研中得到广泛应用,并起到了重要作用和显著效果。 我国从50年代开始研究“试验设计”这门科学,60年代未中国科学院统计数学研究室在 “正交试验设计”的观点、理论和方法上都有新的创见,编写了一套较为适用的正交表,创立了 简单易懂的“正交试验设计"法。1973年以来,许多科研、生产单位和大专院校应用正交试验设 计方法解决了不少科研和生产中的关键问题。例如上海地区,从1978年至1984年有227个单 位应用了正交试验设计方法,其中103个单位取得了成效。上海高压油泵厂生产的32MPa高 压轴向柱塞泵原来出于摩擦副的结构参数配合不好,经常发生异常发热的质量问题通过正交 试验设计找到了最佳参数组合…不仅降低了止推板仙斜盘的精度要求(不平度从0005放宽到 0.01mm),而且成品合格率由原来的69%提高到了90%以上 品三次设计在我国起步较晚,北京761厂‘在高频负反馈电路中采用了产品二次设计,仅 该电路中3GAGC体管正确选择一项,一年叮增加经济效益3万余元。杭州电视机!对西 湖牌黑白电视机的OTL电路的屮点电压设计中运用了产品三次设计方法。不仅找到了高可 筚性、高稳定性等优化方案,而且仅此一项全年收益达13591元。 数据处理在我国各领域也发挥了很大作用,如预报气象和病虫害、制定自动控制中的数学 模型、以及参数估计和检验等都要应用到这数学工具 70年代以前,我国许多工厂企业为了提高机电产品质量,对元器件或零部件采用层层筛 选,专挑质量高、成本高的一级品组裝整杋,这样使整机昂贯,但质量未必就奷。70年代以来, 我国很多I∫企业对机电产品积极开展了正交试验设计和产品三次设计·使元器件或零部件 的参数合理搭配从而使我国的很多机械设备和电气产品(如电视杌、电冰箱、收永机等)的可 宰性和稳定性大幅度提高,许多产品打入国际市场。 1.3试验设计与数据处理的基本概念 1.3.I常用术语 试验考察指标 在试验设计和数据处理中,我们通常恨据试验和数据处理的目的而选定用来考察或衡量 其效果的特性笸称为试验考察指标。试验考察指标可以是产品的质量、成夲、效率和经济效益 试验考察指标分为定量指标和定性指标两大类定量化指标(如精度、粗糙度、强度硬度 合格率、寿命和成本等)可以通过试验直接获得,它方便计算和数据处理。而定性指标(如颜色
气味、光泽等)不是具体数值,…-般要定量化后再进行计算和数据处理。 试验考察指标可以是…一个,也可以是几个,前者称为单考察指标试验设计,后者称为多考 察指标试验设计 2.试验因素 对试验考察指标产生影响的原因或要素称为试验因素。 例如在合金钢40r的淬火试验中淬火硬度与淬火温度(如770、800、850()和冷却方式 如水冷、油冷、空冷)有关。其中淬火温度和冷却方式是试验因素,而淬火硬度是试验考察指 标。 除上述的试验因素外,在试验过程中由于测量、仪器和环境条件等影响,也会影啊到试验 考察指标,称这类因素为误差因素。因素一般用大写字母A、B、C、…来标记 3.因素水平 试验因素在试验中所处的状态、条件的变化可能会引起试验指标的变化,我们把国素变化 的各种状态和条件称为因素的水平。在试验中需要考虑某因素的儿种状态时,则称该因素为几 水平因素。如上例40Cr的淬火试验中,淬火温度为770、800、850℃=种状态,则淬火温度这个 试验因素为三水平因素因素的水应是能够直接被控制的,并且水平的变化能直接影响试验 考察指标有不同程度的变化。术平通常用数字1、23…表示。 1.3.2常用统计量 1.极差 极差是一组数据中的最大值与最小值之差,其计算公式为 R 极差表示一组数据的最大离散程度,它是统计量最简单的一个特征参数,在试验设计中 会经常用到 2.一组数据之和与平均值 在试验设计和数据处理中,设有几个观察值x1x2,…xn我们称之为组数据。这组数据 之和与平均值分别为 71y 3.偏差 偏差也称为高差。偏差在数理统计中一股有两种,一种是与期望值p之间的偏差,另一种 是与平均值κ之间的偏差。在试验设计和数招处理中往往不知道期望值p,而很容易知道平均 值α所以常常把与平均值x之间的偏差作统计量进一步分析研究 设有n个观察值x1,x2,…,x则把每个观察值x(i=1,2,…,n)与平均值x的差值称为 与平均值之间的偏差简称为偏差 很显然,与平均值x之间的偏差的总和为零,即
(x,-x)=0(i=1.2 (1-4) 4.隔T方和与自由度 由式(1-4)可知.一组数据与其均值的各个偏差值有正、负或零,因此各偏差值的总和 为岑听以偏差和不能長明这组数据的任何特征。如果消除掉各个偏差正、负的影响,即以偏差 平方和作为这组数据的一个统计量,则偏差平方和能够衣征这组数据的分散程度,常以S表 设有n个观察值xx2…,xn其平均值为x,则偏差平方和为 S2-(x1-x)2+(x2-x)2-…4(x.-x)2=△(x2-x)2(i=1,2,…n)(1-5) 关」目由度的问勘可以通过下例来说明。 例如有4个数据3、4、6、7由于它们之间有个关系式 3+4+6+ 数学上称这4个效据中只有4-1(此处“1”指一个关系式)个对其平均值是独立的,也就是说, i:述个数据的均值已知为5,且其中3个数据也已知分别为3,4.6,那未第四个数据7就 叮由该关系式所确定这说明第四个数据7受其它3个独立的数据听束约。自巾度是独立数据 的个数,所以该例中的自由度/=41=3。若有n个观察值,与平均值x的偏差平方和的自由 度为n-1个 方与j均方 方也称T均偏差平方和,它表示单位自由度的偏差大小,即偏差平方和S2与自由度f 比值W.即是方差 均方也称标准偏差。由方差v的计算式(17)可知方差v的量纲为观家数据x的量 纲的半方为了与原特性值的量纲相一致.可采用方差V的平方根√V作为一组数据离散程 度的特征参数,即 (t-1.2
2样本及其分布 在生产和科学实验中,会碰到大量的数据如何从这些杂乱无章的数据中,取出有用的情 报,帮助解决问题,用于指导生产,为此,需要对数据进行处理, 数据处理在数理统计中就是通过随机变量的部分观察值来推断随机变量的特性,例如 分布规律和数字特征等。数理统计是具有广泛应用的一个数学分支,它以概率论为理论基础, 根据试验或观察得到的数据,对研究对象的客观规律作出合理的估计与判断 2.1总体与样本 2.11总体 在数理统计中,人们所研究对象的全体称为总体,而组成总体的每个单元称为个体。任何 总体的某项指标,是按一定的规律分布的,因而是一个随机变量,常用大写字母X、Y、Z等表 示。例如,一批灯泡,以其使用寿命指标来衡量它的质量,若规定寿命低于1000h者为次品,要 求确定这批灯泡的次品率。显然这个问题可以归结为求灯泡寿命X这个随机变量的分布函数 F(x),若已求得F(x),则P{X<1000}=F(1000)就是所求的次品率。如果把每只灯泡的寿命 都测出来,问题就得到了圆满的解决,但由于寿命试验是破坏性的,旦获得全部的试验结果, 这批灯泡的灯丝就全部烧断了。因此,是不现实的 再如有一批晶体管,共10万只,若想了解它的某个指标(如直流放大系数),由于测试不会 损坏合格的晶体管,所以最理想的办法是逐一测试。然而限于人力物力和时间,也不可能逐 测试。因此只能取总体的部分来进行试验或测试然后根据这些试验数据推断总体的指 标 总体的类型随研究的问题而定。它所包含的个体数可以是有限的也可以是无限的,例如, 研充某厂某天生产的某种灯泡的次品率,总体是有限的,其个体数就是该天生产的这种灯泡的 总数。但为研究方便仍以研究灯泡的寿命X的分布为例我们常把相同条件下所生产的这种 灯泡的寿命全体,看成个总体。显然,它是一个无限总体,因而灯泡寿命X是一个连续型随 机变量。 21.2样本 从总体ⅹ中随机抽取若干个体观察其某种数量指标的取值过程,称为抽样。从总体中抽 取一个个体以作观繁或试验,这个抽出的个体在未观察前它可能取某个值,也可能取另一个 值因此,它也是一个随机变量,常用带下标的大写字母X、Y.等表示。 从一个总体中随机地抽取n个个体X1,X2,…,X,这样取得的(X1,X2…,X)称为总体 X的一个样本样本中个体的数目称为样本容量。对于样本来说,一次抽取、观察的结果是n个 具体的数据x1,x2…,x,称为样本(X1,X2,…,X)的一个观察值,简称样本观察值。而样本观 繁值的所有可能取值的全体称为样本空间
为了使抽取的样本能反映总体的性质要求抽样是完全随机的和独立的,并且每抽取一个 个体后总体的成分不变,每次抽样的观察值互不影响还要求X,(i=1,2,…,n)必须与总体有 相同的分布函数F(x)。这样的抽样方法称为简单随机抽样。 如果一个样本中每个个体X都与总体X有相同的分布且相互独立,则称这个样本为简 单样本。 综上所述,我们给出如下定义 设X为具有分布函数F(x)的随机变量,若Xt,X2,…,X.为具有相同分布函数F(x)的相 互独立的随机变量则称(X1,X2,…,X,)为来自总体X的容量为n的简单随机样本,简称样 本。它们的观察值x1,x2,…,x.又称为X的n个独立的观察值 2.2样本分布西数与统计量 2.2.1样本分布函数 实际应用中总体的分布函数F(x)往往是未知的,数理统计的任务之一就是由样本的特 性来推断总体的分布。由概率论知,若(X1X2;…X,)为来自总体X的一个样本,则x1,X2, Xn的联合分布函数为 (2-1) 又若X具有概率密度f(x),则X1,X2,…,X.具有联合概率密度 前皕已提到,简单随机样本能很好地反映总体的情况,为了推断总体的分布,这里给出样 本分布函数的定义 设总体X的n个独立的观察值按大小次序排列成 若x≤r<x一,则不大于x的观察值的频率为k/n因而函数 F,(x)= x≤x<x+-1 (2-3) 等于在n次重复独立试验中事件{X≤x}的频率。称之为样本分布函数或经验分布函数。 按经验分布函数的定义,容量为n的简单样本(X2,X2,…,X)的经验分布函数F(x)可 能取的值为0,1,…,,…, “Fn(x)=”表示服从总体分布F(x)的随机变量X取 小于x值这一事件在n次重复独立试验中恰好出现k次,也就是说在这n次试验中,事件{X ≤x)的频率为k,所以按贝努利大数定理,对一个任意的正数,有 limPilF(x-F()2e)=0 在y面上作出y=F(x)及y=F(x)的图形C及C,,如图2-1所示,该等式表明:对任意给 定的正数ε,在横坐标上任意指定值r处.只要n足够大,C与C上点的纵坐标之差的绝对值
不小于E的概率就能小于任意给定的正数。即,当n足够大时,C,的图形在不等式 F(x)-E<y<F(r)+E 所定的带状区域以外的概率可以小于任意的正数。因此当n很大时,样本分布函数F(x)将近 似地等于总体分布函数 图21样本分布函数 还可以进一步证明下列格利文科定理 当→∞时,F(x)依概率1关于x均匀地收敛于F(x),即 P{ lim max|F.()-F(x)|=0}=1 这就是我们用样本推断总体的依据 2.2.2统计量 对于给定的一个样本的实现x1…2…,x,可以计算它的数字特征,并冠以样本两字,以示 与总体数字特征的区别。如.样本k阶原点矩为 2S x2、k=1.2 样本k阶中心矩为 (x,x),k=1,2 样本平均值为 样本方差为 2= (x,-x)2 (2·7) s2的正平方根s称为样本标准离差 x:·n 分別为下列随机变量的观察值: X 8