附录1矩阵基础知识 1矩阵的概念:矩阵就是矩形的数表。例如: 0、0 代表由pq个数字排成的数表,我们称它为p行q列矩阵。矩阵用大写黑体字母表示。其下 标表示它所包含的行列数,也可省略不写。用小写字母表示矩阵中的各个数字,如a表示 A矩阵中第i行第j列的那一个数字,称为矩阵的元素。有时也可用(a)表示矩阵A。 向量是只有一行或一列的矩阵。当p=1时,矩阵只有一行,称为行向量;当q=1时,矩 阵只有一列,称为列向量。 矩阵的基本运算 (1)相等:两个矩阵A,B,若它们有所有元素对应相等,即对任意i,j,均有a=bj,则 称A与B相等,记为A=B。显然A与B相等的前提条件是它们有相同的行数和列数 (2)加法:两个矩阵A,B,则A+B=C为一个新的矩阵,其元素为A和B的对应元素 相加的和。即:若A=(a),B=(b),则C=(c)=(a+b)。显然加法也要求A,B矩阵有相 同的行列数 (3)乘法:两个矩阵Ap和Bq则A·B=Cp为一个新矩阵,其第i行第j列的元素c为 A的第i行元素与B的第列元素的乘积和,即:c1 b。显然矩阵乘法要求第 个矩阵的列数等于第二个矩阵的行数。 -33-21-16 例1 13-5229 521 如上面例题中结果的第一行第一列元素-33=3×1+2×2+(-8)×5,第二行第一列元素 13=(-4)×1+6×2+1×5,等等 注意:一般来说,矩阵乘法不满足交换律即AB≠BA。象上面的例子,BA根本就不能 相乘,因为B有三列,而且A只有两行,不满足矩阵乘法的条件。再例如A1n为n阶行向 量,Bn为n阶列向量,则AB为一个数字,而BA为一个n×n阶的矩阵 (4)转置:把矩阵A以它的主对角线(从左上到右下)为轴旋转180°,它的行变成列, 列变成行,称为转置。记为A′。即 12 若A=A,则称A为对称矩阵。 (5)矩阵的行列式:若矩阵A为方阵,则我们可按某种规则从矩阵A计算出一个数作为它 的值,这个值称为矩阵的行列式,记为A。对于二阶方阵,它的行列式定义为主对角线乘
附录 1 矩阵基础知识 1.矩阵的概念:矩阵就是矩形的数表。例如: Apq = p p pq q q a a a a a a a a a 1 2 21 22 2 11 12 1 代表由 p∙q 个数字排成的数表,我们称它为 p 行 q 列矩阵。矩阵用大写黑体字母表示。其下 标表示它所包含的行列数,也可省略不写。用小写字母表示矩阵中的各个数字,如 aij 表示 A 矩阵中第 i 行第 j 列的那一个数字,称为矩阵的元素。有时也可用(aij)表示矩阵 A。 向量是只有一行或一列的矩阵。当 p = 1 时,矩阵只有一行,称为行向量;当 q = 1 时,矩 阵只有一列,称为列向量。 2. 矩阵的基本运算 (1)相等:两个矩阵 A,B,若它们有所有元素对应相等,即对任意 i,j,均有 aij = bij,则 称 A 与 B 相等,记为 A = B。显然 A 与 B 相等的前提条件是它们有相同的行数和列数。 (2)加法:两个矩阵 A,B,则 A + B = C 为一个新的矩阵,其元素为 A 和 B 的对应元素 相加的和。即:若 A = (aij), B = (bij), 则 C = (cij) = (aij+bij)。显然加法也要求 A,B 矩阵有相 同的行列数。 (3)乘法:两个矩阵 Apq 和 Bqr, 则 A·B = Cpr为一个新矩阵,其第 i 行第 j 列的元素 cij 为 A 的第 i 行元素与 B 的第列元素的乘积和,即: = = q k 1 ij ik bkj c a 。显然矩阵乘法要求第一 个矩阵的列数等于第二个矩阵的行数。 例 1 − − 4 6 1 3 2 8 − − − − = − − 13 52 29 33 21 16 5 2 1 2 7 2 1 3 4 如上面例题中结果的第一行第一列元素–33 = 3×1 + 2×2 + (–8)×5,第二行第一列元素 13 = (-4)×1 + 6×2 + 1×5,等等。 注意:一般来说,矩阵乘法不满足交换律即 AB≠BA。象上面的例子,BA 根本就不能 相乘,因为 B 有三列,而且 A 只有两行,不满足矩阵乘法的条件。再例如 A1n 为 n 阶行向 量,Bn1 为 n 阶列向量,则 AB 为一个数字,而 BA 为一个 n×n 阶的矩阵。 (4)转置:把矩阵 A 以它的主对角线(从左上到右下)为轴旋转 180°,它的行变成列, 列变成行,称为转置。记为 A。即: pq p p qp q q qp q q qp p p a a a a a a a a a a a a a a a a a a = 1 2 12 22 2 11 21 1 1 2 21 22 2 11 12 1 若 A = A,则称 A 为对称矩阵。 (5)矩阵的行列式:若矩阵 A 为方阵,则我们可按某种规则从矩阵 A 计算出一个数作为它 的值,这个值称为矩阵的行列式,记为 A 。对于二阶方阵,它的行列式定义为主对角线乘
积减去副对角线乘积。主对角线是指从左上到右下的对角线,而副对角线则是指从左下到右 上的对角线 例2 A B 79 则A=5×2-7×3=-11 则B=21×9-(-3)×7=210 要计算高阶方阵的行列式,则需引入代数余子式的概念.通过它可把方阵的阶数逐次降 低,直到只剩二阶行列式,从而可用上述方法求出最终结果 子式:对于任意n阶行列式Am,删除任一元素a;所在的i行j列后所得n-1阶行列式 称为a的子式 代数余子式:子式乘以(-1)“,称为a;的代数余子式,记为A(ij) 定理:行列式Am的值等于它任意一行或任意一列的所有元素与其代数子式的乘积之和 A=∑anA), 称为按i行展开;或 A=∑anA(j) 称为按j列展开 反复使用上述公式,直到各子式均变为2阶,然后可用前述方法求出其值。 若A=0,则称A为退化的方阵 (6)单位阵。它是一个方阵,主对角线(从左上到右下的对角线)上元素均为1,其它元 素均为0。记为In。它在矩阵乘法中起着类似数字1在数字乘法中的作用,所以称为单位 阵。即:设A,I均为n·n方阵,则有AI=IA=A。换句话说,任何矩阵与单位阵(当然 阶数必须适当)相乘,均不改变其数值。 (7)逆矩阵。若A为非退化方阵,即A≠0,则有与A同阶的方阵A1存在,使 AA-=A-A=I 4-称为A的逆矩阵。它的求法为:设A=(a1),则: A(11)A(2l)A(nl) AAA A(12)A(22)A(n2) A(In) A(2n A(nn AA A 其中A(为a的代数余子式。注意A1中代数余子式的下标是经过转置的,即第i行第j列 位置上是A的第j行i列元素a的代数余子式
积减去副对角线乘积。主对角线是指从左上到右下的对角线,而副对角线则是指从左下到右 上的对角线。 例 2 = 3 2 5 7 A , − = 7 9 21 3 B , 则 A = 52–73 = –11 则 B = 219 – (–3)7 = 210 要计算高阶方阵的行列式,则需引入代数余子式的概念.通过它可把方阵的阶数逐次降 低,直到只剩二阶行列式,从而可用上述方法求出最终结果。 子式:对于任意 n 阶行列式 Ann ,删除任一元素 aij 所在的 i 行 j 列后所得 n - 1 阶行列式 称为 aij 的子式。 代数余子式:子式乘以(-1) i+j ,称为 aij 的代数余子式,记为 A(ij)。 定理:行列式 Ann 的值等于它任意一行或任意一列的所有元素与其代数子式的乘积之和。 即: = j ij A a A(ij) , 称为按 i 行展开;或 = j ij A a A(ij) , 称为按 j 列展开。 反复使用上述公式,直到各子式均变为 2 阶,然后可用前述方法求出其值。 若 A = 0,则称 A 为退化的方阵。 (6)单位阵。它是一个方阵,主对角线(从左上到右下的对角线)上元素均为 1,其它元 素均为 0。记为 Inn。它在矩阵乘法中起着类似数字 1 在数字乘法中的作用,所以称为单位 阵。即:设 A,I 均为 n·n 方阵,则有 AI = IA = A。换句话说,任何矩阵与单位阵(当然 阶数必须适当)相乘,均不改变其数值。 (7)逆矩阵。若 A 为非退化方阵,即 A 0 ,则有与 A 同阶的方阵 A–1 存在,使 AA–1 = A–1A = I A–1 称为 A 的逆矩阵。它的求法为:设 A = (aij),则: = − A A(nn) A A(2n) A A(1n) A A(n2) A A(22) A A(12) A A(n1) A A(21) A A(11) A 1 其中 A(ij)为 aij 的代数余子式。注意 A–1 中代数余子式的下标是经过转置的,即第 i 行第 j 列 位置上是 A 的第 j 行 i 列元素 aji 的代数余子式
附录2.采用微软公司的Exce软件进行常见的统计计算。 Excel是一个功能十分强大的电子表格软件,它是微软公司办公软件 Office中的一部分 利用它可以方便地进行许多计算工作,画图工作等,也包括常用的一些统计计算。使用这种 通用办公软件的最大优点是普及率高,容易得到:其次是使用简单,不用记许多特殊指令; 同时它也能复盖常用的统计方法,可满足一般工作时需要。另一方面,与许多著名的统计软 件如SAS等相比,它也有一些明显的缺点,例如自动化程度不高,需要掌握一些基本统计 公式;功能也不够强,有些统计计算不能做等。 在本附录中,我们假设读者已对 Excel有一定了解,因此不再介绍 Excel的基本用法。 主要介绍以下几种统计计算: 1.假设检验。包括正态总体的假设检验,离散分布的假设检验,以及用皮尔逊统计量进行 非参数检验。 2.方差分析。 3.回归分析,包括简单作图 §1假设检验 、正态总体单样本假设检验 1.统计知识复习 若要检验方差,则统计假设为: Ho: H (双边检验) 或:HA:σ>oo或σ山或μ<μo(单边检验) 统计量的选取则要分为以下两种情况 a)总体方差σ已知:u检验 X-Ho N(0,1) b)总体方差σ2未知:t检验 t(n一 2.方差检验的计算方法: 设Ho:σ=∞,且原始数据在A:Ao位置 1°在空单元格(设为B1)中输入公式 “=Var(A1:A20)*19/00∧2∠” 这一步是计算x2统计量,其中Var为 Excel的内部函数,功能为求指定数据的方差。“” 表示回车( Enter)键 在B2格中输入: chidist (B1, 19) 这一步是计算统计量所对应的概率,相当于查表。注意函数 chidist返回的是单尾概率
附录 2. 采用微软公司的 Excel 软件进行常见的统计计算。 Excel 是一个功能十分强大的电子表格软件,它是微软公司办公软件 Office 中的一部分。 利用它可以方便地进行许多计算工作,画图工作等,也包括常用的一些统计计算。使用这种 通用办公软件的最大优点是普及率高,容易得到;其次是使用简单,不用记许多特殊指令; 同时它也能复盖常用的统计方法,可满足一般工作时需要。另一方面,与许多著名的统计软 件如 SAS 等相比,它也有一些明显的缺点,例如自动化程度不高,需要掌握一些基本统计 公式;功能也不够强,有些统计计算不能做等。 在本附录中,我们假设读者已对 Excel 有一定了解,因此不再介绍 Excel 的基本用法。 主要介绍以下几种统计计算: 1. 假设检验。包括正态总体的假设检验,离散分布的假设检验,以及用皮尔逊统计量进行 非参数检验。 2. 方差分析。 3. 回归分析,包括简单作图。 §1 假设检验 一、正态总体单样本假设检验: 1. 统计知识复习: 若要检验方差,则统计假设为: H0: = 0 HA: ≠ 0 (双边检验) 或: HA: > 0 或 0 或 < 0 (单边检验) 统计量的选取则要分为以下两种情况: a) 总体方差 2 已知:u 检验 ~ (0,1) / 0 N n X u − = b) 总体方差 2 未知:t 检验 ~ ( 1) / 0 − − = t n S n X t 2. 方差检验的计算方法: 设 H0: = 0,且原始数据在 A1:A20 位置。 1 在空单元格(设为 B1)中输入公式: “= Var(A1:A20)*19/0 2 ↙” 这一步是计算 2 统计量,其中 Var 为 Excel 的内部函数,功能为求指定数据的方差。“↙” 表示回车(Enter)键。 2 在 B2 格中输入: “= chidist (B1, 19) ↙” 这一步是计算统计量所对应的概率,相当于查表。注意函数 chidist 返回的是单尾概率
即P(X>B1),而不是分布函数,即P(Xon:当B2>α时接受H 若H为:Gα时,接受H;E1<α时,拒绝H。 注意: Ttest函数不区分统计量是大于0还是小于0,也不管是上单尾检验还是下单尾检验。 因此进行单尾检验时可能出现错误拒绝。如当进行上单尾检验,即H为μ〉脚,而观测数 据平均值却明显小于时;或进行下单尾检验,即H为μ<μ,而观测数据平均值却明显 大于μ时;在这两种情况下都会出现错误拒绝现象。使用中务请注意先进行直观检验,不 属于以上两种情况时再进行统计检验,以免发生错误 例1.(即本书例3.2)已知某种玉米平均穗重μ。=300g,标准差σ。=9.5g,喷药后,随机 抽取9个果穗,重量分别为(单位为g):308,305,311,298,315,300,321,294,320。 问这种药对果穗重量是否有影响 解:如表1,把果穗重原始数据填入A4:A12单元。 检验方差是否变化:在B5单元里输入: Var(A4:A12)*8/9.5A2,8)” 回车后,显示数字0.414234。由于这一数字在0.025和0.975之间,因此接受H,认为 方差没有变化 检验均值是否变化:由于方差已知,可采用Z-test。在B8单元里输入: = ztest(A4:A12,300,9.5)” 回车后,显示数字0.005763。由于这一数字小于0.025,大于0.005,因此拒绝H,喷 药前后果穗重差异显著,但未达到极显著 也可当作方差未知,直接进行T检验 在C4:C12单元格中,填充数字300 在D5单元格中输入:
即 P(X > B1),而不是分布函数,即 P(X 0: 当 B2 > 时接受 H0; 若 HA 为: 时,接受 H0;E1 0,而观测数 据平均值却明显小于0 时;或进行下单尾检验,即 HA 为 < 0,而观测数据平均值却明显 大于0 时;在这两种情况下都会出现错误拒绝现象。使用中务请注意先进行直观检验,不 属于以上两种情况时再进行统计检验,以免发生错误。 例 1. (即本书例 3.2)已知某种玉米平均穗重μ0 = 300g,标准差σ0 = 9.5g,喷药后,随机 抽取 9 个果穗,重量分别为(单位为 g):308,305,311,298,315,300,321, 294,320。 问这种药对果穗重量是否有影响? 解:如表 1,把果穗重原始数据填入 A4:A12 单元。 检验方差是否变化:在 B5 单元里输入: “= Var(A4:A12)*8/9.5 2,8)” 回车后,显示数字 0.414234 。由于这一数字在 0.025 和 0.975 之间,因此接受 H0,认为 方差没有变化。 检验均值是否变化:由于方差已知,可采用 Z-test。在 B8 单元里输入: “= ztest(A4:A12,300,9.5)” 回车后,显示数字 0.005763 。由于这一数字小于 0.025,大于 0.005,因此拒绝 H0,喷 药前后果穗重差异显著,但未达到极显著。 也可当作方差未知,直接进行 T 检验: 在 C4:C12 单元格中,填充数字 300。 在 D5 单元格中输入:
“= ttest(A4:A12,D4:D12,2,1)” 回车后,显示数字0.037208。由于这一数字小于0.05,大于0.01,因此拒绝H,喷药 造成的差异仍为显著,但未达极显著水平 两种方法差异的讨论见本书例3.2 表1.例1计算结果 例1 9.5 果穗重 308 Chi-test 300 T-test 3050.414234 3000.037208 300 298 Z-test 3150.005763 300 321 300 294 300 320 300 二、正态总体双样本假设检验: 1.统计知识复习 若要检验方差,统计假设为:Ho:σ1=σ;HA:σ≠σ2。一般均为双边检验。统计量为 F=S2/S2~F(m-1,m 其中m和n分别为第一和第二样本的样本容量 若要检验均值,零假设为:Ho:σ1=σ2 备择假设为:HA:山≠2 (双边检验) 或:HA:μ>2或μ<2(单边检验) 同时,还可能出现以下几种情况: (1)总体方差σ,G2已知:u检验 Jo?/m+o2/nN(O, 1) (2)总体方差未知,但相等(即通过了F检验):t检验。 ~1(m+n-2) l)S2+(n-1)S m+n-2 (3)总体方差未知,且不等(即未通过F检验):近似t检验 近似服从tdf S2/m+S2 其中df
“= ttest(A4:A12,D4:D12,2,1)” 回车后,显示数字 0.037208 。由于这一数字小于 0.05,大于 0.01,因此拒绝 H0,喷药 造成的差异仍为显著,但未达极显著水平。 两种方法差异的讨论见本书例 3.2。 表 1. 例 1 计算结果 例1 μ0 300 σ0 9.5 果穗重 308 Chi-test 300 T-test 305 0.414234 300 0.037208 311 300 298 Z-test 300 315 0.005763 300 300 300 321 300 294 300 320 300 二、正态总体双样本假设检验: 1. 统计知识复习: 若要检验方差,统计假设为:H0:1 = 2;HA:1 2。一般均为双边检验。统计量为: F S /S ~ F(m 1,n 1) 2 2 2 = 1 − − 其中 m 和 n 分别为第一和第二样本的样本容量。 若要检验均值,零假设为:H0:1 = 2; 备择假设为:HA:1 2 (双边检验) 或:HA:1 > 2 或 1 < 2 (单边检验) 同时,还可能出现以下几种情况: (1)总体方差 2 2 2 1 , 已知:u 检验 ~ N(0,1) / m / n x x u 2 2 2 1 1 2 + − = (2)总体方差未知,但相等(即通过了 F 检验):t 检验。 ~ ( 2) ) 1 1 ( 2 ( 1) ( 1) 2 2 2 1 1 2 + − + + − − + − − = t m n m n m n m S n S x x t (3)总体方差未知,且不等(即未通过 F 检验):近似 t 检验。 S m S n x x t / / 2 2 2 1 1 2 + − = 近似服从 t(df) 其中 df = 1 2 2 ) 1 (1 ) 1 ( − − − + − n k m k , ) n S m S /( m S k 2 2 2 1 2 1 = +
(4)配对检验:用于两总体间明显正相关时 令d=X1-X2,对Ho:d=0作单样本检验 2.方差检验方法:F检验,Ho:σ1=02;HA:σ1≠2 假设两组数据分别位于A1:A10,B1:B10 °在空格C1中输入: Ftest(Al: A10, Bl: B10)v 注意 Ftest返回的是F统计量的双尾概率,因此下一步可直接与q比较。 2°比较:Cla则接受H。 3.均值检验方法:需区分几种情况: (1)两总体方差G,σ2已知:U检验 1°在空格D1中输入: (Average(Al: A10)-Average( B1: B10))/ sgrt(o,/count(Al: A10)+o/count(B1: B10))v 这一步计算统计量的值,用了以下几个函数: Average:计算平均数;sqrt:计算平方根 count:计算指定区域中数字的个数。σ2,G2应直接输入数值,或存贮该数值的位置。 2°在D2中输入 Normsdist(D1) 这一步计算统计量对应的分布函数概率值。它返回的是分布函数取值(即P(Xx))。注意在 Excel中函数 Normsdist是计算标准正态分布 的取值,而 Normdist是计算一般正态分布的取值。这里由于D1计算过程中已进行了标准 化,因此应使用 Normsdist °将D2的数值与a比较: 双边检验:a/2μ2:当D2a时接受H 注意:由于 Normsdist函数返回的是分布函数,而不是尾区概率,因此这里单边检验的接 受域与使用 Chidist和 Ztest函数时正好相反。使用时请特别注意所用函数返回的倒底是分 布函数还是尾区概率,否则单边检验时很容易出错误 (2)两总体方差未知:由于Test函数中已考虑了方差未知时的各种可能,因此使用中很方 便,只需改变一个参数的取值就可以了 1°在空格E1中输入 “=Test(A1:A10,B1:BlO, tails, type)” 这一函数中后两个参数的取值与意义为 tails=1:单尾检验; tails=2:双尾检验 type=1:配对检验;type=2:方差相等;type=3:方差不等 使用时直接把参数换为相应的数值即可。由于函数返回的数值为尾区概率,因此可直接与 相比。 2°把E1的数值与α比较,E1>α时,接受H,否则拒绝H
(4)配对检验:用于两总体间明显正相关时。 令 di = X1i – X2i, 对 H0:d = 0 作单样本检验。 2. 方差检验方法:F 检验,H0:1 = 2;HA:1 2 假设两组数据分别位于 A1:A10, B1:B10。 1 在空格 C1 中输入: “= Ftest (A1:A10, B1:B10) ↙” 注意 Ftest 返回的是 F 统计量的双尾概率,因此下一步可直接与α比较。 2°比较:C1α则接受 H0。 3. 均值检验方法:需区分几种情况: (1)两总体方差 2 1 , 2 2 已知:U 检验。 1°在空格 D1 中输入: “=(Average(A1:A10)-Average(B1:B10))/ sqrt( 2 1 /count(A1:A10)+ 2 2 /count(B1:B10)) ↙” 这一步计算统计量的值,用了以下几个函数:Average:计算平均数;sqrt:计算平方根; count:计算指定区域中数字的个数。 2 1 , 2 2 应直接输入数值,或存贮该数值的位置。 2°在 D2 中输入: “= Normsdist(D1) ↙” 这一步计算统计量对应的分布函数概率值。它返回的是分布函数取值(即 P(X x))。注意在 Excel 中函数 Normsdist 是计算标准正态分布 的取值,而 Normdist 是计算一般正态分布的取值。这里由于 D1 计算过程中已进行了标准 化,因此应使用 Normsdist。 3°将 D2 的数值与α比较: 双边检验:α/2 2:当 D2 时接受 H0。 注意:由于 Normsdist 函数返回的是分布函数,而不是尾区概率,因此这里单边检验的接 受域与使用 Chidist 和 Ztest 函数时正好相反。使用时请特别注意所用函数返回的倒底是分 布函数还是尾区概率,否则单边检验时很容易出错误。 (2)两总体方差未知:由于 Ttest 函数中已考虑了方差未知时的各种可能,因此使用中很方 便,只需改变一个参数的取值就可以了。 1 在空格 E1 中输入: “= Ttest (A1:A10, B1:B10, tails, type) ↙” 这一函数中后两个参数的取值与意义为: tails = 1:单尾检验;tails = 2:双尾检验。 type = 1:配对检验;type = 2:方差相等;type = 3:方差不等。 使用时直接把参数换为相应的数值即可。由于函数返回的数值为尾区概率,因此可直接与 相比。 2 把 E1 的数值与比较,E1 > 时,接受 H0,否则拒绝 H0
注意:单尾检验中不管两个均值谁大 Ttest给出的概率都是相同的。因此在上单尾检验(H μ1>μ2)中第一个样本均值偏小或下单尾检验(H:μ<μ)中第一个样本均值偏大都有 错误拒绝Ho的可能,使用时需要特别注意 例2.(即本书例3.3)两发酵法生产青毒素的工厂,其产品收率的方差分别为 σ1=0.46,a2=0.37,现甲工厂测得25个数据,x=371g/,乙工厂测得30个数据, j=346g/l,问它们的收率是否相同? 解:由于两总体方差已知,可采用正态分布进行检验。在空格E3中输入: normsdist(3.71-346)/sqrt(0.46/25+0.37/30)” 回车后,显示数字0.923073。由于这一数字在0.025和0.975之间,因此接受H,认为 这两个工厂的收率相同。 例3.新旧两个小麦品系进行对比试验,旧品系共收获25个小区,新品系收获20个小区 产量(公斤)如下表。问新品系是否值得推广? 旧品系34.638.140.536.239.534.139.538.037.938.439.532.937.2 新品系37.138.939.136.239.840.841.238.740.341.540.337.740.9 旧品系30.838.138.339.334.931.834.535.938.239.733.936.0 新品系38.737.241.938.639.238.240.6 解:首先检验方差是否相等:在空格中输入 ftest(E3: E27, F3: F22)" 回车后,显示数字0.024704。由于这一数字小于0.05,因此拒绝H,认为方差不相等。 应采用近似检验。 检验均值是否相等:根据题意,应为单侧检验。在另一空格输入: “= ttest(E3:E27,F3:F22,1,3) 回车后,显示数字0.000095。由于这一数字小于0.01,因此拒绝H,认为新品系极显著 地优于旧品系,值得推广。 例4.(即本书例3.6)10名病人服药前后血红蛋白含量如下: 匚病人号 服药前(x)113150|150|13.5|128100110120130123 服药后(y)|140|13814013513.5120147114|138120 问该药是否引起血红蛋白含量变化? 解:根据题意,应采用配对检验。在空格输入 ttest(I3:I12,J3:J12,2,1)” 回车后,显示数字0.223742。由于这一数字大于0.05,因此接受H,认为服药前后血红 蛋白含量没有显著变化。 三、非参数检验:皮尔逊( Pearson)统计量。 1.统计知识复习: 皮尔逊定理:当P1,P2,……P为总体的真实概率分布时,统计量 随n增加而渐近于自由度为r-1的x2分布 若令O1=n,T=np,则上式变为:
注意:单尾检验中不管两个均值谁大 Ttest 给出的概率都是相同的。因此在上单尾检验(HA: 1 > 2)中第一个样本均值偏小或下单尾检验(HA:1 < 2)中第一个样本均值偏大都有 错误拒绝 H0 的可能,使用时需要特别注意。 例 2. (即本 书例 3.3) 两发酵法 生产青 毒素的 工厂,其 产品收 率的方差 分别为 0.46, 0.37 2 2 2 1 = = ,现甲工厂测得 25 个数据, x = 3.71g / l ,乙工厂测得 30 个数据, y = 3.46g / l ,问它们的收率是否相同? 解:由于两总体方差已知,可采用正态分布进行检验。在空格 E3 中输入: “= normsdist((3.71 – 3.46) / sqrt(0.46 / 25 + 0.37 / 30))” 回车后,显示数字 0.923073。由于这一数字在 0.025 和 0.975 之间,因此接受 H0,认为 这两个工厂的收率相同。 例 3. 新旧两个小麦品系进行对比试验,旧品系共收获 25 个小区,新品系收获 20 个小区, 产量(公斤)如下表。问新品系是否值得推广? 旧品系 34.6 38.1 40.5 36.2 39.5 34.1 39.5 38.0 37.9 38.4 39.5 32.9 37.2 新品系 37.1 38.9 39.1 36.2 39.8 40.8 41.2 38.7 40.3 41.5 40.3 37.7 40.9 旧品系 30.8 38.1 38.3 39.3 34.9 31.8 34.5 35.9 38.2 39.7 33.9 36.0 新品系 38.7 37.2 41.9 38.6 39.2 38.2 40.6 解:首先检验方差是否相等:在空格中输入: “= ftest(E3:E27,F3:F22)” 回车后,显示数字 0.024704。由于这一数字小于 0.05,因此拒绝 H0,认为方差不相等。 应采用近似检验。 检验均值是否相等:根据题意,应为单侧检验。在另一空格输入: “= ttest(E3:E27,F3:F22,1,3)” 回车后,显示数字 0.000095。由于这一数字小于 0.01,因此拒绝 H0,认为新品系极显著 地优于旧品系,值得推广。 例 4.(即本书例 3.6) 10 名病人服药前后血红蛋白含量如下: 病人号 1 2 3 4 5 6 7 8 9 10 服药前(x) 11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3 服药后(y) 14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0 问该药是否引起血红蛋白含量变化? 解:根据题意,应采用配对检验。在空格输入: “= ttest(I3:I12,J3:J12,2,1)” 回车后,显示数字 0.223742。由于这一数字大于 0.05,因此接受 H0,认为服药前后血红 蛋白含量没有显著变化。 三、非参数检验:皮尔逊(Pearson)统计量。 1. 统计知识复习: 皮尔逊定理:当 P1,P2,…… Pr为总体的真实概率分布时,统计量 = − = r i i i i np n np 1 2 2 ( ) 随 n 增加而渐近于自由度为 r – 1 的 2 分布。 若令 Oi = ni, Ti = npi,则上式变为:
(O-T)2 用途:吻合度检验,列联表独立性检验。 限制条件:各T≥5 2.列联表独立性检验 对列联表进行独立性检验首先应计算理论值。对列联表独立性检验来说,理论值计算公 式为: T i行总和×列总和 总和 下面结合例题,介绍计算过程。 例5.(即本书例3.22)下表是对某种药的试验结果: 口服 58 注射 31 问给药方式对药效果是否有影响? 解 表2.例5的计算结果 有效无效 口服 注射 23846 理论值61.9481936.05181 0.0518134.94819 如上表,原始数据在区域M3:N4。计算步骤为: 1°首先计算理论值:在空格M6输入: =SUM($M3:$N3)*SUM(M$3:M$4)/SUM(SM$3:8N$4)” 回车后,显示数字61.94819。把M6复制到M7和N6、N7,得到各理论值。请注意上式中 美元符号的位置,只有位置正确才能保证复制结果正确 2°进行统计检验:在P4单元格输入 “= CHITEST(M3:N4,M6:N7)” 回车后,显示数字0.238468。把P4的值与q相比:当P4>a时接受H,即列联表的行 与列相互独立:否则拒绝H,即行与列不独立。由于这一数字大于0.05,因此接受H, 认为给药方式与药效无关 此函数的第一个参数为观测值所在区域,第二个参数为理论值所在区域。这两个矩形区 域行列数必须相同。返回值为皮尔逊统计量对应的x2分布的尾区概率,其自由度为 (r-1)(c-1),其中r,c分别为数据区的行数和列数。如果数据区只有一行或一列,则自由 度为数据个数减1。这正是列联表独立性检验所需的自由度。 例6.(即本书例3.24)为检测不同灌溉方式对水稻叶片衰老的影响,收集如下资料: 灌溉方式绿叶数黄叶数 枯叶数 深水 浅水 152 14 16 问叶片衰老是否与灌溉方式有关?
= − = r i i i i T O T 1 2 2 ( ) 用途:吻合度检验,列联表独立性检验。 限制条件:各 Ti 5。 2. 列联表独立性检验: 对列联表进行独立性检验首先应计算理论值。对列联表独立性检验来说,理论值计算公 式为: 总和 i行总和 j列总和 Tij = 下面结合例题,介绍计算过程。 例 5.(即本书例 3. 22) 下表是对某种药的试验结果: 给药方式 有效 无效 口服 58 40 注射 64 31 问给药方式对药效果是否有影响? 解: 表 2. 例 5 的计算结果 有效 无效 口服 58 40 Chi-test 注射 64 31 0.238468 理论值 61.94819 36.05181 60.05181 34.94819 如上表,原始数据在区域 M3:N4。计算步骤为: 1 首先计算理论值:在空格 M6 输入: “=SUM($M3:$N3)*SUM(M$3:M$4)/SUM($M$3:$N$4)” 回车后,显示数字 61.94819。把 M6 复制到 M7 和 N6、N7,得到各理论值。请注意上式中 美元符号的位置,只有位置正确才能保证复制结果正确。 2 进行统计检验:在 P4 单元格输入: “= CHITEST(M3:N4,M6:N7)” 回车后,显示数字 0.238468。把 P4 的值与α相比:当 P4 >α时接受 H0,即列联表的行 与列相互独立;否则拒绝 H0,即行与列不独立。由于这一数字大于 0.05,因此接受 H0, 认为给药方式与药效无关。 此函数的第一个参数为观测值所在区域,第二个参数为理论值所在区域。这两个矩形区 域行列数必须相同。返回值为皮尔逊统计量对应的 2 分布的尾区概率,其自由度为 (r–1)(c–1),其中 r, c 分别为数据区的行数和列数。如果数据区只有一行或一列,则自由 度为数据个数减 1。这正是列联表独立性检验所需的自由度。 例 6.(即本书例 3. 24) 为检测不同灌溉方式对水稻叶片衰老的影响,收集如下资料: 灌溉方式 绿叶数 黄叶数 枯叶数 深水 浅水 湿润 146 183 152 7 9 14 7 13 16 问叶片衰老是否与灌溉方式有关?
表3.例6的计算结果 灌溉方式绿叶数黄叶数枯叶数 深水 7 Chi-test 浅水 9 0.229248 湿润 14 16 理论值140.69478.77513710.53016 180.2651112431413.49177 160040299817181197806 如表3,原始数据在区域Q3:S5。首先计算理论值:在空格Q7输入: =SUM($Q3:$S3)*SUM(Q$3:Q$5)/SUM($Q$3:$S5)” 回车后,显示数字140.6947。把q7复制到区域Q7:S9,得到各理论值。请注意上式中美元 符号的位置,只有位置正确才能保证复制结果正确。 在U4单元格输入: “= CHITEST(Q3:S5,Q7:S9)” 回车后,显示数字0.229248。由于这一数字大于0.05,因此接受H,认为叶片衰老与灌 溉方式无关。 3.吻合度检验: 对吻合度检验来说,理论值的计算显然与理论分布的类型有关,x2检验的自由度也可能 发生变化。例如对正态分布的吻合度检验,如果总体参数μ,σ2已知,则统计量自由度为 数据个数减1:但若总体参数未知,用样本均值ⅹ与方差S2代替,则统计量自由度也要再减 2。此时直接用 Whitest得到的尾区概率就不对了,需要再作一下变换(见例7)。现以正态 分布为例介绍吻合度检验计算步骤。 例7.(即本书例3.19)调查了某地200名男孩身高,得x=139.5,S=742,分组数据见 下表。男孩身高是否符合正态分布? 组号 区间 26) 126.13 130,134) 17 4,138) I138,142 55 142,146 6789 146,150) 18 解:计算结果如表4。计算过程为: 1°在C3至Cl中填入身高区间的上界。最后一个应为无穷大,填入足够大的数即可。 在D3格中输入: “= NORMDIST(C3,139.5,7.42,1)” 这一步是计算正态分布值。第一个参数为区间上限:第二个参数为均值;第三个参数为标 准差;第四个参数为0时计算密度函数,为1时计算分布函数。 把D3复制到D4:D1l 3°计算各区间的概率。在E3中输入“=D3”,在E4中输入“=D4-D3”,并复制E到E5:E1l。 4°计算理论值:在G3输入
解: 表 3. 例 6 的计算结果 灌溉方式 绿叶数 黄叶数 枯叶数 深水 146 7 7 Chi-test 浅水 183 9 13 0.229248 湿润 152 14 16 理论值 140.6947 8.775137 10.53016 180.2651 11.24314 13.49177 160.0402 9.981718 11.97806 如表 3,原始数据在区域 Q3:S5。首先计算理论值:在空格 Q7 输入: “=SUM($Q3:$S3)*SUM(Q$3:Q$5)/SUM($Q$3:$S$5)” 回车后,显示数字 140.6947。把 Q7 复制到区域 Q7:S9,得到各理论值。请注意上式中美元 符号的位置,只有位置正确才能保证复制结果正确。 在 U4 单元格输入: “=CHITEST(Q3:S5,Q7:S9)” 回车后,显示数字 0.229248。由于这一数字大于 0.05,因此接受 H0,认为叶片衰老与灌 溉方式无关。 3. 吻合度检验: 对吻合度检验来说,理论值的计算显然与理论分布的类型有关, 2 检验的自由度也可能 发生变化。例如对正态分布的吻合度检验,如果总体参数,σ2 已知,则统计量自由度为 数据个数减 1;但若总体参数未知,用样本均值 x 与方差 S 2 代替,则统计量自由度也要再减 2。此时直接用 Chitest 得到的尾区概率就不对了,需要再作一下变换(见例 7)。现以正态 分布为例介绍吻合度检验计算步骤。 例 7.(即本书例 3.19) 调查了某地 200 名男孩身高,得 x =139.5, S = 7.42 ,分组数据见 下表。男孩身高是否符合正态分布? 组号 区间 Oi 1 (-∞, 126) 8 2 [126, 130) 13 3 [130, 134) 17 4 [134, 138) 37 5 [138, 142) 55 6 [142, 146) 33 7 [146, 150) 18 8 [150, 154) 10 9 [154, +∞) 9 解:计算结果如表 4。计算过程为: 1°在 C3 至 C11 中填入身高区间的上界。最后一个应为无穷大,填入足够大的数即可。 2°在 D3 格中输入: “=NORMDIST(C3,139.5,7.42,1)” 这一步是计算正态分布值。第一个参数为区间上限;第二个参数为均值;第三个参数为标 准差;第四个参数为 0 时计算密度函数,为 1 时计算分布函数。 把 D3 复制到 D4:D11。 3°计算各区间的概率。在 E3 中输入“=D3”,在 E4 中输入“=D4-D3”,并复制 E4 到 E5:E11。 4°计算理论值:在 G3 输入
“=E3*200” 并复制G3到G4至G1 5°计算统计量:在B3输入 (F3-G3)A2/G 把H3复制到H4至H1,并在H2输入: Sum(H3: H11) 另一种计算统计量的方法为:在I3输入: “= Whitest(F3:F11,H3:H11)” 在I6输入 “= Chiinv(I3,8)” 可见I6的数值与H12是相同的 6°计算统计量对应的尾区概率:在I9输入 =chidist(16, 6) 7°将I9与a相比,当19>a时,接受H,所观察数据符合正态分布;当I9≤a时,拒 绝H,数据不符合正态分布。在本题中,I9的数值为0.085446>a,因此应接受H,可 认为男孩身高符合正态分布。计算结果如下表 表4.例7的计算结果 组号区间边界正态分布概率观察值理论值(Oi-Ti)2/ Ti Chi-test 1261260.0344250.03442586.8849240.1805970.196303 2[126,130)1300.1002160.0657911313.158230.001903 3[130,134)1340.2292740.1290581725.811633.008134统计量 4[134,138)1380.4198970.1906233738.124670.03317811.09629 5[138,142)1420.6319140.2120175542.403363.742049 6[142,146)1460.8094880.1775743335.514780.17807 7[146,150)1500.921480.1119921822.398320.8636890.085446 8[150,154)1540.974660.053181010.636090.038041 9>15410000010.0253495.0680043.050627 和 分位数12.59158 本来 Whitest函数返回的就是尾区概率,但它使用的自由度为数据个数减1,而现在应使 用数据个数减3为自由度,因此要使用函数Chinⅴ先把尾区概率变回统计量的值,然后再 用 Chidist求出正确自由度下的尾区概率 注意使用不同概率模型时,自由度的变化是不同的。一般来说,模型中使用几个统计量 代替未知参数,自由度就要在原来的基础上再减少几个。例如上面的例题用了样本期望和方 差代替未知参数,因此自由度比正常的 Pearson统计量少2:本书中例3.20,统计模型中没 有未知参数,因此自由度没有变化;例3.21有一个参数需用统计量代替,因此自由度需再 减 四、常用离散分布的统计计算: 离散分布统计计算中关键一点是正确建立尾区。尾区是从观察值开始,向对H成立不利 的方向求和。例如水质检验要求大肠杆菌不大于2个毫升,取2毫升检验,发现5个细菌, 问是否判断超标。此时H为:μ≤4,对H成立不利的方向应是细菌数增加,因此尾区概率 应为:∑P。其中p为2毫升水样中出现i个细菌的概率
“=E3*200” 并复制 G3 到 G4 至 G11。 5°计算统计量:在 H3 输入: “=(F3-G3)∧2/G3” 把 H3 复制到 H4 至 H11,并在 H12 输入: “=Sum(H3:H11)” 另一种计算统计量的方法为:在 I3 输入: “=Chitest(F3:F11, H3:H11)” 在 I6 输入: “=Chiinv(I3, 8)” 可见 I6 的数值与 H12 是相同的。 6°计算统计量对应的尾区概率:在 I9 输入: “=chidist(I6,6) ↙” 7°将 I9 与α相比,当 I9 > α时,接受 H0,所观察数据符合正态分布;当 I9 ≤ α时,拒 绝 H0,数据不符合正态分布。在本题中,I9 的数值为 0.085446 > α,因此应接受 H0,可 认为男孩身高符合正态分布。计算结果如下表。 表 4. 例 7 的计算结果 组号 区间 边界 正态分布 概率 观察值 理论值 (Oi-Ti)2/Ti Chi-test 1 154 100000 1 0.02534 9 5.068004 3.050627 和 11.09629 分位数 12.59158 本来 Chitest 函数返回的就是尾区概率,但它使用的自由度为数据个数减 1,而现在应使 用数据个数减 3 为自由度,因此要使用函数 Chiinv 先把尾区概率变回统计量的值,然后再 用 Chidist 求出正确自由度下的尾区概率。 注意使用不同概率模型时,自由度的变化是不同的。一般来说,模型中使用几个统计量 代替未知参数,自由度就要在原来的基础上再减少几个。例如上面的例题用了样本期望和方 差代替未知参数,因此自由度比正常的 Pearson 统计量少 2;本书中例 3.20,统计模型中没 有未知参数,因此自由度没有变化;例 3.21 有一个参数需用统计量代替,因此自由度需再 减一。 四、常用离散分布的统计计算: 离散分布统计计算中关键一点是正确建立尾区。尾区是从观察值开始,向对 H0 成立不利 的方向求和。例如水质检验要求大肠杆菌不大于 2 个/毫升,取 2 毫升检验,发现 5 个细菌, 问是否判断超标。此时 H0 为:μ≤4,对 H0 成立不利的方向应是细菌数增加,因此尾区概率 应为: i=5 i p 。其中 pi 为 2 毫升水样中出现 i 个细菌的概率