《生物统计》附录1矩阵基础知识.doc_大学文库

附录1矩阵基础知识 1矩阵的概念:矩阵就是矩形的数表。例如: 0、0 代表由pq个数字排成的数表,我们称它为p行q列矩阵。矩阵用大写黑体字母表示。其下标表示它所包含的行列数,也可省略不写。用小写字母表示矩阵中的各个数字,如a表示 A矩阵中第i行第j列的那一个数字,称为矩阵的元素。有时也可用(a)表示矩阵A。向量是只有一行或一列的矩阵。当p=1时,矩阵只有一行,称为行向量;当q=1时,矩阵只有一列,称为列向量。矩阵的基本运算 (1)相等:两个矩阵A,B,若它们有所有元素对应相等,即对任意i,j,均有a=bj,则称A与B相等,记为A=B。显然A与B相等的前提条件是它们有相同的行数和列数 (2)加法:两个矩阵A,B,则A+B=C为一个新的矩阵,其元素为A和B的对应元素相加的和。即:若A=(a),B=(b),则C=(c)=(a+b)。显然加法也要求A,B矩阵有相同的行列数 (3)乘法:两个矩阵Ap和Bq则A·B=Cp为一个新矩阵,其第i行第j列的元素c为 A的第i行元素与B的第列元素的乘积和,即:c1 b。显然矩阵乘法要求第个矩阵的列数等于第二个矩阵的行数。 -33-21-16 例1 13-5229 521 如上面例题中结果的第一行第一列元素-33=3×1+2×2+(-8)×5,第二行第一列元素 13=(-4)×1+6×2+1×5,等等注意:一般来说,矩阵乘法不满足交换律即AB≠BA。象上面的例子,BA根本就不能相乘,因为B有三列,而且A只有两行,不满足矩阵乘法的条件。再例如A1n为n阶行向量,Bn为n阶列向量,则AB为一个数字,而BA为一个n×n阶的矩阵 (4)转置:把矩阵A以它的主对角线(从左上到右下)为轴旋转180°,它的行变成列, 列变成行,称为转置。记为A′。即 12 若A=A,则称A为对称矩阵。 (5)矩阵的行列式:若矩阵A为方阵,则我们可按某种规则从矩阵A计算出一个数作为它的值,这个值称为矩阵的行列式,记为A。对于二阶方阵,它的行列式定义为主对角线乘

附录 1 矩阵基础知识 1.矩阵的概念：矩阵就是矩形的数表。例如： Apq               = p p pq q q a a a a a a a a a     1 2 21 22 2 11 12 1 代表由 p∙q 个数字排成的数表，我们称它为 p 行 q 列矩阵。矩阵用大写黑体字母表示。其下标表示它所包含的行列数，也可省略不写。用小写字母表示矩阵中的各个数字，如 aij 表示 A 矩阵中第 i 行第 j 列的那一个数字，称为矩阵的元素。有时也可用（aij）表示矩阵 A。向量是只有一行或一列的矩阵。当 p = 1 时，矩阵只有一行，称为行向量；当 q = 1 时，矩阵只有一列，称为列向量。 2. 矩阵的基本运算（1）相等：两个矩阵 A，B，若它们有所有元素对应相等，即对任意 i，j，均有 aij = bij，则称 A 与 B 相等，记为 A = B。显然 A 与 B 相等的前提条件是它们有相同的行数和列数。（2）加法：两个矩阵 A，B，则 A + B = C 为一个新的矩阵，其元素为 A 和 B 的对应元素相加的和。即：若 A = (aij), B = (bij), 则 C = (cij) = (aij+bij)。显然加法也要求 A，B 矩阵有相同的行列数。（3）乘法：两个矩阵 Apq 和 Bqr, 则 A·B = Cpr为一个新矩阵，其第 i 行第 j 列的元素 cij 为 A 的第 i 行元素与 B 的第列元素的乘积和，即： = =  q k 1 ij ik bkj c a 。显然矩阵乘法要求第一个矩阵的列数等于第二个矩阵的行数。例 1       − − 4 6 1 3 2 8       − − − − =           − − 13 52 29 33 21 16 5 2 1 2 7 2 1 3 4 如上面例题中结果的第一行第一列元素–33 = 3×1 + 2×2 + (–8)×5，第二行第一列元素 13 = (-4)×1 + 6×2 + 1×5，等等。注意：一般来说，矩阵乘法不满足交换律即 AB≠BA。象上面的例子，BA 根本就不能相乘，因为 B 有三列，而且 A 只有两行，不满足矩阵乘法的条件。再例如 A1n 为 n 阶行向量，Bn1 为 n 阶列向量，则 AB 为一个数字，而 BA 为一个 n×n 阶的矩阵。（4）转置：把矩阵 A 以它的主对角线（从左上到右下）为轴旋转 180°，它的行变成列，列变成行，称为转置。记为 A。即： pq p p qp q q qp q q qp p p a a a a a a a a a a a a a a a a a a               =                       1 2 12 22 2 11 21 1 1 2 21 22 2 11 12 1 若 A = A，则称 A 为对称矩阵。（5）矩阵的行列式：若矩阵 A 为方阵，则我们可按某种规则从矩阵 A 计算出一个数作为它的值，这个值称为矩阵的行列式，记为 A 。对于二阶方阵，它的行列式定义为主对角线乘

积减去副对角线乘积。主对角线是指从左上到右下的对角线，而副对角线则是指从左下到右上的对角线。例 2       = 3 2 5 7 A ，       − = 7 9 21 3 B ，则 A = 52–73 = –11 则 B = 219 – (–3)7 = 210 要计算高阶方阵的行列式，则需引入代数余子式的概念.通过它可把方阵的阶数逐次降低，直到只剩二阶行列式，从而可用上述方法求出最终结果。子式：对于任意 n 阶行列式 Ann ，删除任一元素 aij 所在的 i 行 j 列后所得 n - 1 阶行列式称为 aij 的子式。代数余子式：子式乘以(-1) i+j ,称为 aij 的代数余子式，记为 A(ij)。定理：行列式 Ann 的值等于它任意一行或任意一列的所有元素与其代数子式的乘积之和。即： =   j ij A a A(ij) ，称为按 i 行展开；或 =   j ij A a A(ij) ，称为按 j 列展开。反复使用上述公式，直到各子式均变为 2 阶，然后可用前述方法求出其值。若 A = 0，则称 A 为退化的方阵。（6）单位阵。它是一个方阵，主对角线（从左上到右下的对角线）上元素均为 1，其它元素均为 0。记为 Inn。它在矩阵乘法中起着类似数字 1 在数字乘法中的作用，所以称为单位阵。即：设 A，I 均为 n·n 方阵，则有 AI = IA = A。换句话说，任何矩阵与单位阵（当然阶数必须适当）相乘，均不改变其数值。（7）逆矩阵。若 A 为非退化方阵，即 A  0 ，则有与 A 同阶的方阵 A–1 存在，使 AA–1 = A–1A = I A–1 称为 A 的逆矩阵。它的求法为：设 A = (aij)，则：                       = − A A(nn) A A(2n) A A(1n) A A(n2) A A(22) A A(12) A A(n1) A A(21) A A(11) A 1     其中 A(ij)为 aij 的代数余子式。注意 A–1 中代数余子式的下标是经过转置的，即第 i 行第 j 列位置上是 A 的第 j 行 i 列元素 aji 的代数余子式

附录 2. 采用微软公司的 Excel 软件进行常见的统计计算。 Excel 是一个功能十分强大的电子表格软件，它是微软公司办公软件 Office 中的一部分。利用它可以方便地进行许多计算工作，画图工作等，也包括常用的一些统计计算。使用这种通用办公软件的最大优点是普及率高，容易得到；其次是使用简单，不用记许多特殊指令；同时它也能复盖常用的统计方法，可满足一般工作时需要。另一方面，与许多著名的统计软件如 SAS 等相比，它也有一些明显的缺点，例如自动化程度不高，需要掌握一些基本统计公式；功能也不够强，有些统计计算不能做等。在本附录中，我们假设读者已对 Excel 有一定了解，因此不再介绍 Excel 的基本用法。主要介绍以下几种统计计算： 1. 假设检验。包括正态总体的假设检验，离散分布的假设检验，以及用皮尔逊统计量进行非参数检验。 2. 方差分析。 3. 回归分析，包括简单作图。 §1 假设检验一、正态总体单样本假设检验： 1. 统计知识复习：若要检验方差，则统计假设为： H0： =  0 HA： ≠ 0 （双边检验）或： HA： > 0 或  0 或  < 0 （单边检验）统计量的选取则要分为以下两种情况： a) 总体方差 2 已知：u 检验 ~ (0,1) / 0 N n X u  −  = b) 总体方差 2 未知：t 检验 ~ ( 1) / 0 − − = t n S n X t  2. 方差检验的计算方法：设 H0： = 0，且原始数据在 A1:A20 位置。 1 在空单元格（设为 B1）中输入公式： “= Var(A1:A20)*19/0  2 ↙” 这一步是计算 2 统计量，其中 Var 为 Excel 的内部函数，功能为求指定数据的方差。“↙” 表示回车（Enter）键。 2 在 B2 格中输入： “= chidist (B1, 19) ↙” 这一步是计算统计量所对应的概率，相当于查表。注意函数 chidist 返回的是单尾概率

（4）配对检验：用于两总体间明显正相关时。令 di = X1i – X2i, 对 H0：d = 0 作单样本检验。 2. 方差检验方法：F 检验，H0：1 = 2；HA：1  2 假设两组数据分别位于 A1:A10, B1:B10。 1 在空格 C1 中输入： “= Ftest (A1:A10, B1:B10) ↙” 注意 Ftest 返回的是 F 统计量的双尾概率，因此下一步可直接与α比较。 2°比较：C1α则接受 H0。 3. 均值检验方法：需区分几种情况：（1）两总体方差 2 1 ， 2 2 已知：U 检验。 1°在空格 D1 中输入： “=(Average(A1:A10)-Average(B1:B10))/ sqrt( 2 1 /count(A1:A10)+ 2 2 /count(B1:B10)) ↙” 这一步计算统计量的值，用了以下几个函数：Average:计算平均数；sqrt：计算平方根； count：计算指定区域中数字的个数。 2 1 ， 2 2 应直接输入数值，或存贮该数值的位置。 2°在 D2 中输入： “= Normsdist(D1) ↙” 这一步计算统计量对应的分布函数概率值。它返回的是分布函数取值（即 P(X x)）。注意在 Excel 中函数 Normsdist 是计算标准正态分布的取值，而 Normdist 是计算一般正态分布的取值。这里由于 D1 计算过程中已进行了标准化，因此应使用 Normsdist。 3°将 D2 的数值与α比较：双边检验：α/2 2：当 D2 时接受 H0。注意：由于 Normsdist 函数返回的是分布函数，而不是尾区概率，因此这里单边检验的接受域与使用 Chidist 和 Ztest 函数时正好相反。使用时请特别注意所用函数返回的倒底是分布函数还是尾区概率，否则单边检验时很容易出错误。（2）两总体方差未知：由于 Ttest 函数中已考虑了方差未知时的各种可能，因此使用中很方便，只需改变一个参数的取值就可以了。 1 在空格 E1 中输入： “= Ttest (A1:A10, B1:B10, tails, type) ↙” 这一函数中后两个参数的取值与意义为： tails = 1：单尾检验；tails = 2：双尾检验。 type = 1：配对检验；type = 2：方差相等；type = 3：方差不等。使用时直接把参数换为相应的数值即可。由于函数返回的数值为尾区概率，因此可直接与 相比。 2 把 E1 的数值与比较，E1 >  时，接受 H0，否则拒绝 H0

注意:单尾检验中不管两个均值谁大 Ttest给出的概率都是相同的。因此在上单尾检验(H μ1>μ2)中第一个样本均值偏小或下单尾检验(H:μ<μ)中第一个样本均值偏大都有错误拒绝Ho的可能,使用时需要特别注意例2.(即本书例3.3)两发酵法生产青毒素的工厂,其产品收率的方差分别为 σ1=0.46,a2=0.37,现甲工厂测得25个数据,x=371g/,乙工厂测得30个数据, j=346g/l,问它们的收率是否相同? 解:由于两总体方差已知,可采用正态分布进行检验。在空格E3中输入: normsdist(3.71-346)/sqrt(0.46/25+0.37/30)” 回车后,显示数字0.923073。由于这一数字在0.025和0.975之间,因此接受H,认为这两个工厂的收率相同。例3.新旧两个小麦品系进行对比试验,旧品系共收获25个小区,新品系收获20个小区产量(公斤)如下表。问新品系是否值得推广? 旧品系34.638.140.536.239.534.139.538.037.938.439.532.937.2 新品系37.138.939.136.239.840.841.238.740.341.540.337.740.9 旧品系30.838.138.339.334.931.834.535.938.239.733.936.0 新品系38.737.241.938.639.238.240.6 解:首先检验方差是否相等:在空格中输入 ftest(E3: E27, F3: F22)" 回车后,显示数字0.024704。由于这一数字小于0.05,因此拒绝H,认为方差不相等。应采用近似检验。检验均值是否相等:根据题意,应为单侧检验。在另一空格输入: “= ttest(E3:E27,F3:F22,1,3) 回车后,显示数字0.000095。由于这一数字小于0.01,因此拒绝H,认为新品系极显著地优于旧品系,值得推广。例4.(即本书例3.6)10名病人服药前后血红蛋白含量如下: 匚病人号服药前(x)113150|150|13.5|128100110120130123 服药后(y)|140|13814013513.5120147114|138120 问该药是否引起血红蛋白含量变化? 解:根据题意,应采用配对检验。在空格输入 ttest(I3:I12,J3:J12,2,1)” 回车后,显示数字0.223742。由于这一数字大于0.05,因此接受H,认为服药前后血红蛋白含量没有显著变化。三、非参数检验:皮尔逊( Pearson)统计量。 1.统计知识复习: 皮尔逊定理:当P1,P2,……P为总体的真实概率分布时,统计量随n增加而渐近于自由度为r-1的x2分布若令O1=n,T=np,则上式变为:

注意：单尾检验中不管两个均值谁大 Ttest 给出的概率都是相同的。因此在上单尾检验（HA： 1 > 2）中第一个样本均值偏小或下单尾检验（HA：1 < 2）中第一个样本均值偏大都有错误拒绝 H0 的可能，使用时需要特别注意。例 2. (即本书例 3.3) 两发酵法生产青毒素的工厂，其产品收率的方差分别为 0.46, 0.37 2 2 2  1 =  = ，现甲工厂测得 25 个数据， x = 3.71g / l ，乙工厂测得 30 个数据， y = 3.46g / l ，问它们的收率是否相同？解：由于两总体方差已知，可采用正态分布进行检验。在空格 E3 中输入： “= normsdist((3.71 – 3.46) / sqrt(0.46 / 25 + 0.37 / 30))” 回车后，显示数字 0.923073。由于这一数字在 0.025 和 0.975 之间，因此接受 H0，认为这两个工厂的收率相同。例 3. 新旧两个小麦品系进行对比试验，旧品系共收获 25 个小区，新品系收获 20 个小区，产量（公斤）如下表。问新品系是否值得推广？旧品系 34.6 38.1 40.5 36.2 39.5 34.1 39.5 38.0 37.9 38.4 39.5 32.9 37.2 新品系 37.1 38.9 39.1 36.2 39.8 40.8 41.2 38.7 40.3 41.5 40.3 37.7 40.9 旧品系 30.8 38.1 38.3 39.3 34.9 31.8 34.5 35.9 38.2 39.7 33.9 36.0 新品系 38.7 37.2 41.9 38.6 39.2 38.2 40.6 解：首先检验方差是否相等：在空格中输入： “= ftest(E3:E27,F3:F22)” 回车后，显示数字 0.024704。由于这一数字小于 0.05，因此拒绝 H0，认为方差不相等。应采用近似检验。检验均值是否相等：根据题意，应为单侧检验。在另一空格输入： “= ttest(E3:E27,F3:F22,1,3)” 回车后，显示数字 0.000095。由于这一数字小于 0.01，因此拒绝 H0，认为新品系极显著地优于旧品系，值得推广。例 4.(即本书例 3.6) 10 名病人服药前后血红蛋白含量如下：病人号 1 2 3 4 5 6 7 8 9 10 服药前(x) 11.3 15.0 15.0 13.5 12.8 10.0 11.0 12.0 13.0 12.3 服药后(y) 14.0 13.8 14.0 13.5 13.5 12.0 14.7 11.4 13.8 12.0 问该药是否引起血红蛋白含量变化？解：根据题意，应采用配对检验。在空格输入： “= ttest(I3:I12,J3:J12,2,1)” 回车后，显示数字 0.223742。由于这一数字大于 0.05，因此接受 H0，认为服药前后血红蛋白含量没有显著变化。三、非参数检验：皮尔逊（Pearson）统计量。 1. 统计知识复习：皮尔逊定理：当 P1，P2，…… Pr为总体的真实概率分布时，统计量 = − = r i i i i np n np 1 2 2 ( )  随 n 增加而渐近于自由度为 r – 1 的 2 分布。若令 Oi = ni, Ti = npi，则上式变为：

= − = r i i i i T O T 1 2 2 ( )  用途：吻合度检验，列联表独立性检验。限制条件：各 Ti  5。 2. 列联表独立性检验：对列联表进行独立性检验首先应计算理论值。对列联表独立性检验来说，理论值计算公式为：总和 i行总和 j列总和 Tij  = 下面结合例题，介绍计算过程。例 5.(即本书例 3. 22) 下表是对某种药的试验结果：给药方式有效无效口服 58 40 注射 64 31 问给药方式对药效果是否有影响？解：表 2. 例 5 的计算结果有效无效口服 58 40 Chi-test 注射 64 31 0.238468 理论值 61.94819 36.05181 60.05181 34.94819 如上表，原始数据在区域 M3:N4。计算步骤为： 1 首先计算理论值：在空格 M6 输入： “=SUM($M3:$N3)*SUM(M$3:M$4)/SUM($M$3:$N$4)” 回车后，显示数字 61.94819。把 M6 复制到 M7 和 N6、N7,得到各理论值。请注意上式中美元符号的位置，只有位置正确才能保证复制结果正确。 2 进行统计检验：在 P4 单元格输入： “= CHITEST(M3:N4,M6:N7)” 回车后，显示数字 0.238468。把 P4 的值与α相比：当 P4 >α时接受 H0，即列联表的行与列相互独立；否则拒绝 H0，即行与列不独立。由于这一数字大于 0.05，因此接受 H0，认为给药方式与药效无关。此函数的第一个参数为观测值所在区域，第二个参数为理论值所在区域。这两个矩形区域行列数必须相同。返回值为皮尔逊统计量对应的 2 分布的尾区概率，其自由度为 (r–1)(c–1)，其中 r, c 分别为数据区的行数和列数。如果数据区只有一行或一列，则自由度为数据个数减 1。这正是列联表独立性检验所需的自由度。例 6.(即本书例 3. 24) 为检测不同灌溉方式对水稻叶片衰老的影响，收集如下资料：灌溉方式绿叶数黄叶数枯叶数深水浅水湿润 146 183 152 7 9 14 7 13 16 问叶片衰老是否与灌溉方式有关？

解：表 3. 例 6 的计算结果灌溉方式绿叶数黄叶数枯叶数深水 146 7 7 Chi-test 浅水 183 9 13 0.229248 湿润 152 14 16 理论值 140.6947 8.775137 10.53016 180.2651 11.24314 13.49177 160.0402 9.981718 11.97806 如表 3，原始数据在区域 Q3:S5。首先计算理论值：在空格 Q7 输入： “=SUM($Q3:$S3)*SUM(Q$3:Q$5)/SUM($Q$3:$S$5)” 回车后，显示数字 140.6947。把 Q7 复制到区域 Q7:S9,得到各理论值。请注意上式中美元符号的位置，只有位置正确才能保证复制结果正确。在 U4 单元格输入： “=CHITEST(Q3:S5,Q7:S9)” 回车后，显示数字 0.229248。由于这一数字大于 0.05，因此接受 H0，认为叶片衰老与灌溉方式无关。 3. 吻合度检验：对吻合度检验来说，理论值的计算显然与理论分布的类型有关， 2 检验的自由度也可能发生变化。例如对正态分布的吻合度检验，如果总体参数，σ2 已知，则统计量自由度为数据个数减 1；但若总体参数未知，用样本均值 x 与方差 S 2 代替，则统计量自由度也要再减 2。此时直接用 Chitest 得到的尾区概率就不对了，需要再作一下变换（见例 7）。现以正态分布为例介绍吻合度检验计算步骤。例 7.(即本书例 3.19) 调查了某地 200 名男孩身高，得 x =139.5, S = 7.42 ，分组数据见下表。男孩身高是否符合正态分布？组号区间 Oi 1 (-∞, 126) 8 2 [126, 130) 13 3 [130, 134) 17 4 [134, 138) 37 5 [138, 142) 55 6 [142, 146) 33 7 [146, 150) 18 8 [150, 154) 10 9 [154, +∞) 9 解：计算结果如表 4。计算过程为： 1°在 C3 至 C11 中填入身高区间的上界。最后一个应为无穷大，填入足够大的数即可。 2°在 D3 格中输入： “=NORMDIST(C3,139.5,7.42,1)” 这一步是计算正态分布值。第一个参数为区间上限；第二个参数为均值；第三个参数为标准差；第四个参数为 0 时计算密度函数，为 1 时计算分布函数。把 D3 复制到 D4:D11。 3°计算各区间的概率。在 E3 中输入“=D3”，在 E4 中输入“=D4-D3”，并复制 E4 到 E5：E11。 4°计算理论值：在 G3 输入

“=E3*200” 并复制G3到G4至G1 5°计算统计量:在B3输入 (F3-G3)A2/G 把H3复制到H4至H1,并在H2输入: Sum(H3: H11) 另一种计算统计量的方法为:在I3输入: “= Whitest(F3:F11,H3:H11)” 在I6输入 “= Chiinv(I3,8)” 可见I6的数值与H12是相同的 6°计算统计量对应的尾区概率:在I9输入 =chidist(16, 6) 7°将I9与a相比,当19>a时,接受H,所观察数据符合正态分布;当I9≤a时,拒绝H,数据不符合正态分布。在本题中,I9的数值为0.085446>a,因此应接受H,可认为男孩身高符合正态分布。计算结果如下表表4.例7的计算结果组号区间边界正态分布概率观察值理论值(Oi-Ti)2/ Ti Chi-test 1261260.0344250.03442586.8849240.1805970.196303 2[126,130)1300.1002160.0657911313.158230.001903 3[130,134)1340.2292740.1290581725.811633.008134统计量 4[134,138)1380.4198970.1906233738.124670.03317811.09629 5[138,142)1420.6319140.2120175542.403363.742049 6[142,146)1460.8094880.1775743335.514780.17807 7[146,150)1500.921480.1119921822.398320.8636890.085446 8[150,154)1540.974660.053181010.636090.038041 9>15410000010.0253495.0680043.050627 和分位数12.59158 本来 Whitest函数返回的就是尾区概率,但它使用的自由度为数据个数减1,而现在应使用数据个数减3为自由度,因此要使用函数Chinⅴ先把尾区概率变回统计量的值,然后再用 Chidist求出正确自由度下的尾区概率注意使用不同概率模型时,自由度的变化是不同的。一般来说,模型中使用几个统计量代替未知参数,自由度就要在原来的基础上再减少几个。例如上面的例题用了样本期望和方差代替未知参数,因此自由度比正常的 Pearson统计量少2:本书中例3.20,统计模型中没有未知参数,因此自由度没有变化;例3.21有一个参数需用统计量代替,因此自由度需再减四、常用离散分布的统计计算: 离散分布统计计算中关键一点是正确建立尾区。尾区是从观察值开始,向对H成立不利的方向求和。例如水质检验要求大肠杆菌不大于2个毫升,取2毫升检验,发现5个细菌, 问是否判断超标。此时H为:μ≤4,对H成立不利的方向应是细菌数增加,因此尾区概率应为:∑P。其中p为2毫升水样中出现i个细菌的概率

“=E3*200” 并复制 G3 到 G4 至 G11。 5°计算统计量：在 H3 输入： “=(F3-G3)∧2/G3” 把 H3 复制到 H4 至 H11，并在 H12 输入： “=Sum(H3:H11)” 另一种计算统计量的方法为：在 I3 输入： “=Chitest(F3:F11, H3:H11)” 在 I6 输入： “=Chiinv(I3, 8)” 可见 I6 的数值与 H12 是相同的。 6°计算统计量对应的尾区概率：在 I9 输入： “=chidist(I6,6) ↙” 7°将 I9 与α相比，当 I9 > α时，接受 H0，所观察数据符合正态分布；当 I9 ≤ α时，拒绝 H0，数据不符合正态分布。在本题中，I9 的数值为 0.085446 > α，因此应接受 H0，可认为男孩身高符合正态分布。计算结果如下表。表 4. 例 7 的计算结果组号区间边界正态分布概率观察值理论值 (Oi-Ti)2/Ti Chi-test 1 154 100000 1 0.02534 9 5.068004 3.050627 和 11.09629 分位数 12.59158 本来 Chitest 函数返回的就是尾区概率，但它使用的自由度为数据个数减 1，而现在应使用数据个数减 3 为自由度，因此要使用函数 Chiinv 先把尾区概率变回统计量的值，然后再用 Chidist 求出正确自由度下的尾区概率。注意使用不同概率模型时，自由度的变化是不同的。一般来说，模型中使用几个统计量代替未知参数，自由度就要在原来的基础上再减少几个。例如上面的例题用了样本期望和方差代替未知参数，因此自由度比正常的 Pearson 统计量少 2；本书中例 3.20，统计模型中没有未知参数，因此自由度没有变化；例 3.21 有一个参数需用统计量代替，因此自由度需再减一。四、常用离散分布的统计计算：离散分布统计计算中关键一点是正确建立尾区。尾区是从观察值开始，向对 H0 成立不利的方向求和。例如水质检验要求大肠杆菌不大于 2 个/毫升，取 2 毫升检验，发现 5 个细菌，问是否判断超标。此时 H0 为：μ≤4，对 H0 成立不利的方向应是细菌数增加，因此尾区概率应为：   i=5 i p 。其中 pi 为 2 毫升水样中出现 i 个细菌的概率