2006“高统”复习提纲 2005~2006学年第二学期 1、◎自然科学的试验研究根据所要解决的问题大致分为三大类型的研究:(1)比较不 同处理效应的差异性,推断处理效应的优劣,所采用的统计分析方法主要有统计假设测验、 方差分析等:(2)研究变量间的相互关系和变化规律(因素间的关系、性状间的关系、因素 与性状间的关系等),所采用的统计分析方法主要有相关回归(简一元和多元相关回归、线 性和非线性相关回归)分析、通经分析、典型相关分析、主成份分析、因子分析等;(3)研 究样品(样本)或变量的分类,所采用的统计分析方法主要有聚类分析、判别分析等 2、多个变量间数量关系的研究。如果变量间呈平行的变化关系,可采用哪些统计方法 进行分析?如果变量间呈单向影响的关系,即一个或多个变量受另外多个变量的影响,可采 用哪些统计方法进行分析?如果不仅要分析多个自变量对一个依变量影响的绝对程度,还要 分析它们影响的相对重要程度,又可采用哪些统计方法进行分析? 3、简述统计假设测验的基本思想 5、简述方差分析的基本思想。 6、简述逐步回归分析的分析思路、适宜的实验资料和方法步骤 7、在多元线性回归分析中,若R(复相关系数)测验不显著,说明什么问题?若R显 著但R(复决定系数)较小,譬如R<50%,又说明什么问题? 8、多元线性回归分析中,能否直接用各偏回归系数b;比较各自变量影响的相对重要程 度?为什么?如果要利用b比较各自变量影响的相对重要程度,应对b;进行怎样处理才行? 9、逐步回归分析中,当引进或剔除一个变量后,为什么还要对方程中已显著的变量进 行显著性检验? 10、◎分析14个玉米品种的5个自变量x1(穗长)、x2(穗行数)、x3(行粒数)、x4(穗 粒重)、x5(出籽率)与一个依变量y(平均亩产)的多元线性回归关系,原始数据如下 947.023.414.845.30.4685.2 935.023.216.241.70.4083. 918.220.914.843.30.3882.6 905.022.917.039.80.4580.4 890.622.315.744.00.4185.4 853.420.915.941.60.3585.4 837.820.214.437.30.3382.5 833.322.215.238.30.3782.2 760.920.415.540.70.3284.2 760.320.815.144.80.3579.5 742.523.414.743.10.3579.5 936.322.412.737.60.4484.6 801.020.913.839.50.3879.2 分别采用全模型回归分析法和逐步回归分析法的SAS编程方法已经算得结果如下表中, (1)各方差分析表测验结果是什么含义;(2)各参数估计表中各个参数的含义是什么及其 显著性测验的结果又是什么?(3)建立统计上最优多元线性回归方程,并说明各自变量X 对依变量Y影响的绝对程度和方向
2006“高统”复习提纲 2005~2006 学年第二学期 1、◎自然科学的试验研究根据所要解决的问题大致分为三大类型的研究:(1)比较不 同处理效应的差异性,推断处理效应的优劣,所采用的统计分析方法主要有统计假设测验、 方差分析等;(2)研究变量间的相互关系和变化规律(因素间的关系、性状间的关系、因素 与性状间的关系等),所采用的统计分析方法主要有相关回归(简一元和多元相关回归、线 性和非线性相关回归)分析、通经分析、典型相关分析、主成份分析、因子分析等;(3)研 究样品(样本)或变量的分类,所采用的统计分析方法主要有聚类分析、判别分析等。 2、多个变量间数量关系的研究。如果变量间呈平行的变化关系,可采用哪些统计方法 进行分析?如果变量间呈单向影响的关系,即一个或多个变量受另外多个变量的影响,可采 用哪些统计方法进行分析?如果不仅要分析多个自变量对一个依变量影响的绝对程度,还要 分析它们影响的相对重要程度,又可采用哪些统计方法进行分析? 3、简述统计假设测验的基本思想。 5、简述方差分析的基本思想。 6、简述逐步回归分析的分析思路、适宜的实验资料和方法步骤。 7、在多元线性回归分析中,若 R(复相关系数)测验不显著,说明什么问题?若 R 显 著但 R 2(复决定系数)较小,譬如 R 2 <50%,又说明什么问题? 8、多元线性回归分析中,能否直接用各偏回归系数 bi 比较各自变量影响的相对重要程 度?为什么?如果要利用bi比较各自变量影响的相对重要程度,应对bi进行怎样处理才行? 9、逐步回归分析中,当引进或剔除一个变量后,为什么还要对方程中已显著的变量进 行显著性检验? 10、◎分析 14 个玉米品种的 5 个自变量 x1(穗长)、x2(穗行数)、x3(行粒数)、x4(穗 粒重)、x5(出籽率)与一个依变量 y(平均亩产)的多元线性回归关系,原始数据如下: y x1 x2 x3 x4 x5 947.0 23.4 14.8 45.3 0.46 85.2 935.0 23.2 16.2 41.7 0.40 83.3 918.2 20.9 14.8 43.3 0.38 82.6 910.7 23.4 16.1 44.0 0.46 85.2 905.0 22.9 17.0 39.8 0.45 80.4 890.6 22.3 15.7 44.0 0.41 85.4 853.4 20.9 15.9 41.6 0.35 85.4 837.8 20.2 14.4 37.3 0.33 82.5 833.3 22.2 15.2 38.3 0.37 82.2 760.9 20.4 15.5 40.7 0.32 84.2 760.3 20.8 15.1 44.8 0.35 79.5 742.5 23.4 14.7 43.1 0.35 79.5 936.3 22.4 12.7 37.6 0.44 84.6 801.0 20.9 13.8 39.5 0.38 79.2 分别采用全模型回归分析法和逐步回归分析法的 SAS 编程方法已经算得结果如下表中, (1)各方差分析表测验结果是什么含义;(2)各参数估计表中各个参数的含义是什么及其 显著性测验的结果又是什么?(3)建立统计上最优多元线性回归方程,并说明各自变量 Xi 对依变量 Y 影响的绝对程度和方向
Analysis of Variance表1、全模型回归分析方差分析表 Sum of mean Source Squares Square F Value 10260 5.500.0173 Error 14926186579248 Corrected Total 13 66228 Parameter estimates表2、全模型回归分析参数估计及其显著性测验表 Parameter Standard Estimate Error t Value Pr >t Intercept1-19780388511044270.39 7088 3.72001 12.02765 0.31 0.7650 -3.79633 4.90913 04616 112129058038892867 3.12 0.0143 5.49728 1980.0836 Analysis of Variance表3、逐步回归分析方差分析表 ource quare s quare F Value Pr >F 4903524517 15.690.0006 Error 17193 156298478 Corrected Total 13 66228 Parameter Estimates表4、逐步回归分析参数估计及其显著性测验表 Parameter Standard Variable Estimate Error Type II Ss F Value Pr >F Intercept-448.72090389080362078.876731.30.2732 99201624239.64494 2678317.1400016 11.13492 4.933407962.27276 5.090.0453 11、简述通径分析的分析思路、分析目的和方法步骤。 12、对变量x1、x2、x3、x4和y进行通径分析,利用其相关阵为: 1.00.99440.93120.22870.7910 x20.99441.00.96420.32750.7325 0.93120.96421.00.55570.5615 40.22870.32750.55571.0-0.2648 0.79100.73250.5615-0.2648
Analysis of Variance表1、全模型回归分析方差分析表 Sum of Mean Source DF Squares Square F Value Pr > F Model 5 51301 10260 5.50 0.0173 Error 8 14926 1865.79248 Corrected Total 13 66228 Parameter Estimates表2、全模型回归分析参数估计及其显著性测验表 Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 -197.80388 511.04427 -0.39 0.7088 x1 1 -9.70645 15.38756 -0.63 0.5458 x2 1 3.72001 12.02765 0.31 0.7650 x3 1 -3.79633 4.90913 -0.77 0.4616 x4 1 1212.90580 388.92867 3.12 0.0143 x5 1 10.86189 5.49728 1.98 0.0836 Stepwise Selection: Step 2 Analysis of Variance表3、逐步回归分析方差分析表 Sum of Mean Source DF Squares Square F Value Pr > F Model 2 49035 24517 15.69 0.0006 Error 11 17193 1562.98478 Corrected Total 13 66228 Parameter Estimates表4、逐步回归分析参数估计及其显著性测验表 Parameter Standard Variable Estimate Error Type II SS F Value Pr > F Intercept -448.72090 389.08036 2078.87673 1.33 0.2732 x4 992.01624 239.64494 26783 17.14 0.0016 x5 11.13492 4.93340 7962.27276 5.09 0.0453 11、简述通径分析的分析思路、分析目的和方法步骤。 12、对变量x1、 x2、 x3、 x4和 y进行通径分析,利用其相关阵为: x1 x2 x3 x4 y x1 1.0 0.9944 0.9312 0.2287 0.7910 x2 0.9944 1.0 0.9642 0.3275 0.7325 x3 0.9312 0.9642 1.0 0.5557 0.5615 x4 0.2287 0.3275 0.5557 1.0 -0.2648 y 0.7910 0.7325 0.5615 -0.2648 1.0
釆用采用全模型通径分析法SAS编程已算得如下结果(见下面两个分析表), (1)、对两个表进行结果分析 (2)、计算各变量的直接作用和间接作用,并进行分析 (3)、有的自变量对y的综合作用(简单相关系数)是正的,但直接作用却是负的,或 相反,这是为什么? Analysis of Variance全模型通径分析法方差分析表 Sum of Mean Source DF Squares Square F Value Pr >F Model 410.578572.6446443.93tI Intercept 1 0.07083 123.36246 1.87867 4.790.0020 1-27.17561 6.21171-4.37 0.0033 4.60015 1.610942.860.0245 0.73591 0.32809 0.0598 13、通经分析中的误差变异(剩余变异)的决定系数de如何计算?其大小代表什么 含义? 14、◎研究变量X1、X2、X3、X4、和Y的关系。利用它们的相关阵进行SAS编程通径分 析,第一个表是采用全模型分析法的结果,第二个表是采用逐步分析法的结果。 全模型法通径分析结果(各参数估计及其显著性检验 Parameter Estimates Standard 0.07083 6.2l171 0.0033 4.60015 2.860.0245 0.73591 0.32809 逐步回归法通径分析法结果(各参数估计及其显着性检验) Estimate Error t Value Pr>tI 4.95497 3.480.0084 .81 (1)、解释表一结果的含义
采用采用全模型通径分析法SAS编程已算得如下结果 (见下面两个分析表), (1)、对两个表进行结果分析; (2)、计算各变量的直接作用和间接作用,并进行分析; (3)、有的自变量对y的综合作用(简单相关系数)是正的,但直接作用却是负的,或 相反,这是为什么? Analysis of Variance全模型通径分析法方差分析表 Sum of Mean Source DF Squares Square F Value Pr > F Model 4 10.57857 2.64464 43.93 |t| Intercept 1 0 0.07083 0.00 1.0000 x1 1 23.36246 4.87867 4.79 0.0020 x2 1 -27.17561 6.21171 -4.37 0.0033 x3 1 4.60015 1.61094 2.86 0.0245 x4 1 0.73591 0.32809 2.24 0.0598 13、通经分析中的误差变异(剩余变异)的决定系数de如何计算?其大小代表什么 含义? 14、◎研究变量X1、X2、X3、X4、和Y的关系。利用它们的相关阵进行SAS编程通径分 析,第一个表是采用全模型分析法的结果,第二个表是采用逐步分析法的结果。 全模型法通径分析结果(各参数估计及其显著性检验) Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 0 0.07083 0.00 1.0000 x1 1 23.36246 4.87867 4.79 0.0020 x2 1 -27.17561 6.21171 -4.37 0.0033 x3 1 4.60015 1.61094 2.86 0.0245 x4 1 0.73591 0.32809 2.24 0.0598 逐步回归法通径分析法结果(各参数估计及其显著性检验) Parameter Estimates Parameter Standard DF Estimate Error t Value Pr > |t| Intercept 1 0 0.08686 0.00 1.0000 x1 1 17.22957 4.95497 3.48 0.0084 x2 1 -20.93605 6.81106 -3.07 0.0153 x3 1 4.70386 1.97473 2.38 0.0444 (1)、解释表一结果的含义;
(2)、解释表二结果的含义; (3)、比较它们的异同,并解释产生这重现象的原因。你认为应采用那种分析方法的结 果比较好? 15、解释典型相关变量、典型相关系数、典型相关分析的含义。 16、采用SAS编程方法已算得x1、x2、x3、x4、x5与y1、y2、y3的三个典型相 关系数和三对典型变量的特征向量。(1)检验三个典型相关系数的显著性:(2)列出有统 计意义的典型相关系数极其典型变量;(3)分析所列典型变量的含义。 Canonical Correlation 0.9380250.8499500.584942 Canonical Correlation Analysis Raw Canonical Coefficients for the var variables 8.313000223 5.110119594 19.452310979 10.764233208 2.9028754636 11.66526476 1.6002398501 5.2118796919 0.2088424362 27.33549458 Raw Canoni cal coefficients for the With variables 2.4769199697 4.3273031971 605417758 0.7229825853 3.4477739402 -1.569314309 1.876367747 -4.472952912 5567520942 注:n=16,x20(5*3)=30.58.,x205(4*2)=15.51,x20(3*1)=781 17、非线性回归分析有哪些主要方法 18、◎对已知的自变量x和依变量y的资料利用(SAS)编程方法分别进行了一次线性回归 分析、二次多项式回归分析、三次多项式回归分析,结果如下: 次X分析结果 方差分析表 DF Sum of Squares Mean Square F Value Pr >F 5.3506389.080.0002 0.30031 0.06006 erected Total 6 5.65094 Root mse0.24508一次分析标准误差 R-Square0.9469-次决定系数 次分析参数估计表 Variable DF Parameter Estimate Standard Error t Value Pr>tl Intercept 0.20857 0.20713 0.3602 0.21857 0.02316 9,44 0.0002 二次xx分析结果方差分析表 DF Sum of Squares Mean Square F Value Pr >F 5.53170 2.76585 0.11924 0.02981 Corrected Total 6 5.65094 Root mse0.17266二次分析标准误差R- Square0.9789二次决定系数 二次分析参数估计表
(2)、解释表二结果的含义; (3)、比较它们的异同,并解释产生这重现象的原因。你认为应采用那种分析方法的结 果比较好? 15、解释典型相关变量、典型相关系数、典型相关分析的含义。 16、采用SAS编程方法已算得x1、 x2 、x3 、x4、 x5与y1、 y2、 y3 的三个典型相 关系数和三对典型变量的特征向量。(1)检验三个典型相关系数的显著性;(2)列出有统 计意义的典型相关系数极其典型变量;(3)分析所列典型变量的含义。 Canonical Correlation 0.938025 0.849950 0.584942 Canonical Correlation Analysis Raw Canonical Coefficients for the VAR Variables V1 V2 V3 x1 -3.321672249 -8.313000223 15.74488277 x2 -5.110119594 19.452310979 10.764233208 x3 2.9028754636 -11.66526476 1.6002398501 x4 0 0 0 x5 5.2118796919 0.2088424362 -27.33549458 Raw Canonical Coefficients for the WITH Variables W1 W2 W3 y1 2.4769199697 4.3273031971 -2.605417758 y2 0.7229825853 3.4477739402 -1.569314309 y3 -1.876367747 -4.472952912 3.5567520942 注:n=16, (5*3) 30.58, (4* 2) 15.51, (3*1) 7.81 2 0.05 2 0.05 2 x0.01 = x = x = 17、非线性回归分析有哪些主要方法? 18、◎对已知的自变量x和依变量y的资料利用(SAS)编程方法分别进行了一次线性回归 分析、二次多项式回归分析、三次多项式回归分析,结果如下: 一次X分析结果 方差分析表 Source DF Sum of Squares Mean Square F Value Pr > F Model 1 5.35063 5.35063 89.08 0.0002 Error 5 0.30031 0.06006 Corrected Total 6 5.65094 Root MSE 0.24508 一次分析标准误差 R-Square 0.9469一次决定系数 一次分析参数估计表 Variable DF Parameter Estimate Standard Error t Value Pr > |t| Intercept 1 0.20857 0.20713 1.01 0.3602 x1 1 0.21857 0.02316 9.44 0.0002 二次X X2分析结果 方差分析表 Source DF Sum of Squares Mean Square F Value Pr > F Model 2 5.53170 2.76585 92.78 0.0004 Error 4 0.11924 0.02981 Corrected Total 6 5.65094 Root MSE 0.17266二次分析标准误差 R-Square 0.9789二次决定系数 二次分析参数估计表
Variable DF Parameter Estimate standard error t va Intercept 0.26907 1.30 0.40429 0.07710 0.0063 -0.0l161 0.00471 三次xX2x分析结果方差分析表 Source DF Sum of Squares Mean Square F Value Pr >F Model 5.6279 14.950.0004 Error 0.02298 0 Corrected Total 6 5.65094 Root mse0.08751三次分析标准误差R- Square0.9959三次决定系数 三次分析参数估计表 Variable DF Parameter Estimate Standard Error t Value Pr>tI Intercept I 0.25407 4.36 0.0223 0.83706 0.12817 0.0073 0.07494 0.01802 -4.16 0.002640.00074432 0.0382 (1)、解释三个方差分析表结果的含义; (2)、解释三个参数估计表结果的含义 (3)、根据以下比较标准:(1)各项显著性测验均应达显著或极显著。(2)决定 系数 R-Square最大。(3)标准误差 Root mse最小。比较哪次回归分析为好?并建立最 优回归方程 19、◎试述聚类分析的概念、系统聚类方法的基本思想和思路。 20、简述系统聚类最短距离法的主要方法和步骤 21、◎下面为6个样品(1、2、3、4、5、6)3个性状(变量x、x2、x3)的观测数据, 表一的左边是原始数据,右边是标准化离差转换(x=x-x)后的数据,表二是利 用欧氏距离公式计算的初始距离阵 表一原始数据表 标准化离差转换后的数据表 样品 80.5 158-04562 165320.6281 9061287 148 10854 1.1795-0.0830 3743 01 17.2 14170-0.61891.6236 13.7 1.0567 0.4900-0.8652 1058 13.4 0.3485 0.1126 10785 79.6 1139 14.6 0.60330.4900 0.2253 83.53 1033.833149167 S,|6.5139214638714063 表 初始距离阵 类别23456
Variable DF Parameter Estimate Standard Error t Value Pr > |t| Intercept 1 -0.34857 0.26907 -1.30 0.2649 x1 1 0.40429 0.07710 5.24 0.0063 x2 1 -0.01161 0.00471 -2.46 0.0694 三次X X2 X 3分析结果 方差分析表 Source DF Sum of Squares Mean Square F Value Pr > F Model 3 5.62797 1.87599 244.95 0.0004 Error 3 0.02298 0.00766 Corrected Total 6 5.65094 Root MSE 0.08751 三次分析标准误差 R-Square 0.9959 三次决定系数 三次分析参数估计表 Variable DF Parameter Estimate Standard Error t Value Pr > |t| Intercept 1 -1.10857 0.25407 -4.36 0.0223 x1 1 0.83706 0.12817 6.53 0.0073 x2 1 -0.07494 0.01802 -4.16 0.0253 x3 1 0.00264 0.00074432 3.55 0.0382 (1)、解释三个方差分析表结果的含义; (2)、解释三个参数估计表结果的含义; (3)、根据以下比较标准:(1)各项显著性 测验均应达显著或极显著。(2)决定 系数 R-Square 最大。(3)标准误差 Root MSE 最小。比较哪次回归分析为好?并建立最 优回归方程。 19、◎试述聚类分析的概念、系统聚类方法的基本思想和思路。 20、简述系统聚类最短距离法的主要方法和步骤。 21、◎下面为 6 个样品(1、2、3、4、5、6)3 个性状(变量 x1、x2、x3)的观测数据, 表一的左边是原始数据,右边是标准化离差转换( j ij j ij s x x x − = ' )后的数据,表二是利 用欧氏距离公式计算的初始距离阵。 表一 原始数据表 标准化离差转换后的数据表 表二 初始距离阵 D(0) 类别 2 3 4 5 6 样品 x1 X2 x3 x1 ’ x2 ’ x3 ’ 1 80.5 679 15.8 -0.4562 -1.6532 0.6281 2 90.6 1287 14.8 1.0854 1.1795 -0.0830 3 74.3 901 17.2 -1.4170 -0.6189 1.6236 4 90.4 1139 13.7 1.0567 0.4900 -0.8652 5 85.8 1058 13.4 0.3485 0.1126 -1.0785 6 79.6 1139 14.6 -0.6033 0.4900 -0.2253 x 83.53 1033.833 14.9167 j x S 6.5139 214.6387 1.4063
3.3067 1.7224305022587023100 3.6801 2.3044 0.8303 1.7791 1.3328 (1)、利用欧氏距离公式计算初始距离阵中缺少的几个样品间的距离d并填于表中; (2)、利用最短距离法进行系统聚类,并绘制谱系图 (3)、若距离阈值(T为12和1.5时各分为哪几类? AS系统 The ClUster Procedure Single linkage Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 12.312982651.84919279 0.7710 0.7710 0.1546 0.9256 30.22322749 0.0744 1.0000 The data have been standardized to mean o and variance 1 Root-Mean-Square Total-Sample standard Deviation Cluster hist Mi NCL --Clusters Joined--- Dist 5 0B4 20.8286 4 0B2 CL5 0B3 21.7224 1 CL2 CL3 62.3043
1 3.3067 1.7224 3.0502 2.5870 2.3100 2 2.5226 1.0431 1.6347 1.8296 3 3.6801 3.3096 2.3044 4 0.8303 1.7791 5 1.3328 (1)、利用欧氏距离公式计算初始距离阵中缺少的几个样品间的距离 dij 并填于表中; (2)、利用最短距离法进行系统聚类,并绘制谱系图; (3)、若距离阈值(T)为 1.2 和 1.5 时各分为哪几类? SAS 系统 The CLUSTER Procedure Single Linkage Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 2.31298265 1.84919279 0.7710 0.7710 2 0.46378986 0.24056238 0.1546 0.9256 3 0.22322749 0.0744 1.0000 The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation = 1 Cluster History Min NCL --Clusters Joined--- FREQ Dist 5 OB4 OB5 2 0.8286 4 OB2 CL5 3 1.0432 3 CL4 OB6 4 1.3329 2 OB1 OB3 2 1.7224 1 CL2 CL3 6 2.3043
2.5 1.0 0.5 0.0 Name of Observation or Cluster 22、◎解释正交试验设计的含义、主要优点、缺点、适宜条件。 23、比较正交试验设计和裂区设计的异同。 24、下面是一个三因素(A、B、C)随机区组设计(r次重复)的SAS编程的方差分析表 试解释表中各项F测验结果的统计意义,并问区组控制或减少试验误差的效果显著吗? 各因素方差分析表 Source Mean Square F value 57.254444457.2544444444640<0001 592111111 592111111 46.17<0001 a*b 4.41000000 441000000 34.38<0001 0.11166667 005583333 04406525 a c 217087222228543611116661<0001 b*c 022055556 0.11027778 08604370 a*b*c 001166667 000583333 00509556 085166667 042583333 3.3200049
0.0 0.5 1.0 1.5 2.0 2.5 Name of Observation or Cluster OB1 OB3 OB2 OB4 OB5 OB6 22、◎解释正交试验设计的含义、主要优点、缺点、适宜条件。 23、比较正交试验设计和裂区设计的异同。 24、下面是一个三因素(A、B、C)随机区组设计(r次重复)的SAS编程的方差分析表, 试解释表中各项F测验结果的统计意义,并问区组控制或减少试验误差的效果显著吗? 各因素方差分析表 Source DF Type I SS Mean Square F Value Pr > F a 1 57.25444444 57.25444444 446.40 <.0001 b 1 5.92111111 5.92111111 46.17 <.0001 a*b 1 4.41000000 4.41000000 34.38 <.0001 c 2 0.11166667 0.05583333 0.44 0.6525 a*c 2 17.08722222 8.54361111 66.61 <.0001 b*c 2 0.22055556 0.11027778 0.86 0.4370 a*b*c 2 0.01166667 0.00583333 0.05 0.9556 r 2 0.85166667 0.42583333 3.32 0.0049