第一节回归模型 回归分析是研究随机现象中变量之间关系的一种数理统计方法。它的 主要内容是:从一组数据出发,确定这些变量间的关系式,对这些关系式 的可信程度进行统计检验,从影响一个量的许多变量中,判断哪些变量的 影响是显著的,哪些是不显著的,寻找具有较好统计性质的回归设计,利 用所求得的关系式进行预报和控制。 、一元线性回归模型 元回归分析是处理随机变量y和变量x之间关系的一种方法,即通 过分析数据,找出变量x和y间的一种关系。如果两个变量的关系是线性 的,那就是一元线性回归分析所研究问题。 图5-1散点图 那么,怎样建立一元线性回归的数学模型呢? 首先,把观察得到的n对数据(x1,y1),(x2,y2),…,(xm,yn)表示 在平面直角坐标系(图5-1)中,考察这些点的大致分布情况,如果这些 点之间近似存在着线性关系y=a+bx,那么,由最小二乘法可得 b 而 其中 Xi, y 这样回归方程=a+bx也就确定了
第一节 回归模型 回归分析是研究随机现象中变量之间关系的一种数理统计方法。它的 主要内容是:从一组数据出发,确定这些变量间的关系式,对这些关系式 的可信程度进行统计检验,从影响一个量的许多变量中,判断哪些变量的 影响是显著的,哪些是不显著的,寻找具有较好统计性质的回归设计,利 用所求得的关系式进行预报和控制。 一、一元线性回归模型 一元回归分析是处理随机变量 y 和变量 x 之间关系的一种方法,即通 过分析数据,找出变量 x 和 y 间的一种关系。如果两个变量的关系是线性 的,那就是一元线性回归分析所研究问题。 那么,怎样建立一元线性回归的数学模型呢? 首先,把观察得到的 n 对数据(x1,y1),(x2,y2),…,(xn,yn)表示 在平面直角坐标系(图 5-1)中,考察这些点的大致分布情况,如果这些 点之间近似存在着线性关系 y=a+bx,那么,由最小二乘法可得
如果令 Xiy 那么b 通过最小二乘法获得的回归直线=a+6x是否比较客观地符合变 量 x和y之间的规律,即y和x是否显著地存在线性关系呢?这可以用 F检验进行方差分析。具体的方法是:设回归值 与算术半均数y的偏差半方和为B,观祭值y与回归值的偏差平方和 为 (1-)2=1x-bl 作统计量 S/(n-2 如果在给定显著性水平a下,有 P{F≤F。(1,n-2)}=1-a, 于是有1一α的把握确定回归直线的显著性。否则,在给定显著性水 平a下,回归不显著,即变量x和y的线性关系不显著。 多元线性回归模型
量 x 和 y 之间的规律,即 y 和 x 是否显著地存在线性关系呢?这可以用 F 方和 为 S 剩, 则 如果在给定显著性水平α下,有 P{F≤Fα(1,n-2)}=1-α, 于是有 1-α的把握确定回归直线的显著性。否则,在给定显著性水 平α下,回归不显著,即变量 x 和 y 的线性关系不显著。 二、多元线性回归模型
对于一元以上的线性回归,这里先讨论二元线性回归。设随机变量y 和另外两个变量x1和x2近似存在线性关系 y=a+blx1tb2X2 由最小二乘法61,62满足 nb1+12b2=120 而a=一611-b2 其中 kent (x1-x1)2,12 x2 (x1-x1)( (x121)(y1-y) 同样可以讨论二元以上的线性回归。为了书写简便,可以用矩阵的形 式来表示回归系数。设随机变量y与另外p个变量x1,x2,x3,…,xp近 似存在线性关系 y=Bo+B1x+B2x2+…+βpxp, 经过n次试验,得到数据组(y,x,x2,…,xp)(i=1,2,…,n)。 这就有 B0+阝1x1+阝 … y2=即。+B2+B2x2+…+, 阝0+β1xa1+阝2xa+…+阝
对于一元以上的线性回归,这里先讨论二元线性回归。设随机变量 y 和另外两个变量 x1和 x2近似存在线性关系 y=a+b1x1+b2x2, 同样可以讨论二元以上的线性回归。为了书写简便,可以用矩阵的形 式来表示回归系数。设随机变量 y 与另外 p 个变量 x1,x2,x3,…,xp近 似存在线性关系 y=β0+β1x1+β2x2+…+βpxp, 经过 n 次试验,得到数据组(yi,xi1,xi2,…,xip)(i=1,2,…,n)。 这就有
11x12… 如果令x=:.x2m2“2 &nI 2n2 上述方程组就可以写成Y=Xβ。经过矩阵的运算,并运用最小二乘 法 若|xx|≠0,可得阝=(xx)-1xry,其中x为x的转置矩阵, (XxX)-<>是Ⅹ的逆矩阵。 二元线性回归也可以用矩阵的形式来表示。设 y=Bo+β+B2X2, z11x1 y 于是 n XilI ∑x
上述方程组就可以写成 Y=Xβ。经过矩阵的运算,并运用最小二乘 法, (XTX)-1 <>是 XTX 的逆矩阵。 二元线性回归也可以用矩阵的形式来表示。设 y=β0+β1x1+β2x2, 于是
这就可以求出=(xx)-1xrY 在数据处理过程中,两个或两个以上变量之间的回归关系,并非总是 线性的。这时,选择恰当类型的曲线比直线更符合实际情况。但在许多情 况下,非线性回归可以通过某些简单的变量变换,转化为线性回归。例如, 假设变量y和ⅹ之间有关系式y=Boe",只要两边取对数,并令y′=hy, o=Inβ0,就可以将上述非线性回归问题转化为线性回归问题。 三、回归模型在教学评估中的应用举例 1.同一学科成绩的一元线性回归分析 从一组学生某学科的平时成绩与期中考试成绩或两次不同考试的成 绩,分析这组学生学习该学科的水平状况,便是一元线性回归模型在教学 评估中的一个应用 例如,从某班随机抽取15名学生两个学期的数学期末考试成绩如表 5-1(x、y分别表示第一学期、第二学期的期末成绩),下面用一元线性回 归进行分析。 表5-115名学生数学期末考试成装 学生编号12345678910112131415总和 60877481936894 72688966121150 786?7214651104 (x1-2)(y1-y) 由于 =072 (x1-2)2∑(1-)2 所以,这组学生的成绩相关。根据一元线性回归计算方法,得 x1=1150,∑y1=1104 x2=89954,∑y1=82620, x=85757,1x=17873
在数据处理过程中,两个或两个以上变量之间的回归关系,并非总是 线性的。这时,选择恰当类型的曲线比直线更符合实际情况。但在许多情 况下,非线性回归可以通过某些简单的变量变换,转化为线性回归。例如, 假设变量 y 和 x 之间有关系式 y=β0 eβx,只要两边取对数,并令 y′=lny, β′0=lnβ0,就可以将上述非线性回归问题转化为线性回归问题。 三、回归模型在教学评估中的应用举例 1.同一学科成绩的一元线性回归分析 从一组学生某学科的平时成绩与期中考试成绩或两次不同考试的成 绩,分析这组学生学习该学科的水平状况,便是一元线性回归模型在教学 评估中的一个应用。 例如,从某班随机抽取 15 名学生两个学期的数学期末考试成绩如表 5-1(x、y 分别表示第一学期、第二学期的期末成绩),下面用一元线性回 归进行分析。 所以,这组学生的成绩相关。根据一元线性回归计算方法,得
lxy=1117,ly=1365.6, b=,20.62,a=y-b=26,1 所以,线性回归方程是=261+0.62x。 下面用F检验进行方差分析,检验回归的显著性。 S=b1y=69254,S=1y-b1x=67306, ∴F =13.38 颤/(N-2) 查表得Fo0(1,13)=9.07,可见F>F001(1,13),于是我们有99% 的把握认为回归是显著的,即x和y之间存在线性关系。 如果把第二次考试成绩作为基础,根据上面得到的一元线性回归方程 预测第三次考试学生的成绩,可以把第三次考试的成绩填入表5-2(X表 示预测成绩,y表示实际的考试成绩) 表5-2第三次考试成绩 学生12 789101112131415总和 x65%6637687616363756817266 同样,用第三次考试成绩作为基础,又可以预测第四次考试成绩,依 此类推。当然,每一次的预测都应该与实际分数进行比较,判断预测的准 确性,并加以修正 在不需要较为精确地对学生学习水平作出预测的情况下,为避免较大 的计算量,也可以采用比较简单的“平均数”法,粗略地对学生的学习状 况作出回归分析。具体地可以按下面步骤完成。 第一步,分组。把n个测验数据点(X,y)(=1,2,…,n)分成大致 均匀的两组。若n为偶数,则平分成两组;若n为奇数,可
lxy=1117,lyy=1365.6, 下面用 F 检验进行方差分析,检验回归的显著性。 查表得 F0.01(1,13)=9.07,可见 F>F0.01(1,13),于是我们有 99% 的把握认为回归是显著的,即 x 和 y 之间存在线性关系。 如果把第二次考试成绩作为基础,根据上面得到的一元线性回归方程 预测第三次考试学生的成绩,可以把第三次考试的成绩填入表 5-2(x 表 示预测成绩,y 表示实际的考试成绩)。 同样,用第三次考试成绩作为基础,又可以预测第四次考试成绩,依 此类推。当然,每一次的预测都应该与实际分数进行比较,判断预测的准 确性,并加以修正。 在不需要较为精确地对学生学习水平作出预测的情况下,为避免较大 的计算量,也可以采用比较简单的“平均数”法,粗略地对学生的学习状 况作出回归分析。具体地可以按下面步骤完成。 第一步,分组。把 n 个测验数据点(xi,yi)(i=1,2,…,n)分成大致 均匀的两组。若 n 为偶数,则平分成两组;若 n 为奇数,可
按前2个数据点分为一组,剩下的为另一组 第二步,求平均数。分别求出这两组数据的各个平均数,并组成新 的点P(x1,51),Q(x2,52)。 第三步,求过P、Q两点的直线 y1 (一)+519 可以认为,这条直线是过这n个点的一元线性回归直线。 对上面提到的15名学生的数学成绩,按照前8名为一组,后7名为 另一组,分成两组,然后用表5-3(x、y分别表示第一学期、第二学期期 末成绩)的数据计算。 表5-315名学生的分组成绩 分组 学生编号 23456789101112131415 x6087148197736948465n268896672 63816079 由于18x1793,518分765 22 73.7,y2 y 因此,得到P(793,765),Q(73.7,70.1),而通过P,Q的直 线 是 70.1-765 737-793 (x-793)+76.5, y=1.14x-14.1 这样,我们也可以用这条回归直线来预测这15名学生的学习成绩
第二步,求平均数。分别求出这两组数据的各个平均数,并组成新 第三步,求过 P、Q 两点的直线 可以认为,这条直线是过这 n 个点的一元线性回归直线。 对上面提到的 15 名学生的数学成绩,按照前 8 名为一组,后 7 名为 另一组,分成两组,然后用表 5-3(x、y 分别表示第一学期、第二学期期 末成绩)的数据计算。 因此,得到 P(79.3, 76.5), Q(73.7, 70.1),而通过 P,Q 的直 线 这样,我们也可以用这条回归直线来预测这 15 名学生的学习成绩
2.同一学科成绩的二元线性回归分析 利用二元线性回归,可以从一组学生某学科更多的测验数据(如平时 成绩,考试成绩)中,预测这组学生该学科的成绩。现在对上述15名学生 三个学期数学期末成绩(在表5-4中,X1、x和y分别表示高一第一学期 第二学期和高二第一学期期末成绩)进行二元线性回归分析. 表5-415名学生三个学期期末成绩 学生123456789101112131415总和z 编号 x16877481977368948465126886672|1150 26381609983736601861274651104 5783758599676476665365706484 由二元线性回归计算方法,得到 1n=2(x1-1)2=17873,12=∑(x-2)2=13632, 121=∑(z1-g1)(x21-z2) 10=∑(x1-2)(y1-刃)=1168, (x21-22)(y1-5)=1155.18 n 73.6, 1之y=721 冉由 178735b1+1089.06b2=118168 1089061+13632b2=1155.18 解得 b1=0.282,b2=0622。 a=y-bz1-b2z2=4691
2.同一学科成绩的二元线性回归分析 利用二元线性回归,可以从一组学生某学科更多的测验数据(如平时 成绩,考试成绩)中,预测这组学生该学科的成绩。现在对上述 15 名学生 三个学期数学期末成绩(在表 5-4 中,x1、x2和 y 分别表示高一第一学期、 第二学期和高二第一学期期末成绩)进行二元线性回归分析. 由二元线性回归计算方法,得到: 解得 b1=0.282,b2=0.622
由此可得这组学生的二元线性回归方程是 y=4691+0.282x1+0.622x2 虽然通过上面回归方法得到了二元线性回归方程,但两个因素x1和 对y的回归并不一定是显著的。这里存在着以下几种情况:因素x1对y 回归显著,而因素X对y回归不显著:;因素x1对y回归不显著,而因素 X对y回归显著;因素x和x2对y回归都显著;因素x和x对y回归都 不显著 下面通过表5-5,对前面的二元线性回归方程进行检验 表5-5方差分析数据 来源平方和自由度均方和F比 回归S回=1065 54828638 剩余S剩=1032 总计S总=2128514 由于F05(2,12)=389<F,所以得到的回归直线 5=4691+0.282x1+0.622x2° 是显著的。 既然上面回归是显著的,那么,我们可以根据这15名学生的两个学 期期末成绩,预测第三个学期的期末成绩,然后,照样可以把第三个学期 的成绩作为一个因素(如因素x),去预测第四个学期的期末成绩。不过, 每一次预测值与实际值都应进行检验,并且加以修正。 如果用F检验法检验回归不显著,那么就应该对每个因素进行单独 方差分析,剔除回归不显著的因素。一般来说,凡是偏回归平方和(所谓 偏回归平方和,是指总的回归平方和,减去剔除某因素后所得的回归平方 和的值)大的变量一定是显著的;凡是偏回归平方和小的变量,却并不 定不显著。 3.同一学科成绩的中位数稳健性回归分析 用最小二乘法求回归直线,对所有的测验数据都是一视同仁的,显然 个别远离数据群体的“离群值”影响了回归的显著性(拟合度)。若用“中 位数”的方法,可以求出一种较为稳健的回归,其步骤是:
由此可得这组学生的二元线性回归方程是 虽然通过上面回归方法得到了二元线性回归方程,但两个因素 x1和 x2对 y 的回归并不一定是显著的。这里存在着以下几种情况:因素 x1对 y 回归显著,而因素 x2对 y 回归不显著;因素 x1对 y 回归不显著,而因素 x2对 y 回归显著;因素 x1和 x2对 y 回归都显著;因素 x1和 x2对 y 回归都 不显著。 下面通过表 5-5,对前面的二元线性回归方程进行检验。 由于 F0.05(2,12)=3.89<F,所以得到的回归直线 是显著的。 既然上面回归是显著的,那么,我们可以根据这 15 名学生的两个学 期期末成绩,预测第三个学期的期末成绩,然后,照样可以把第三个学期 的成绩作为一个因素(如因素 x2),去预测第四个学期的期末成绩。不过, 每一次预测值与实际值都应进行检验,并且加以修正。 如果用 F 检验法检验回归不显著,那么就应该对每个因素进行单独 方差分析,剔除回归不显著的因素。一般来说,凡是偏回归平方和(所谓 偏回归平方和,是指总的回归平方和,减去剔除某因素后所得的回归平方 和的值)大的变量一定是显著的;凡是偏回归平方和小的变量,却并不一 定不显著。 3.同一学科成绩的中位数稳健性回归分析 用最小二乘法求回归直线,对所有的测验数据都是一视同仁的,显然 个别远离数据群体的“离群值”影响了回归的显著性(拟合度)。若用“中 位数”的方法,可以求出一种较为稳健的回归,其步骤是:
第一步,分组。将各数据点按某一变量(例如x)值从小到大的顺序重 新排列,得(≤X2≤…≤xm:另一变量y值随之相应地排列。然后将n 个点大致均匀地分成左(L),中M,右(R)三组,并使左右两组点数尽可 能相等,如遇有相同的ⅹ值,则应该将相应的点划归为同一组,不可分割 开 第二步,求中位数、综合点。在按第一步分出的左、中、右三组中各 求出x值和y值的中位数,分别得到三个组的综合点:L(X,y),MXM, y),R(XR,ya)。这些“综合点”不一定是原始数据点。 第三步,用“中位数”的综合点求回归直线。由综合点先求出斜率的 初始值 再取分别过这三个综合点,且以b为斜率的三条直线的截距的平均数为 截距,即 362x1)+(y-b)+(yn-b浑) 于是得到了初始回归线:y①=a1+b2z 第四步,求残差及其中位数,迭代。求出各点(,y)(=1,2, )与初始回归直线的初始残差 a1+b1z1)(1=1, 并在相应的三组中,求出残差的中位数r2),m3,r)。以r代替y1 得新数据点(x1,r)(i=1,2,…,n),对新数据点重复以上第 二步、第三步中的计算,得新的拟合方程 +8 其中 [r+r)+r)-8
第一步,分组。将各数据点按某一变量(例如 x)值从小到大的顺序重 新排列,得 x(1)≤x(2)≤…≤x(n);另一变量 y 值随之相应地排列。然后将 n 个点大致均匀地分成左(L),中(M),右(R)三组,并使左右两组点数尽可 能相等,如遇有相同的 x 值,则应该将相应的点划归为同一组,不可分割 开。 第二步,求中位数、综合点。在按第一步分出的左、中、右三组中各 求出 x 值和 y 值的中位数,分别得到三个组的综合点:L(xL,yL),M(xM, yM),R(xR,yR)。这些“综合点”不一定是原始数据点。 第三步,用“中位数”的综合点求回归直线。由综合点先求出斜率的 初始值 再取分别过这三个综合点,且以 b1为斜率的三条直线的截距的平均数为 截距,即 第四步,求残差及其中位数,迭代。求出各点(xi,yi)(i=1,2,…, n)与初始回归直线的初始残差: