第7章相关与回归分析 【学习目标】 本章主要介绍了相关分析和回归分析的基本理论。包括确定 相关关系的判别方法以及配合回归直线及曲线的条件,掌握建立回归 方程和相关回归分析需要注意的问题,达到学会预测的目的等 【基本要求】 通过本章的学习,使学习者理解相关分析和回归分析的概念,明 确相关关系的判别方法:定性判断和定量判断;掌握配合回归直线方 程的条件建立回归方程的方法,学会预测,为经济管理服务等。 【学习内容】 相关与回归( Correlation and Regression)是现代统计学中非常重 要的内容,相关与回归分析是处理变量数据之间相关关系的一种统计 方法。通过相关分析,可以判断两个或两个以上的变量之间是否存在 相关关系、相关关系的方向、形态及相关关系的密切程度;回归分析 是对具有相关关系现象间数量变化的规律性进行测定,确立一个回归 方程式,即经验公式,并对所建立的回归方程式的有效性进行分析 判断,以便进一步进行估计和预测。现在,相关与回归分析己经广泛 应用到企业管理、商业决策、金融分析以及自然科学和社会科学等许 多研究领域。 7.1相关分析 7.1.1.相关分析的概念、种类 1.相关分析的概念 现实世界中的各种现象之间相互联系、相互制约、相互依存,某 些现象发生变化时,另一现象也随之发生变化。如商品价格的变化会
第 7 章 相关与回归分析 【学习目标】 本章主要介绍了相关分析和回归分析的基本理论。包括确定 相关关系的判别方法以及配合回归直线及曲线的条件,掌握建立回归 方程和相关回归分析需要注意的问题,达到学会预测的目的等。 【基本要求】 通过本章的学习,使学习者理解相关分析和回归分析的概念,明 确相关关系的判别方法:定性判断和定量判断;掌握配合回归直线方 程的条件建立回归方程的方法,学会预测,为经济管理服务等。 【学习内容】 相关与回归(Correlation and Regression)是现代统计学中非常重 要的内容,相关与回归分析是处理变量数据之间相关关系的一种统计 方法。通过相关分析,可以判断两个或两个以上的变量之间是否存在 相关关系、相关关系的方向、形态及相关关系的密切程度;回归分析 是对具有相关关系现象间数量变化的规律性进行测定,确立一个回归 方程式,即经验公式,并对所建立的回归方程式的有效性进行分析、 判断,以便进一步进行估计和预测。现在,相关与回归分析已经广泛 应用到企业管理、商业决策、金融分析以及自然科学和社会科学等许 多研究领域。 7.1 相关分析 7.1.1. 相关分析的概念、种类 1. 相关分析的概念 现实世界中的各种现象之间相互联系、相互制约、相互依存,某 些现象发生变化时,另一现象也随之发生变化。如商品价格的变化会
刺激或抑制商品销售量的变化;劳动力素质的高低会影响企业的效益; 直接材料、直接人工的价格变化对产品销售成本有直接的影响,居民 收入的高低会影响对该企业产品的需求量等等。研究这些现象之间的 依存关系,找出它们之间的变化规律,是对经搜集、整理过的统计数 据进行数据分析,为客观、科学地统计提供依据。 现象间的依存关系大致可以分成两种类型:一类是函数关系,另 类是相关关系 (1).函数关系。函数是指现象之间是一种严格的确定性的依存关 系。表现为某一现象发生变化另一现象也随之发生变化,而且有确定 的值与之相对应。例如,银行的1年期存款利率为年息1.98%,存 入的本金用x表示,到期本息用y表示,则=x+1.98%x(不考虑利息 税);再如,某种股票的成交额Y与该股票的成交量X、成交价格P之 间的关系可以用Y=PX来表示,这都是函数关系。 (2).相关关系。相关关系是指客观现象之间确实存在的,但数量 上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数 值,可以有另一现象的若干数值与之相对应。例如成本的高低与利润 的多少有密切关系,但某一确定的成本与相对应的利润却是不确定的 这是因为影响利润的因素除了成本外,还有价格、供求平衡、消费嗜 好等因素以及其他偶然因素的影响;再如,生育率与人均GDP的关系 也属于典型的相关关系:人均GDP高的国家,生育率往往较低,但二 者没有惟一确定的关系,这是因为除了经济因素外,生育水平还受教 育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素 的共同影响。 具有相关关系的某些现象可表现为因果关系,即某一或若干现象 的变化是引起另一现象变化的原因,它是可以控制、给定的值,将其 称为自变量:另一个现象的变化是自变量变化的结果,它是不确定的 值,将其称为因变量。如资金投入与产值之间,前者为自变量,后者 为因变量。但具有相关关系的现象并不都表现为因果关系,如生产费 用和生产量、商品的供求与价格等。这是由于相关关系比因果关系包 括的范围更广泛。 相关关系和函数关系既有区别,又有联系。有些函数关系往往因 为有观察或测量误差以及各种随机因素的干扰等原因,在实际中常常 通过相关关系表现出来:而在研究相关关系时,其数量间的规律性了 解得越深刻的时候,则相关关系越有可能转化为函数关系或借助函数 关系来表现 2.相关关系类型
刺激或抑制商品销售量的变化;劳动力素质的高低会影响企业的效益; 直接材料、直接人工的价格变化对产品销售成本有直接的影响,居民 收入的高低会影响对该企业产品的需求量等等。研究这些现象之间的 依存关系,找出它们之间的变化规律,是对经搜集、整理过的统计数 据进行数据分析,为客观、科学地统计提供依据。 现象间的依存关系大致可以分成两种类型: 一类是函数关系,另 一类是相关关系。 (1).函数关系。函数是指现象之间是一种严格的确定性的依存关 系。表现为某一现象发生变化另一现象也随之发生变化,而且有确定 的值与之相对应。例如,银行的 1 年期存款利率为年息 1.98%,存 入的本金用 x 表示,到期本息用 y 表示,则 y=x+1.98%x(不考虑利息 税);再如,某种股票的成交额 Y 与该股票的成交量 X、成交价格 P 之 间的关系可以用 Y=PX 来表示,这都是函数关系。 (2).相关关系。相关关系是指客观现象之间确实存在的,但数量 上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数 值,可以有另一现象的若干数值与之相对应。例如成本的高低与利润 的多少有密切关系,但某一确定的成本与相对应的利润却是不确定的。 这是因为影响利润的因素除了成本外,还有价格、供求平衡、消费嗜 好等因素以及其他偶然因素的影响;再如,生育率与人均 GDP 的关系 也属于典型的相关关系:人均 GDP 高的国家,生育率往往较低,但二 者没有惟一确定的关系,这是因为除了经济因素外,生育水平还受教 育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素 的共同影响。 具有相关关系的某些现象可表现为因果关系,即某一或若干现象 的变化是引起另一现象变化的原因,它是可以控制、给定的值,将其 称为自变量;另一个现象的变化是自变量变化的结果,它是不确定的 值,将其称为因变量。如资金投入与产值之间,前者为自变量,后者 为因变量。但具有相关关系的现象并不都表现为因果关系,如生产费 用和生产量、商品的供求与价格等。这是由于相关关系比因果关系包 括的范围更广泛。 相关关系和函数关系既有区别,又有联系。有些函数关系往往因 为有观察或测量误差以及各种随机因素的干扰等原因,在实际中常常 通过相关关系表现出来;而在研究相关关系时,其数量间的规律性了 解得越深刻的时候,则相关关系越有可能转化为函数关系或借助函数 关系来表现。 2. 相关关系类型
现象之间的相关关系从不同的角度可以区分为不同类型。 (1)按照相关关系涉及变量(或因素)的多少分为 单相关——又称一元相关,是指两个变量之间的相关关系,如广 告费支出与产品销售量之间的相关关系 复相关—一又称多元相关,是指三个或三个以上变量之间的相关 关系,如商品销售额与居民收入、商品价格之间的相关关系 偏相关一一在一个变量与两个或两个以上的变量相关的条件下, 当假定其他变量不变时,其中两个变量的相关关系称为。例如,在假 定商品价格不变的条件下,该商品的需求量与消费者收入水平的相关 关系即为偏相关 (2).按照相关形式不同分为 线性相关—一又称直线相关,是指当一个变量变动时,另一变量 随之发生大致均等的变动,从图形上看,其观察点的分布近似地表现 为一条直线;例如,人均消费水平与人均收入水平通常呈线性关系 非线性相关 个变量变动时,另一变量也随之发生变动,但 这种变动不是均等的,从图形上看,其观察点的分布近似地表现为一 条曲线,如抛物线、指数曲线等,因此也称曲线相关。例如,工人加 班加点在一定数量界限内,产量增加,但一旦超过一定限度,产量反 而可能下降,这就是一种非线性关系。 (3).按照相关现象变化的方向不同分为 正相关——当一个变量的值增加或减少,另一个变量的值也随之 增加或减少。如工人劳动生产率提高,产品产量也随之增加:居民的 消费水平随个人所支配收入的增加而增加。 负相关—一当一个变量的值增加或减少时,另一变量的值反而减 少或增加。如商品流转额越大,商品流通费用越低;利润随单位成本 的降低而增加 4).按相关程度分为 完全相关——当一个变量的数量完全由另一个变量的数量变化所 确定时,二者之间即为完全相关。例如,在价格不变的条件下,销售 额与销售量之间的正比例函数关系即为完全相关,此时相关关系便成 为函数关系,因此也可以说函数关系是相关关系的一个特例 不完全相关一一又称零相关,当变量之间彼此互不影响,其数量 变化各自独立时,则变量之间为不相关。例如,股票价格的高低与气 温的高低一般情况下是不相关的 不相关一一如果两个变量的关系介于完全相关和不相关之间,称 为不完全相关。由于完全相关和不相关的数量关系是确定的或相互独
现象之间的相关关系从不同的角度可以区分为不同类型。 (1). 按照相关关系涉及变量(或因素)的多少分为 单相关——又称一元相关,是指两个变量之间的相关关系,如广 告费支出与产品销售量之间的相关关系; 复相关——又称多元相关,是指三个或三个以上变量之间的相关 关系,如商品销售额与居民收入、商品价格之间的相关关系。 偏相关——在一个变量与两个或两个以上的变量相关的条件下, 当假定其他变量不变时,其中两个变量的相关关系称为。例如,在假 定商品价格不变的条件下,该商品的需求量与消费者收入水平的相关 关系即为偏相关。 (2). 按照相关形式不同分为 线性相关——又称直线相关,是指当一个变量变动时,另一变量 随之发生大致均等的变动,从图形上看,其观察点的分布近似地表现 为一条直线;例如,人均消费水平与人均收入水平通常呈线性关系。 非线性相关——一个变量变动时,另一变量也随之发生变动,但 这种变动不是均等的,从图形上看,其观察点的分布近似地表现为一 条曲线,如抛物线、指数曲线等,因此也称曲线相关。例如,工人加 班加点在一定数量界限内,产量增加,但一旦超过一定限度,产量反 而可能下降,这就是一种非线性关系。 (3). 按照相关现象变化的方向不同分为 正相关——当一个变量的值增加或减少,另一个变量的值也随之 增加或减少。如工人劳动生产率提高,产品产量也随之增加;居民的 消费水平随个人所支配收入的增加而增加。 负相关——当一个变量的值增加或减少时,另一变量的值反而减 少或增加。如商品流转额越大,商品流通费用越低;利润随单位成本 的降低而增加。 (4). 按相关程度分为 完全相关——当一个变量的数量完全由另一个变量的数量变化所 确定时,二者之间即为完全相关。例如,在价格不变的条件下,销售 额与销售量之间的正比例函数关系即为完全相关,此时相关关系便成 为函数关系,因此也可以说函数关系是相关关系的一个特例。 不完全相关——又称零相关,当变量之间彼此互不影响,其数量 变化各自独立时,则变量之间为不相关。例如,股票价格的高低与气 温的高低一般情况下是不相关的。 不相关——如果两个变量的关系介于完全相关和不相关之间,称 为不完全相关。由于完全相关和不相关的数量关系是确定的或相互独
立的,因此统计学中相关分析的主要研究对象是不完全相关 7.12.相关关系的测定 要判别现象之间有无相关关系,一是定性分析,二是定量分析。 1.定性分析 定性分析是依据研究者的理论知识、专业知识和实践经验,对客 观现象之间是否存在相关关系,以及有何种相关关系做出判断。并可 在定性认识的基础上,编制相关表、绘制相关图,以便直观地判断现 象之间相关的方向、形态及大致的密切程度 (1).相关表 相关表是一种统计表。它是直接根据现象之间的原始资料,将 变量的若干变量值按从小到大的顺序排列,并将另一变量的值与之对 应排列形成的统计表 例7-1某财务软件公司在全国有许多代理商,为研究它的财务 软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商 进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相 关表,见表7-1。 表7-1广告费与月平均销售额相关表单位:万元 年广告费投入 月均销售额 21.2 33.5 52.8 55.4 从表中可以直观地看出,随着广告投入的增加,销售量增加,两 者之间存在一定的正相关关系。 (2).相关图
立的,因此统计学中相关分析的主要研究对象是不完全相关。 7.1.2. 相关关系的测定 要判别现象之间有无相关关系,一是定性分析,二是定量分析。 1. 定性分析 定性分析是依据研究者的理论知识、专业知识和实践经验,对客 观现象之间是否存在相关关系,以及有何种相关关系做出判断。并可 在定性认识的基础上,编制相关表、绘制相关图,以便直观地判断现 象之间相关的方向、形态及大致的密切程度。 (1).相关表 相关表是一种统计表。它是直接根据现象之间的原始资料,将一 变量的若干变量值按从小到大的顺序排列,并将另一变量的值与之对 应排列形成的统计表。 例 7–1 某财务软件公司在全国有许多代理商,为研究它的财务 软件产品的广告投入与销售额的关系,统计人员随机选择 10 家代理商 进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相 关表,见表 7–1。 表 7–1 广告费与月平均销售额相关表 单位:万元 年广告费投入 月均销售额 12.5 15.3 23.2 26.4 33.5 34.4 39.4 45.2 55.4 60.9 21.2 23.9 32.9 34.1 42.5 43.2 49.0 52.8 59.4 63.5 从表中可以直观地看出,随着广告投入的增加,销售量增加,两 者之间存在一定的正相关关系。 (2).相关图
相关图又称散点图,它是用直角坐标系的x轴代表自变量,y轴代 表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来, 用以表明相关点分布状况的图形。根据表7-1的资料可以绘制相关图 (万元)70 据50 40 000 年广告费投入 如图7-1 图7-1广告投入与销售额的相关图 从相关图可以直观地看出,年广告费投入与月平均销售额之间相 关密切,且有线性正相关关系 2.定量分析—相关系数 相关表和相关图可反映两个变量之间的相互关系及其相关方向 但无法确切地表明两个变量之间相关的程度。著名统计学家卡尔·皮 尔逊设计了统计指标一相关系数。相关系数是用以反映变量之间相 关关系密切程度的统计指标。依据相关现象之间的不同特征,其统计 指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称 为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相 关关系的统计指标称为非线性相关系数、非线性判定系数:将反映多 元线性相关关系的统计指标称为复相关系数、复判定系数等。这里只 介绍相关系数。 相关系数用r表示,它的基本公式为: s n2y-xx2y (7-1) ynzx2-(2x)2yn2y2-(Ey)2 相关系数的值介于-1与+1之间,即-1≤r≤+1。其性质如下 (1),.当p0时,表示两变量正相关,r<0时,两变量为负相关。 (2),当1时,表示两变量为完全线性相关,即为函数关系。 (3).当r=0时,表示两变量间无线性相关关系
相关图又称散点图,它是用直角坐标系的 x 轴代表自变量,y 轴代 表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来, 用以表明相关点分布状况的图形。根据表 7–1 的资料可以绘制相关图 如图 7–1。 图 7–1 广告投入与销售额的相关图 从相关图可以直观地看出,年广告费投入与月平均销售额之间相 关密切,且有线性正相关关系。 2. 定量分析–––相关系数 相关表和相关图可反映两个变量之间的相互关系及其相关方向, 但无法确切地表明两个变量之间相关的程度。著名统计学家卡尔·皮 尔逊设计了统计指标 ––– 相关系数。相关系数是用以反映变量之间相 关关系密切程度的统计指标。依据相关现象之间的不同特征,其统计 指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称 为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相 关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多 元线性相关关系的统计指标称为复相关系数、复判定系数等。这里只 介绍相关系数。 相关系数用 r 表示,它的基本公式为: 2 2 2 2 n x ( x) n y ( y) n xy x y r − − − = (7–1) 相关系数的值介于–1 与+1 之间,即–1≤r≤+1。其性质如下: (1).当 r>0 时,表示两变量正相关,r<0 时,两变量为负相关。 (2).当|r|=1 时,表示两变量为完全线性相关,即为函数关系。 (3).当 r=0 时,表示两变量间无线性相关关系。 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 0 2 0 4 0 6 0 8 0 年广告费投入 月均销售额 (万元) (万元)
(4),.当0<<1时,表示两变量存在一定程度的线性相关。且越 接近1,两变量间线性关系越密切;|越接近于0,表示两变量的线性 相关越弱。 (5).一般可按三级划分:|0.4为低度线性相关;04≤<0.7为 显著性相关;0.7≤<1为高度线性相关。 根据表7-1的资料,可计算相关系数如表7-2 表7-2 相关系数计算表 序号告投入(万元)月均销售额(万元)x2 12.5 156.254494426500 15.3 23.9 23409571.2136567 23.2 538.24108241763.28 69696116281900.24 1122251806.251423.75 43.2 1183.361866.241486.08 1552.362401.001930.60 45.2 2043.042787.842386.56 55.4 3069.163528363290.76 63.5 3708.814032.253867.15 346.2 422.5 14304.5219687.8116679.09 10×1667909-3462×422.5 √0×1430452-3462√10×1968781-4252 =0.9942 相关系数为09942,说明广告投入费与月平均销售额之间有高度 的线性正相关关系 这里需要指出的是,相关系数有一个明显的缺点,即它接近于1 的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时, 相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n 较大时,相关系数的绝对值容易偏小。特别是当n2时,相关系数的 绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判 定变量x与y之间有密切的线性关系是不妥当的。例如,笔者曾就我国 深沪两股市资产负债率与每股收益之间的相关关系做过硏究。发现 1999年资产负债率前40名的上市公司,二者的相关系数为r=-0.6139
(4).当 0<|r|<1 时,表示两变量存在一定程度的线性相关。且|r|越 接近 1,两变量间线性关系越密切;|r|越接近于 0,表示两变量的线性 相关越弱。 (5).一般可按三级划分:|r|<0.4 为低度线性相关;0.4≤|r|<0.7 为 显著性相关;0.7≤|r|<1 为高度线性相关。 根据表 7–1 的资料,可计算相关系数如表 7–2: 表 7–2 相关系数计算表 序号 广告投入(万元) x 月均销售额(万元) y x 2 y 2 xy 1 2 3 4 5 6 7 8 9 10 12.5 15.3 23.2 26.4 33.5 34.4 39.4 45.2 55.4 60.9 21.2 23.9 32.9 34.1 42.5 43.2 49.0 52.8 59.4 63.5 156.25 234.09 538.24 696.96 1122.25 1183.36 1552.36 2043.04 3069.16 3708.81 449.44 571.21 1082.41 1162.81 1806.25 1866.24 2401.00 2787.84 3528.36 4032.25 265.00 365.67 763.28 900.24 1423.75 1486.08 1930.60 2386.56 3290.76 3867.15 合计 346.2 422.5 14304.52 19687.81 16679.09 0.9942 10 14304.52 346.2 10 19687.81 422.5 10 16679.09 346.2 422.5 ( ) ( ) 2 2 2 2 2 2 = − − − = − − − = n x x n y y n xy x y r 相关系数为 0.9942,说明广告投入费与月平均销售额之间有高度 的线性正相关关系。 这里需要指出的是,相关系数有一个明显的缺点,即它接近于 1 的程度与数据组数 n 相关,这容易给人一种假象。因为,当 n 较小时, 相关系数的波动较大,对有些样本相关系数的绝对值易接近于 1;当 n 较大时,相关系数的绝对值容易偏小。特别是当 n=2 时,相关系数的 绝对值总为 1。因此在样本容量 n 较小时,我们仅凭相关系数较大就判 定变量 x 与 y 之间有密切的线性关系是不妥当的。例如,笔者曾就我国 深沪两股市资产负债率与每股收益之间的相关关系做过研究。发现 1999年资产负债率前40名的上市公司,二者的相关系数为r = –0.6139;
资产负债率后20名的上市公司,二者的相关系数r=0.1072;而对于 沪、深全部上市公司(基金除外)结果却是,r=-0.5509,r深=-0.4361 根据三级划分方法,两变量为显著性相关。这也说明仅凭r的计算值大 小判断相关程度有一定的缺限 本书附表中有相关系数检验表,表中是相关系数绝对值的临界值 当计算出的变量x与y的相关系数绝对值大于表中临界值时,才可以判 定x与y有线性关系。通常,当大于表中a=5%相应的值,但小于表 中a=1%相应的值时,称x与y有显著的线性关系;当大于表中a=1% 相应的值时,称x与y有高度的线性关系;如果小于表中a=5%相应 的值时,就判定x与y没有明显的线性关系。这种检验方法通常称临界 值法,即比较与(a,m2)的关系。 在此例中m=10,表中a=5%(m-2=8)相应的值为0632,a=1%相应 的值为0.765,r=0.9947>0.765。因此,年广告费投入与月平均销售额 之间有高度的线性相关 7.1.3.相关分析中应注意的问题 1.相关系数不能解释两变量间的因果关系 相关系数只是表明两个变量间互相影响的程度和方向,它并不能 说明两变量间是否有因果关系,以及何为因,何为果,即使是在相关 系数非常大时,也并不意味着两变量间具有显著的因果关系。例如 根据一些人的研究,发现抽烟与学习成绩有负相关关系,但不能由此 推断是抽烟导致了成绩差 因与果在很多情况下是可以互换的。如研究发现收入水平与股票 的持有额正相关,并且可以用收入水平作为解释股票持有额的因素, 但是否存在这样的情况,你赚的钱越多,买的股票也越多,而买的股 票越多,赚的钱也就越多,何为因?何为果?众所周知,经济增长与 人口增长相关,可是究竟是经济增长引起人口增长,还是人口增长引 起经济增长呢?不能从相关系数中得出结论 2.警惕虚假相关导致的错误结论 有时两变量之间并不存在相关关系,但却可能出现较高的相关系 如存在另一个共同影响两变量的因素。在时间序列资料中往往就 会出现这种情况,有人曾对教师薪金的提高和酒价的上涨作了相关分 析,计算得到一个较大的相关系数,这是否表明教师薪金提高导致酒 的消费量增加,从而导致酒价上涨呢?经分析,事实是由于经济繁荣
资产负债率后 20 名的上市公司,二者的相关系数 r = 0.1072;而对于 沪、深全部上市公司(基金除外)结果却是,r 沪 = –0.5509,r 深 = –0.4361, 根据三级划分方法,两变量为显著性相关。这也说明仅凭 r 的计算值大 小判断相关程度有一定的缺限。 本书附表中有相关系数检验表,表中是相关系数绝对值的临界值。 当计算出的变量 x 与 y 的相关系数绝对值大于表中临界值时,才可以判 定 x 与 y 有线性关系。通常,当|r|大于表中α=5%相应的值,但小于表 中α=1%相应的值时,称 x 与 y 有显著的线性关系;当|r|大于表中α=1% 相应的值时,称 x 与 y 有高度的线性关系;如果|r|小于表中α=5%相应 的值时,就判定 x 与 y 没有明显的线性关系。这种检验方法通常称临界 值法,即比较|r|与 r(α,n–2)的关系。 在此例中 n=10,表中α=5%(n–2=8)相应的值为 0.632,α=1%相应 的值为 0.765,r=0.9947>0.765。因此,年广告费投入与月平均销售额 之间有高度的线性相关。 7.1.3. 相关分析中应注意的问题 1. 相关系数不能解释两变量间的因果关系 相关系数只是表明两个变量间互相影响的程度和方向,它并不能 说明两变量间是否有因果关系,以及何为因,何为果,即使是在相关 系数非常大时,也并不意味着两变量间具有显著的因果关系。例如, 根据一些人的研究,发现抽烟与学习成绩有负相关关系,但不能由此 推断是抽烟导致了成绩差。 因与果在很多情况下是可以互换的。如研究发现收入水平与股票 的持有额正相关,并且可以用收入水平作为解释股票持有额的因素, 但是否存在这样的情况,你赚的钱越多,买的股票也越多,而买的股 票越多,赚的钱也就越多,何为因?何为果?众所周知,经济增长与 人口增长相关,可是究竟是经济增长引起人口增长,还是人口增长引 起经济增长呢?不能从相关系数中得出结论。 2. 警惕虚假相关导致的错误结论 有时两变量之间并不存在相关关系,但却可能出现较高的相关系 数。 如存在另一个共同影响两变量的因素。在时间序列资料中往往就 会出现这种情况,有人曾对教师薪金的提高和酒价的上涨作了相关分 析,计算得到一个较大的相关系数,这是否表明教师薪金提高导致酒 的消费量增加,从而导致酒价上涨呢?经分析,事实是由于经济繁荣
导致教师薪金和酒价的上涨,而教师薪金增长和酒价之间并没有什么 直接关系 原因的混杂也可能导致错误的结论。如有人做过计算,发现在美 国经济学学位越高的人,收入越低,笼统地计算学位与收入之间的相 关系数会得到负值。但分别对大学、政府机构、企业各类别计算学位 与收入之间的相关系数得到的则是正值,即对同一行业而言,学位高, 收入也高。 另外,注意不要在相关关系据以成立的数据范围以外,推论这种 相关关系仍然保持。雨下的多,农作物长的好,在缺水地区,干旱季 节雨是一种福音,但雨量太大,却可能损坏庄稼。又如,广告投入多 销售额上涨,利润增加,但盲目加大广告投入,却未必使销售额再增 长,利润还可能减少。正相关达到某个极限,就可能变成负相关。这 个道理似乎人人都明白,但在分析问题时却容易忽视 72一元线性回归分析 7.21.什么是回归分析 “回归”一词是由英国生物学家 F Galton在研究人体身高的遗传 问题时首先提出的。根据遗传学的观点,子辈的身高受父辈影响,以X 记父辈身高,Y记子辈身高。虽然子辈身高一般受父辈影响,但同样身 高的父亲,其子身高并不一致,因此,X和Y之间存在一种相关关系。 一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传 下来,身高必然向两极分化,而事实上并非如此,显然有一种力量将 身高拉向中心,即子辈的身高有向中心回归的特点。“回归”一词即源 于此。虽然这种向中心回归的现象只是特定领域里的结论,并不具有 普遍性,但从它所描述的关于X为自变量,Y为不确定的因变量这种 变量间的关系看,和我们现在的回归含义是相同的。不过,现代回归 分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用 于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中也 发挥着重要的作用 回归分析通过一个变量或一些变量的变化解释另一变量的变化。 其主要内容和步骤是,首先根据理论和对问题的分析判断,将变量分 为自变量和因变量;其次,设法找出合适的数学方程式(即回归模型) 描述变量间的关系;由于涉及到的变量具有不确定性,接着还要对回
导致教师薪金和酒价的上涨,而教师薪金增长和酒价之间并没有什么 直接关系。 原因的混杂也可能导致错误的结论。如有人做过计算,发现在美 国经济学学位越高的人,收入越低,笼统地计算学位与收入之间的相 关系数会得到负值。但分别对大学、政府机构、企业各类别计算学位 与收入之间的相关系数得到的则是正值,即对同一行业而言,学位高, 收入也高。 另外,注意不要在相关关系据以成立的数据范围以外,推论这种 相关关系仍然保持。雨下的多,农作物长的好,在缺水地区,干旱季 节雨是一种福音,但雨量太大,却可能损坏庄稼。又如,广告投入多, 销售额上涨,利润增加,但盲目加大广告投入,却未必使销售额再增 长,利润还可能减少。正相关达到某个极限,就可能变成负相关。这 个道理似乎人人都明白,但在分析问题时却容易忽视。 7.2 一元线性回归分析 7.2.1. 什么是回归分析 “回归”一词是由英国生物学家 F.Galton 在研究人体身高的遗传 问题时首先提出的。根据遗传学的观点,子辈的身高受父辈影响,以 X 记父辈身高,Y 记子辈身高。虽然子辈身高一般受父辈影响,但同样身 高的父亲,其子身高并不一致,因此,X 和 Y 之间存在一种相关关系。 一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传 下来,身高必然向两极分化,而事实上并非如此,显然有一种力量将 身高拉向中心,即子辈的身高有向中心回归的特点。“回归”一词即源 于此。虽然这种向中心回归的现象只是特定领域里的结论,并不具有 普遍性,但从它所描述的关于 X 为自变量,Y 为不确定的因变量这种 变量间的关系看,和我们现在的回归含义是相同的。不过,现代回归 分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用 于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中也 发挥着重要的作用。 回归分析通过一个变量或一些变量的变化解释另一变量的变化。 其主要内容和步骤是,首先根据理论和对问题的分析判断,将变量分 为自变量和因变量;其次,设法找出合适的数学方程式(即回归模型) 描述变量间的关系;由于涉及到的变量具有不确定性,接着还要对回
归模型进行统计检验:统计检验通过后,最后是利用回归模型,根据 自变量去估计、预测因变量。 归有不同种类,按照自变量的个数分,有一元回归和多元回归。 只有一个自变量的叫一元回归,有两个或两个以上自变量的叫多元回 归:按照回归曲线的形态分,有线性(直线)回归和非线性(曲线) 回归。实际分析时应根据客观现象的性质、特点、研究目的和任务选 取回归分析的方法。本节仅讨论一元线性回归分析 722.相关与回归分析的关系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深 入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具 体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的 相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相 关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方 向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回 归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推 断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另 个变量的变化情况,因此,在具体应用过程中,只有把相关分析和 回归分析结合起来,才能达到研究和分析的目的。 二者的区别主要体现在以下三个方面: (1).在相关分析中涉及的变量不存在自变量和因变量的划分问题 变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的 性质和研究分析的目的,对变量进行自变量和因变量的划分。因此, 在回归分析中,变量之间的关系是不对等的 (20.在相关分析中所有的变量都必须是随机变量:而在回归分析 中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入 回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出 定的随机波动性 3).相关分析主要是通过一个指标即相关系数来反映变量之间相 关程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的。 而在回归分析中,对于互为因果的两个变量(如人的身高与体重,商品 的价格与需求量),则有可能存在多个回归方程 需要指出的是,变量之间是否存在“真实相关”,是由变量之间的 内在联系所决定的。相关分析和回归分析只是定量分析的手段,通过 相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及 其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无
归模型进行统计检验;统计检验通过后,最后是利用回归模型,根据 自变量去估计、预测因变量。 回归有不同种类,按照自变量的个数分,有一元回归和多元回归。 只有一个自变量的叫一元回归,有两个或两个以上自变量的叫多元回 归;按照回归曲线的形态分,有线性(直线)回归和非线性(曲线) 回归。实际分析时应根据客观现象的性质、特点、研究目的和任务选 取回归分析的方法。本节仅讨论一元线性回归分析。 7.2.2. 相关与回归分析的关系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深 入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具 体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的 相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相 关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方 向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回 归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推 断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另 一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和 回归分析结合起来,才能达到研究和分析的目的。 二者的区别主要体现在以下三个方面: (1).在相关分析中涉及的变量不存在自变量和因变量的划分问题, 变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的 性质和研究分析的目的,对变量进行自变量和因变量的划分。因此, 在回归分析中,变量之间的关系是不对等的。 (20.在相关分析中所有的变量都必须是随机变量;而在回归分析 中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入 回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出 一定的随机波动性。 (3).相关分析主要是通过一个指标即相关系数来反映变量之间相 关程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的。 而在回归分析中,对于互为因果的两个变量 (如人的身高与体重,商品 的价格与需求量),则有可能存在多个回归方程。 需要指出的是,变量之间是否存在“真实相关”,是由变量之间的 内在联系所决定的。相关分析和回归分析只是定量分析的手段,通过 相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及 其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无
法判断变量之间的因果关系。因此,在具体应用过程中,一定要始终 注意把定性分析和定量分析结合起来,在准确的定性分析的基础上展 开定量分析 72.3.一元线性回归( Simple Linear regression)模型 对于具有线性相关关系的两个变量,由于有随机因素的干扰,两 变量的线性关系中应包括随机误差项E,即有: y=a+bx+a 对于x某一确定的值,其对应的y值虽有波动,但随机误差的期望 值为零,即E(E)=0,因而从平均意义上说(记E(y)为y),总体线性 回归方程为: y=E()=a+ bx 我们可通过样本观察值计算a、b,用它对(6-2)式中的参数a、B 作出估计,即求样本回归方程,用它对总体线性回归方程进行估计 样本回归直线方程又称一元线性回归方程,其表达形式为: 式中:yε表示因变量的估计值(回归理论值);a,b是待定参数,其中 a是回归直线的起始值(截距),即x为0时y的值,从数学意义上理 解,它表示在没有自变量x的影响时,其它各种因素对因变量y的平均 影响:b是回归系数(直线的斜率),表示自变量x每变动一个单位时 因变量y平均变动b个单位 元线性回归方程中的待定参数是根据数据资料求出的。其计算 公式为:(由于本书旨在介绍该种方法在统计中的应用,故数学推导过 程略)。 (7-3) 当a、b求出后,一元线性回归方程υ=a+bx便可确定了 例7-2江海电器有限公司2001年1-10月份产量与制造费用资 料见表7-3 解:分析制造费用对产量之间的数量关系。设回归方程为y=a+bx 为产量,y为制造费用,计算如下表7-3
法判断变量之间的因果关系。因此,在具体应用过程中,一定要始终 注意把定性分析和定量分析结合起来,在准确的定性分析的基础上展 开定量分析。 7.2.3. 一元线性回归(Simple Linear Regression)模型 对于具有线性相关关系的两个变量,由于有随机因素的干扰,两 变量的线性关系中应包括随机误差项 ,即有: y = a + bx + 对于 x 某一确定的值,其对应的 y 值虽有波动,但随机误差的期望 值为零,即 E ( ) = 0,因而从平均意义上说(记 E (y)为 y),总体线性 回归方程为: y = E(y) = a + bx 我们可通过样本观察值计算 a、b,用它对(6–2)式中的参数α、β 作出估计,即求样本回归方程,用它对总体线性回归方程进行估计。 样本回归直线方程又称一元线性回归方程,其表达形式为: yc = a + bx (7–2) 式中: yc 表示因变量的估计值(回归理论值);a,b 是待定参数,其中 a 是回归直线的起始值(截距),即 x 为 0 时 yc 的值,从数学意义上理 解,它表示在没有自变量 x 的影响时,其它各种因素对因变量 y 的平均 影响;b 是回归系数(直线的斜率),表示自变量 x 每变动一个单位时, 因变量 y 平均变动 b 个单位。 一元线性回归方程中的待定参数是根据数据资料求出的。其计算 公式为:(由于本书旨在介绍该种方法在统计中的应用,故数学推导过 程略)。 2 2 n x ( x) n xy x y b − − = a = y − bx 当 a、b 求出后,一元线性回归方程 yc = a + bx 便可确定了。 例 7–2 江海电器有限公司 2001年 1-10 月份产量与制造费用资 料见表 7–3。 解:分析制造费用对产量之间的数量关系。设回归方程为 y= a+bx, x 为产量,y 为制造费用,计算如下表 7–3。 (7–3)