第十二章相关与回归分析 社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收 入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之 间联系的程度和性质也各不相同 本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量 统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的 关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关 关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的 因果联系,其内容分为相关分析和回归分析这两个大的方面 第一节变量之间的相互关系 1.相关程度 完全相关,指变量之间为函数关系;完全不相关指变量之间不存在任何依 存关系,彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。 由于数学手段上的局限性,统计学探讨的最多的是定距一定距变量间能近 似地表现为一条直线的线性相关。在统计中,对于线性相关,采用相关系数(记 作r)这一指标来量度相关关系程度或强度。就线性相关来说,当r=1时,表 示为完全相关;当r=0时,表现为无相关或零相关;当0<r<1时,表现为不 完全相关。 2.相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。例如,受 教育水平越高找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增 加时,另一变量的值却减少。例如,受教育水平越高,理想子女数目越少。要强 调的是,只有定序以上测量层次的变量才分析相关方向,因为只有这些变量的值 有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了
第十二章 相关与回归分析 社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收 入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之 间联系的程度和性质也各不相同。 本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量 统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的 关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关 关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的 因果联系,其内容分为相关分析和回归分析这两个大的方面。 第一节 变量之间的相互关系 1. 相关程度 完全相关,指变量之间为函数关系;完全不相关指变量之间不存在任何依 存关系,彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。 由于数学手段上的局限性,统计学探讨的最多的是定距—定距变量间能近 似地表现为一条直线的线性相关。在统计中,对于线性相关,采用相关系数(记 作 r)这一指标来量度相关关系程度或强度。就线性相关来说,当 r =l 时,表 示为完全相关;当 r =0 时,表现为无相关或零相关;当 0< r <1 时,表现为不 完全相关。 2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。例如,受 教育水平越高找到高薪水工作的机会也越大。而负相关关系是指一个变量的值增 加时,另一变量的值却减少。例如,受教育水平越高,理想子女数目越少。要强 调的是,只有定序以上测量层次的变量才分析相关方向,因为只有这些变量的值 有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了
第二节定类变量的相关分析 本节内容: 1.列联表 消减误差比例 3.λ系数 4.τ系数 列联表 列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每 一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表 例如,某区调査了357名选民,考察受教育程度与投票行为之间的关系,将 所得资料作成下表,便是一种关于频数的列联表。 表12.9受教育程度与投票行为 投票行为Y 受教育程度X 合计:F 大学以上 大学以下 投票 114 214 弃权 76 合计:Fx 167 190 357 2×2频数分布列联表的一般形式 表12.22×2列联表的一般形式 Y X ∑∑f=n 习惯上把因变量Y放在表侧,把自变量Ⅹ放在表头 2×2列联表是最简单的交互分类表。 r×c列联表r(row)、c( column)
第二节 定类变量的相关分析 本节内容: 1. 列联表 2. 消减误差比例 3. λ系数 4. τ系数 1. 列联表 列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每 一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。 例如,某区调查了 357 名选民,考察受教育程度与投票行为之间的关系,将 所得资料作成下表,便是一种关于频数的列联表。 2×2 频数分布列联表的一般形式 习惯上把因变量 Y 放在表侧,把自变量 X 放在表头。 2×2 列联表是最简单的交互分类表。 r×c 列联表 r(row)、c(column)
两个边际分布: f,+f2/+…+f+…+J ∑∑f f 条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相 对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布 的列联表(或称频率分布的列联表)。下表是r×c相对频数分布列联表的一般形 式 r×c相对频数分布列联表的一般形式 表12.4rxc相对频数分布列联表的一般形式 X X P P P r×c相对频数联合分布列联表
两个边际分布: 条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相 对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布 的列联表(或称频率分布的列联表)。下表是 r×c 相对频数分布列联表的一般形 式。 r×c 相对频数分布列联表的一般形式 r×c 相对频数联合分布列联表 = = + + + + + = r j X i i ij ir ij F f f f f f i 1 1 2 = = + + + + + = c i Y j j ij cj ij F f f f f f j 1 1 2 F F F F f n c i r j X X X X ij i c + + + + + = = =1 =1 1 2 = = + + + + + = = r j c i FY FY FYj FY f ij n r 1 1 1 2
表12.5相对频数联合分布列联表 fu fa X far f P 控制X,Y相对频数条件分布列联表 褒12.6控制X,关于Y的相对频数条件分布列联表 F X (Fy,) ,合“ Fr:) (F,) 100%100% 100% 100% 100% (FAI) (Fx2) 控制Y,X相对频数条件分布列联表 n2.7控制》,美于x的相对频数条件 100(F,)
控制 X,Y 相对频数条件分布列联表 控制 Y,X 相对频数条件分布列联表
[例A1]试把下表所示的频数分布列联表,转化为自变量受到控制的相对频数条 件分布列联表,并加以相关分析 投受教育程度X 票 行 为 大学以上 大学以下 投票弃权 679%(129/190) 81.0%(289/357) 4.2%0(7/167) 32.19(61/90) 19.0%0(68/357) 100.09(167) 100.0%(190) 100.0%(357) 从上表可知,受过大学以上教育的被调查者绝大多数(占95.8%)是投票 的,受教育程度在大学以下的被调查者虽多数也参与投票(占67.9%),但后者 参与投票的百分比远小于前者;前者只有4.2%弃权,而后者则有32.1%弃权。两 相比较可知,受教育程度不同,参与投票的行为不同,因此两个变量是相关的。 [例A2]试把下表所示的频数分布列联表,转化为相对频数条件分布列联表和自 变量受到控制的相对频数条件分布列联表,并加以相关分析。 受教育程度X 投票行为Y 大学以上 大学以下 214 投票弃权 合计:Fx 167 357
[例 A1]试把下表所示的频数分布列联表,转化为自变量受到控制的相对频数条 件分布列联表,并加以相关分析。 投 票 行 为 Y 受教育程度 X 大学以上 大学以下 投 票 弃 权 95.8%(160/167) 4.2%(7/167) 67.9%(129/190) 32.1%(61/190) 81.0%(289/357) 19.0%(68/357) 100.0%(167)) 100.0%(190) 100.0%(357) 从上表可知,受过大学以上教育的被调查者绝大多数(占 95.8%)是投票 的,受教育程度在大学以下的被调查者虽多数也参与投票(占 67.9%),但后者 参与投票的百分比远小于前者;前者只有 4.2%弃权,而后者则有 32.1%弃权。两 相比较可知,受教育程度不同,参与投票的行为不同,因此两个变量是相关的。 [例 A2]试把下表所示的频数分布列联表,转化为相对频数条件分布列联表和自 变量受到控制的相对频数条件分布列联表,并加以相关分析。 投票行为 Y 受教育程度 X FY 大学以上 大学以下 投票弃权 100 67 114 76 214 143 合计:FX 167 190 357
受教育程度X 投票行为Y 大学以下 Fy/n 大学以上 60.0%(114/190)|60.0%(214/357) 投票 0.0%(100/167) 40.0%(76/190)40.0%(143/357) 弃权 40.0%(67/167) 100.0% 100.0% 100.0% (357) (167)) (190) 上表显示,大学以上文化程度和大学以下文化程度同样各有60%的人参与投 票,40%的人弃权,并没有因为受教育程度不同,而使参与投票的行为有所不同。 因此,此时的两个变量是不相关的,或者说是独立的。我们不难发现,此时反映 全体投票情况的相对频数的边际分布(F/n)也各有60%的人参与投票,40%的人 弃权。 投票行为Y 受教育程度X Fy/n 大学以上 大学以下 投票 28.0%(100/357)31.9%(114/357)60.0%(214/357) 弃权 18.8%(67/357)21.3%(76/357)40.0%(143/357) (190/357) (357) Fx/ (167/357) 上表显示,当两个变量不相关时有 如0.532×0.40=0.213 nn
投票行为 Y 受教育程度 X FY/n 大学以上 大学以下 投票 弃权 60.0%(100/167) 40.0%(67/167) 60.0%(114/190) 40.0%(76/190) 60.0%(214/357) 40.0%(143/357) 100.0% (167)) 100.0% (190) 100.0% (357) 上表显示,大学以上文化程度和大学以下文化程度同样各有 60%的人参与投 票,40%的人弃权,并没有因为受教育程度不同,而使参与投票的行为有所不同。 因此,此时的两个变量是不相关的,或者说是独立的。我们不难发现,此时反映 全体投票情况的相对频数的边际分布( FY/n)也各有 60%的人参与投票,40%的人 弃权。 投票行为 Y 受教育程度 X FY/n 大学以上 大学以下 投票 弃权 28.0%(100/357) 18.8%(67/357) 31.9%(114/357) 21.3%(76/357) 60.0%(214/357) 40.0%(143/357) FX/n 46.8% (167/357) 53.2% (190/357) 100.0% (357) 上表显示,当两个变量不相关时有 。 如 0.532× 0.40=0.213。 n F n F n f j i ij X Y =
「例B]某社区调查了120名市民,考察性别与对吸烟态度之间的关系,试将所 得资料作成相对频数的联合分布、边际分布和条件分布列联表,并进行相关分析。 性别与对吸烟的态度 性别X 合计 态度Y 男 女 容忍 反对 44 64 合计 120 相对频数联合分布列联表 性别X 合计 态度Y 男(X1) 女(X2) 容忍Y1 40.0% 6.7% 46.7% 反对Y2 16.7 36.6% 53.3% 合计 56.7% 43.3% 100%(120) 相对频数条件分布列联表 性别X 合计 态度Y 男 女 容忍 70.6% 15.4% 46.7%(56) 反对 29.4% 84.6% 53.3%(64) 合计 100%(68) 100%(52) 100%(120)
[例 B]某社区调查了 120 名市民,考察性别与对吸烟态度之间的关系,试将所 得资料作成相对频数的联合分布、边际分布和条件分布列联表,并进行相关分析。 性别与对吸烟的态度 相对频数联合分布列联表 相对频数条件分布列联表 态度 Y 性别 X 合计 男 女 容忍 48 8 56 反对 20 44 64 合计 68 52 120 态度 Y 性别 X 合计 男( X1 ) 女( X2 ) 容忍 Y1 40.0% 6.7 % 46.7 % 反对 Y2 16.7 % 36.6 % 53.3 % 合计 56.7 % 43.3% 100 % (120) 态度 Y 性别 X 合计 男 女 容忍 70.6% 15.4 % 46.7 %(56) 反对 29.4 % 84.6 % 53.3 %(64) 合计 100 %(68) 100 %(52) 100 %(120)
2675名双亲和他们10071个子女 的智力的关系(%)(相对频数条件分布列联表) 父母智力组合子女智力优秀子女智力一般子女智力低下 优+优 71.6 25.4 3.0 优+劣 33.6 42.7 般+一般 18.6 66.9 14.5 劣+劣 5.4 34.4 通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分 布的比较进行的。如果对不同的X,Y的相对频数条件分布不同,且和Y的相对 频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必 然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。后者用 数学式表示就是 2.消减误差比例PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量X和因变量Y的关联 性给出一个初步的判断。但是对关联性给出判断,肯定没有用量化指标表达来得 好。所以,下面我们将关注于如何用统计方法,使相关关系的强弱可以通过某些 简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,消减误差比例的概念是非常有价值的。 消减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联 性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变 量预测另一变量时,盲目性必然较关系不密切者为小。 PRE:用不知道Y与X有关系时预测Y的全部误差E1,减去知道Y与X有 关系时预测Y的联系误差E2,再将其化为比例来度量
2675 名双亲和他们 10071 个子女 的智力的关系(%)(相对频数条件分布列联表) 父母智力 组合 子女智力 优秀 子女智力 一般 子女智力 低下 优+优 71.6 25.4 3.0 优+劣 33.6 42.7 23.7 一般+一般 18.6 66.9 14.5 劣+劣 5.4 34.4 60.2 通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分 布的比较进行的。如果对不同的 X,Y 的相对频数条件分布不同,且和 Y 的相对 频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必 然存在着 Y 的相对频数条件分布相同,且和它的相对频数边际分布相同。后者用 数学式表示就是 2. 消减误差比例 PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量 X 和因变量 Y 的关联 性给出一个初步的判断。但是对关联性给出判断,肯定没有用量化指标表达来得 好。所以,下面我们将关注于如何用统计方法,使相关关系的强弱可以通过某些 简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,消减误差比例的概念是非常有价值的。 消减误差比例的原理是,如果两变量间存在着一定的关联性,那么知道这种关联 性,必然有助于我们通过一个变量去预测另一变量。其中关系密切者,在由一变 量预测另一变量时,盲目性必然较关系不密切者为小。 PRE:用不知道 Y 与 X 有关系时预测 Y 的全部误差 E1,减去知道 Y 与 X 有 关系时预测 Y 的联系误差 E2,再将其化为比例来度量 n F F f j i Y X ij = n F n F n f j i ij X Y =
PRE的取值范围是 0≤PRE≤1 消减误差比例PRE适用于各测量层次的变量,A系数和τ系数便是 在定类测量的层次上以消减误差比例PRE为基础所设计的两种相关系数。 性别Ⅹ 合计 态度Y 男 女 容忍 反对 20 64 合计 PRE=(56-28)/56=0.5 3.A系数 在定类尺度上测量集中趋势只能用众数。λ系数就是利用此性质来构造相 关系数的 (1)不对称的A系数 ∑fn (48+44)-64 120-64 [例]对下表所示资料,用λ系数反映性别与收入高低的相关关系
PRE 的取值范围是 0≤PRE≤l 消减误差比例 PRE 适用于各测量层次的变量,λ系数和τ系数便是 在定类测量的层次上以消减误差比例 PRE 为基础所设计的两种相关系数。 PRE=(56-28)/56=0.5 3. λ系数 在定类尺度上测量集中趋势只能用众数。 λ系数就是利用此性质来构造相 关系数的。 (1)不对称的λ系数 [例] 对下表所示资料,用λ系数反映性别与收入高低的相关关系。 态度 Y 性别 X 合计 男 女 容忍 48 8 56 反对 20 44 64 合计 68 52 120 0.5 120 64 (48 44) 64 0 0 0 = − + − = − − = Y Y Y n F f F
性别X 合计 态度Y 男 女 低高 150 210 120 70 190 合计 180 220 440 n-F (150+120)-210 400-210 =0.32 (2)对称的λ系数 ∑∫x+∑f-(Fx。+F) 2 (100+60+40)+(100+70+50)-(150+220) 2×400-(150+220) =0.12 [例]研究工作类别与工作价值的关系,工作类别可分为三类:工人、技术 人员、管理/行政人员:工作价值也可分为三类:以收入/福利为最重要的职业选 择标准的称为经济取向型,以工作的创造性、挑战性为最重要的职业选择标准的 称为成就取向型,以工作中的人际关系为最重要的职业选择标准的称为人际关系 取向型。对下表所示资料,用λ系数反映工作类别与工作价值的相关关系。 ∑∫x+∑fn-(Fxn+F 2n-(F.+Fy) (100+60+40)+(100+70+50)-(150+220) 2×400-(150+220) 0.12
(2)对称的λ系数 [例] 研究工作类别与工作价值的关系,工作类别可分为三类:工人、技术 人员、管理/行政人员;工作价值也可分为三类:以收入/福利为最重要的职业选 择标准的称为经济取向型,以工作的创造性、挑战性为最重要的职业选择标准的 称为成就取向型,以工作中的人际关系为最重要的职业选择标准的称为人际关系 取向型。对下表所示资料,用λ系数反映工作类别与工作价值的相关关系 。 态度 Y 性别 X 合计 男 女 低 60 150 210 高 120 70 190 合计 180 220 440 0.32 400 210 (150 120) 210 0 0 0 = − + − = − − = Y Y Y n F f F 0.12 2 400 (150 220) (100 60 40) (100 70 50) (150 220) 2 ( ) ( ) 0 0 0 0 0 0 = − + + + + + + − + = − + + − + = X Y X Y X Y n F F f f F F 0.12 2 400 (150 220) (100 60 40) (100 70 50) (150 220) 2 ( ) ( ) 0 0 0 0 0 0 = − + + + + + + − + = − + + − + = X Y X Y X Y n F F f f F F