第十章统计分析方法 统计分析方法,作为一种科学的研究方法,在课题数据的收集、整理和分析等方面起着 重要的作用,正越来越为众多研究者所采用。鉴于统计分析思想较为复杂,具体的统计分析 方法名目繁多,难以概全,本章旨在删繁就简,着眼实用,介绍最基本的统计思想及统计方 法 第一节统计分析方法概述 、统计分析的内涵 统计,顾名思义即将信息统括起来进行计算的意思,它是对数据进行定量处理的理论与 技术 统计分析,常指对收集到的有关数据资料进行整理归类并进行解释的过程。凡资料是以 数据形式呈现,需要与数字打交道的,统计分析便必不可少。统计分析方法常与实验、观察、 测量、调查所得结果相联系,为研究作出正确的结论提供科学的途径和方法,是研究者从事 科学研究的必备工具之 、统计分析方法的特征 采用统计分析方法进行教育研究,是研究达到高水平的客观要求,应用统计分析方法进 行科学研究,有以下几个基本特征: 1.科学性 统计分析方法以数学为基础,具有严密的结构,需要遵循特定的程序和规范,从确立选 题、提出假设、进行抽样、具体实施,一直到分析解释数据,得出结论,都须符合一定的逻 辑和标准。 2.直观性 现实世界是复杂多样的,其本质和规律难以直接把握,统计分析方法从现实情境中收集 数据,通过分数、次序、频数等直观、浅显的量化数字及简明的图表表现出来,这些数据的 处理,将我们的研究与客观世界紧密相连,从而提示和洞悉现实世界的本质及其规律。 3.可重复性 可重复性是衡量研究质量与水平高低的一个客观尺度,用统计分析方法进行的研究皆是 可重复的。从课题的选取、抽样的设计,到数据的收集与处理,皆可在相同的条件下进行重 复,并能对研究所得的结果进行验证。 三、统计分析方法的局限 统计分析方法有其自身的优势与局限,正确认识其优势和局限,二者同样重要。统计分 析方法的局限,归结起来,主要有下列几点 1.现实生活极其复杂,诸多因素常常纠缠交错在一起,仅靠统计分析方法去控制和解 释这些因素及其相互关系,是不全面、不深刻的
1 第十章 统计分析方法 统计分析方法,作为一种科学的研究方法,在课题数据的收集、整理和分析等方面起着 重要的作用,正越来越为众多研究者所采用。鉴于统计分析思想较为复杂,具体的统计分析 方法名目繁多,难以概全,本章旨在删繁就简,着眼实用,介绍最基本的统计思想及统计方 法。 第一节 统计分析方法概述 一、统计分析的内涵 统计,顾名思义即将信息统括起来进行计算的意思,它是对数据进行定量处理的理论与 技术。 统计分析,常指对收集到的有关数据资料进行整理归类并进行解释的过程。凡资料是以 数据形式呈现,需要与数字打交道的,统计分析便必不可少。统计分析方法常与实验、观察、 测量、调查所得结果相联系,为研究作出正确的结论提供科学的途径和方法,是研究者从事 科学研究的必备工具之一。 二、统计分析方法的特征 采用统计分析方法进行教育研究,是研究达到高水平的客观要求,应用统计分析方法进 行科学研究,有以下几个基本特征: 1.科学性 统计分析方法以数学为基础,具有严密的结构,需要遵循特定的程序和规范,从确立选 题、提出假设、进行抽样、具体实施,一直到分析解释数据,得出结论,都须符合一定的逻 辑和标准。 2.直观性 现实世界是复杂多样的,其本质和规律难以直接把握,统计分析方法从现实情境中收集 数据,通过分数、次序、频数等直观、浅显的量化数字及简明的图表表现出来,这些数据的 处理,将我们的研究与客观世界紧密相连,从而提示和洞悉现实世界的本质及其规律。 3.可重复性 可重复性是衡量研究质量与水平高低的一个客观尺度,用统计分析方法进行的研究皆是 可重复的。从课题的选取、抽样的设计,到数据的收集与处理,皆可在相同的条件下进行重 复,并能对研究所得的结果进行验证。 三、统计分析方法的局限 统计分析方法有其自身的优势与局限,正确认识其优势和局限,二者同样重要。统计分 析方法的局限,归结起来,主要有下列几点: 1.现实生活极其复杂,诸多因素常常纠缠交错在一起,仅靠统计分析方法去控制和解 释这些因素及其相互关系,是不全面、不深刻的
2.统计分析方法的运用是有条件的,它依赖于数据资料本身的性质、统计方法的适用 程度和研究者对统计原理及统计技术的理解、掌握程度与应用水平。方法选择不当,往往易 得出错误的结论 3.统计决断以概率为基础,既然是概率,就存在误差,因而可以说,统计决断的结论 并非绝对正确。例如,从样本统计量推断总体参数的信息时,由于我们的推断建立在一定的 概率基础上,我们没有百分之百的把握认为推断是正确的;当我们在0.95概率基础上比较 两个总体平均数是否相等并认为它们之间存在或不存在显著差异时,从可靠度上看,我们决 断错误的可能性尚有5% 四、统计分析方法的主要内容 统计分析方法,按不同的分类标志,可划分为不同的类别,而常用的分类标准是功能标 准,依此标准进行划分,统计分析可分为描述统计和推断统计 1.描述统计 描述统计是将教育研究中所得的数据加以整理、归类、简化或绘制成图表,以此描述和 归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中 趋势、离散程度和相关强度,最常用的指标有平均数(X)、标准差(σx)、相关系数(r)等 2.推断统计 推断统计指用概率形式来决断数据之间是否存在某种关系及用样本统计值来推测总体 特征的一种重要的统计方法。推断统计包括总体参数估计和假设检验,最常用的方法有Z 检验、t检验、x2检验等。 描述统计和推断统计二者彼此联系,相辅相成,描述统计是推断统计的基础,推断统计 是描述统计的升华。具体硏究中,是采用描述统计还是推断统计,应视具体的硏究目的而定, 如研究的目的是要描述数据的特征,则需描述统计:若还需对多组数据进行比较或需以样本 信息来推断总体的情况,则需用推断统计 例如,我们在某幼儿园大班开展一项识字教改实验,期末进行一次测试,并对测试所得 数据进行统计分析。如果我们只需了解该班儿童识字的成绩(平均数及标准差)及其分布,此 时,应采用描述统计方法;若我们还需进一步了解该实验班与另一对照班(未进行教改实验) 儿童的识字成绩有无差异,从而判断教改实验是否有效时,我们除了要对两个班的成绩进行 描述统计之外,还需采用推断统计方法。 五、统计分析的基本步骤 统计分析,大致可分为如下三个步骤 1.收集数据 收集数据是进行统计分析的前提和基础。收集数据的途径众多,可通过实验、观察、测 量、调査等获得直接资料,也可通过文献检索、阅读等来获得间接资料。收集数据的过程中 除了要注意资料的真实性和可靠性外,还要特别注意区分两类不同性质的资料:一是连续数 据,也叫计量资料,指通过实际测量得到的数据,如对儿童身高、体重测量所得的数值,或 在考试测验中所得的分数等:二是间断数据,也叫计数资料,指通过对事物类别、等级等属 性点计所得的数据,如儿童男女的人数,学习成绩在优、良、中、及格、不及格各个等级中 的人数等
2 2.统计分析方法的运用是有条件的,它依赖于数据资料本身的性质、统计方法的适用 程度和研究者对统计原理及统计技术的理解、掌握程度与应用水平。方法选择不当,往往易 得出错误的结论。 3.统计决断以概率为基础,既然是概率,就存在误差,因而可以说,统计决断的结论 并非绝对正确。例如,从样本统计量推断总体参数的信息时,由于我们的推断建立在一定的 概率基础上,我们没有百分之百的把握认为推断是正确的;当我们在 0.95 概率基础上比较 两个总体平均数是否相等并认为它们之间存在或不存在显著差异时,从可靠度上看,我们决 断错误的可能性尚有 5%。 四、统计分析方法的主要内容 统计分析方法,按不同的分类标志,可划分为不同的类别,而常用的分类标准是功能标 准,依此标准进行划分,统计分析可分为描述统计和推断统计。 1.描述统计 描述统计是将教育研究中所得的数据加以整理、归类、简化或绘制成图表,以此描述和 归纳数据的特征及变量之间的关系的一种最基本的统计方法。描述统计主要涉及数据的集中 趋势、离散程度和相关强度,最常用的指标有平均数( X )、标准差( X )、相关系数( r )等。 2.推断统计 推断统计指用概率形式来决断数据之间是否存在某种关系及用样本统计值来推测总体 特征的一种重要的统计方法。推断统计包括总体参数估计和假设检验,最常用的方法有 Z 检验、t 检验、 2 检验等。 描述统计和推断统计二者彼此联系,相辅相成,描述统计是推断统计的基础,推断统计 是描述统计的升华。具体研究中,是采用描述统计还是推断统计,应视具体的研究目的而定, 如研究的目的是要描述数据的特征,则需描述统计;若还需对多组数据进行比较或需以样本 信息来推断总体的情况,则需用推断统计。 例如,我们在某幼儿园大班开展一项识字教改实验,期末进行一次测试,并对测试所得 数据进行统计分析。如果我们只需了解该班儿童识字的成绩(平均数及标准差)及其分布,此 时,应采用描述统计方法;若我们还需进一步了解该实验班与另一对照班(未进行教改实验) 儿童的识字成绩有无差异,从而判断教改实验是否有效时,我们除了要对两个班的成绩进行 描述统计之外,还需采用推断统计方法。 五、统计分析的基本步骤 统计分析,大致可分为如下三个步骤: 1.收集数据 收集数据是进行统计分析的前提和基础。收集数据的途径众多,可通过实验、观察、测 量、调查等获得直接资料,也可通过文献检索、阅读等来获得间接资料。收集数据的过程中 除了要注意资料的真实性和可靠性外,还要特别注意区分两类不同性质的资料:一是连续数 据,也叫计量资料,指通过实际测量得到的数据,如对儿童身高、体重测量所得的数值,或 在考试测验中所得的分数等;二是间断数据,也叫计数资料,指通过对事物类别、等级等属 性点计所得的数据,如儿童男女的人数,学习成绩在优、良、中、及格、不及格各个等级中 的人数等
2.整理数据 整理数据就是按一定的标准对收集到的数据进行归类汇总的过程。由于收集到的数据大 多是无序的、零散的、不系统的,在进入统计运算之前,需要按照研究的目的和要求对数据 进行核实,剔除其中不真实的部分,再分组汇总或列表,从而使原始资料简单化、形象化 系统化,并能初步反映数据的分布特征。 3.分析数据 分析数据指在整理数据的基础上,通过统计运算,得出结论的过程,它是统计分析的核 心和关键。数据分析通常可分为两个层次:第一个层次是用描述统计的方法计算出反映数据 集中趋势、离散程度和相关强度的具有外在代表性的指标:第二个层次是在描述统计基础上 用推断统计的方法对数据进行处理,以样本信息推断总体情况,并分析和推测总体的特征和 规律 第二节统计表与统计图 数据收集完成之后,就要进入数据整理阶段,此时常用统计表与统计图。 、统计表 与数据的类型(间断型与连续型)相对应,统计表包括频数表(或频数百分比表,频数累 积百分比表)和频数分布表(或累积频数分布表) 1.频数表 频数表(或频数百分比表,频数累积百分比表)指反映间断型变量各类型频数(或频数百分 比,频数累积百分比)的统计表。 例如,幼儿园某班有20名幼儿,其中男幼儿18名,女幼儿2名,则该班幼儿男女生情 况统计表为 表10-1幼儿园某班男女幼儿人数统计表 性别 人数(n) 百分比(%)累积百分比〔% 男 18 90.00 90.00 女 10.00 100.00 总计 2.频数分布表 频数分布表(或累积频数分布表)指反映连续型变量各组数据频数(或累积频数)分布的统 计表。其制作方法是先将数据从小至大顺序排列并按一定间距进行分组,然后分别计算各组 的频数(或累积频数)并列成表格。 例如,幼儿园某班幼儿30名,其中男幼儿12名,女幼儿18名,30名小朋友的智商分 别为 979098102104102105102100113l1511211312115 l14116114112l15118124123123125126128130132131 从上述数据可看出,该班小朋友的智商最低为90,最高为132,以10为间距将其分成
3 2.整理数据 整理数据就是按一定的标准对收集到的数据进行归类汇总的过程。由于收集到的数据大 多是无序的、零散的、不系统的,在进入统计运算之前,需要按照研究的目的和要求对数据 进行核实,剔除其中不真实的部分,再分组汇总或列表,从而使原始资料简单化、形象化、 系统化,并能初步反映数据的分布特征。 3.分析数据 分析数据指在整理数据的基础上,通过统计运算,得出结论的过程,它是统计分析的核 心和关键。数据分析通常可分为两个层次:第一个层次是用描述统计的方法计算出反映数据 集中趋势、离散程度和相关强度的具有外在代表性的指标;第二个层次是在描述统计基础上, 用推断统计的方法对数据进行处理,以样本信息推断总体情况,并分析和推测总体的特征和 规律。 第二节 统计表与统计图 数据收集完成之后,就要进入数据整理阶段,此时常用统计表与统计图。 一、统计表 与数据的类型(间断型与连续型)相对应,统计表包括频数表(或频数百分比表,频数累 积百分比表)和频数分布表(或累积频数分布表)。 1.频数表 频数表(或频数百分比表,频数累积百分比表)指反映间断型变量各类型频数(或频数百分 比,频数累积百分比)的统计表。 例如,幼儿园某班有 20 名幼儿,其中男幼儿 18 名,女幼儿 2 名,则该班幼儿男女生情 况统计表为: 表 10-1 幼儿园某班男女幼儿人数统计表 性别 人数(n) 百分比(%) 累积百分比(%) 男 女 18 2 90.00 10.00 90.00 100.00 总计 20 100.00 2.频数分布表 频数分布表(或累积频数分布表)指反映连续型变量各组数据频数(或累积频数)分布的统 计表。其制作方法是先将数据从小至大顺序排列并按—定间距进行分组,然后分别计算各组 的频数(或累积频数)并列成表格。 例如,幼儿园某班幼儿 30 名,其中男幼儿 12 名,女幼儿 18 名,30 名小朋友的智商分 别为: 97 90 98 102 104 102 105 102 100 113 115 112 113 112 115 114 116 114 112 115 118 124 123 123 125 126 128 130 132 131 从上述数据可看出,该班小朋友的智商最低为 90,最高为 132,以 10 为间距将其分成
5组,制定分布表为: 表10—2幼儿园某斑30名幼儿智商Q分布表 智商(IQ) 人数(f) 累积频数(cf) 90- 36263 总计 与间断型和连续型数据相对应,统计图主要包括直条图、直方图等 L直条图 直条图是用来描述间断变量频数的统计图。变量的频数用直条的长度来表示。对上例, 该班小朋友的性别用直条图表示如图10-1所示。 复印书中图9-1 2.直方图 直方图是用来描述连续变量频数分布的统计图。用直方图描述连续变量的频数分布,其 方法为先对变量取值进行分组,并计算各组的频数,然后用直方条的面积来表示各组的频数。 对上例,该班小朋友智商(Q分布用直方图表示为如图10-2所示
4 5 组,制定分布表为: 表 10—2 幼儿园某班 30 名幼儿智商(IQ)分布表 智商(IQ) 人数(f) 累积频数(cf) 90- 100- 110- 120- 130- 3 6 12 6 3 3 9 21 27 30 总计 30 二、统计图 与间断型和连续型数据相对应,统计图主要包括直条图、直方图等。 l.直条图 直条图是用来描述间断变量频数的统计图。变量的频数用直条的长度来表示。对上例, 该班小朋友的性别用直条图表示如图 10—1 所示。 复印书中图 9-1 2.直方图 直方图是用来描述连续变量频数分布的统计图。用直方图描述连续变量的频数分布,其 方法为先对变量取值进行分组,并计算各组的频数,然后用直方条的面积来表示各组的频数。 对上例,该班小朋友智商(IQ)分布用直方图表示为如图 10—2 所示
12 数 086420 6 120 130 智商 图10-2幼儿园某班30名幼儿智商分布直方图 第三节描述统计 在教育研究过程中,在收集了大量的观测数据后,首先应对数据的特征进行描述。描述 数据,常用的统计量有平均数、标准差、标准分数、相关系数等 -、平均数 平均数是用来描述数据分布集中趋势的一个统计量,常用符号X来表示,它是一组观 测值的总和除以该数目所得的商来计算,定义公式为 X 式中,X代表平均数 ∑表示累加求和 X表示具体的观察值 n表示观察值个数 例如:某幼儿园50名幼儿珠心算测试成绩总分为4010,则该班平均分应为 ∑X4010 80.20
5 3 6 12 6 3 0 2 4 6 8 10 12 14 90- 100- 110- 120- 130- 智商 人数 图 10—2 幼儿园某班 30 名幼儿智商分布直方图 第三节 描述统计 在教育研究过程中,在收集了大量的观测数据后,首先应对数据的特征进行描述。描述 数据,常用的统计量有平均数、标准差、标准分数、相关系数等。 一、平均数 平均数是用来描述数据分布集中趋势的一个统计量,常用符号 X 来表示,它是一组观 测值的总和除以该数目所得的商来计算,定义公式为: n X X = 式中, X 代表平均数 ∑表示累加求和 X 表示具体的观察值 n 表示观察值个数 例如:某幼儿园 50 名幼儿珠心算测试成绩总分为 4010,则该班平均分应为: 80.20 50 4010 = = = n X X
、方差和标准差 方差和标准差描述一组数据的差异情况和离散程度的统计量。方差或标准差越小,表明 数据的离散程度越小,数据分布越集中整齐:反之,方差或标准差越大,表明数据离散程度 越大,数据分布越参差不齐 方差指观测值与平均数差异平方和的算术平均数,常用符号σ2x来表示,其计算:公 式为: ∑(x-x)x ∑Ⅹ 式中,a2x代表方差 X代表平均数 ∑表示累加求和 X,X2分别表示原始数据及其平方 n表示观察值个数 标准差等于方差的算术平方根,常用符号ax来表示,其计算公式为: Lx-X n 式中,x代表标准差 如,数据80、90、50、60、70 其平均数F_80+90+50+60+70 方差a2(80-70)2+(90-70)2+(50-70)-+(60-70)+(70-70 5 标准差ax=√200=1414 标准差在计算数据时,我们常使用到计算机或计算器,现以计算器(型号为 CASIO fx-82MS,fx270MS,fx-83MS,fx-85Ms,fx-300MS,fx-350Ms,)为例说明平均数与标准 差的计算步骤: 1、清零(清除计算器里以往存贮的数据): Shift clr 1 2、设置“SD”统计模式(单变量统计模式) MODE 2 3、输入数据:[L80DT DDD 园oDDi 4凶國HE囗□(原始数据平方和∑X2)结果为∑X2=25500
6 二、方差和标准差 方差和标准差描述一组数据的差异情况和离散程度的统计量。方差或标准差越小,表明 数据的离散程度越小,数据分布越集中整齐;反之,方差或标准差越大,表明数据离散程度 越大,数据分布越参差不齐。 方差指观测值与平均数差异平方和的算术平均数,常用符号 X 2 来表示,其计算:公 式为: ( ) 2 2 2 2 − = − = n X n X n X X X 式中, X 2 代表方差 X 代表平均数 ∑表示累加求和 X,X2 分别表示原始数据及其平方 n 表示观察值个数 标准差等于方差的算术平方根,常用符号 X 来表示,其计算公式为: X = ( ) n X − X 2 式中, X 代表标准差 如,数据 80、90、50、60、70, 其平均数 70 5 80 90 50 60 70 = + + + + X = 方差 200 5 (80 70) (90 70) (50 70) (60 70) (70 70) 2 2 2 2 2 2 = − + − + − + − + − X = 标准差 X = 200 = 14.14。 标准差在计算数据时,我们常使用到计算机或计算器,现以计算器(型号为 CASIO fx-82MS, fx-270MS,fx-83MS,fx-85MS,fx-300MS,fx-350MS,)为例说明平均数与标准 差的计算步骤: 1、清零(清除计算器里以往存贮的数据):Shift CLR 1 = 2、设置“SD”统计模式(单变量统计模式) : MODE 2 3、输入数据: 80 DT 90 DT 50 DT 60 DT 70 DT 4、AC SHIFT S-SUM 1 = (原始数据平方和 2 X ) 结果为 = 25500 2 X
四四s□2□(原始数据之和∑X)结果为∑X=350 四dHS国[(容量n 结果为n=5 HF-A[(平均数x) 结果为X=70 國Fw□(标准差ax) 结果为ax=14.14 将标准差ax平方后(方差a2x 结果为a2x=200 三、标准分数 我们知道,对单组数据的大小进行比较,可直接比较观察值(原始分数)的大小:然而, 要比较两组(或多组)数据的大小,由于各自的平均数和标准差有所不同,仅从原始分数中 我们很难得出科学结论。如,已知某次期末考试全班数学和物理的平均分分别为65和80, 标准差分别为5和10,某生数学得了70分,物理得了75分,问这两个分数孰高孰低?从原 始分数角度看,数学70比物理75低,然而,由于两科考试的内容及难度不一,各自的平均 分及标准差有所不同,同一分数在不同的科目中所具有的价值及表示的意义也就不一样,数 学70在班级中属较高水平,而物理75在班级中的水平为中下,这说明该生数学成绩比物理 成绩要好。为解决不同数组的比较问题,我们引入另一分数一一标准分数。 标准分数又称Z分数,是以标准差为单位来表示原始分在一组数据中所处相对位置的 统计量。Z分数的大小由观测值与平均数之差除以标准差来表示,其计算公式为 式中,Z代表标准分数 X、σx分别代表平均数、标准差 例如:甲乙两幼儿在语言、常识、计算测试中的成绩见下表,试分析谁的总成绩较好。 表10-3甲乙两幼儿语言、常识、计算测试成绩比较表 科目 原始分X 平均分 标准差 X 标准分Z 语言 59 51 2.25 0.25 常识 75 74 10 0.10 0.50 计算 71 8 -0.50 0.50 193 平均分643367.00 0.6167 0.4167
7 AC SHIFT S-SUM 2 = (原始数据之和 X ) 结果为 X = 350 AC SHIFT S-SUM 3 = (容量 n) 结果为 n=5 AC SHIFT S-VAR 1 = (平均数 X ) 结果为 X = 70 AC SHIFT S-VAR 2 = (标准差 X ) 结果为 X =14.14 将标准差 X 平方后 (方差 X 2 ) 结果为 X 2 =200 三、标准分数 我们知道,对单组数据的大小进行比较,可直接比较观察值(原始分数)的大小;然而, 要比较两组(或多组)数据的大小,由于各自的平均数和标准差有所不同,仅从原始分数中 我们很难得出科学结论。如,已知某次期末考试全班数学和物理的平均分分别为 65 和 80, 标准差分别为 5 和 10,某生数学得了 70 分,物理得了 75 分,问这两个分数孰高孰低?从原 始分数角度看,数学 70 比物理 75 低,然而,由于两科考试的内容及难度不一,各自的平均 分及标准差有所不同,同一分数在不同的科目中所具有的价值及表示的意义也就不一样,数 学 70 在班级中属较高水平,而物理 75 在班级中的水平为中下,这说明该生数学成绩比物理 成绩要好。为解决不同数组的比较问题,我们引入另一分数——标准分数。 标准分数又称 Z 分数,是以标准差为单位来表示原始分在一组数据中所处相对位置的 统计量。Z 分数的大小由观测值与平均数之差除以标准差来表示,其计算公式为: x X X Z − = 式中,Z 代表标准分数 X 、 X 分别代表平均数、标准差 例如:甲乙两幼儿在语言、常识、计算测试中的成绩见下表,试分析谁的总成绩较好。 表 10—3 甲乙两幼儿语言、常识、计算测试成绩比较表 科目 原始分 X 平均分 X 标准差 X 标准分 x X X Z − = 甲 乙 甲 乙 语言 常识 计算 59 75 63 51 79 71 50 74 67 4 10 8 2.25 0.10 -0.50 0.25 0.50 0.50 总计 193 201 1.85 1.25 平均分 64.33 67.00 0.6167 0.4167
从上表可看出:虽然幼儿乙的原始分数高于幼儿甲,但是通过和样本比较,将不可比的 原始分数转换成标准分数,幼儿甲平均标准分是0.6167,幼儿乙平均标准分是04167,幼儿 甲三科成绩标准分之和比幼儿乙高,说明幼儿甲的总成绩比幼儿乙好 四、相关系数 相关指变量之间的相互关系和联系程度,其大小常用相关系数来表示。相关系数取值介 于-1.00~1.00之间,其值的正负及大小反映了变量之间变化的方向和关系的紧密程度 按相关系数的正负符号来分,相关分为正相关、负相关和零相关 正相关表示一变量发生变化时,另一变量也发生同方向的变化。如身高与体重的关系是 正相关,对幼儿来说,身高增加,体重也随之增加;又如练习量与效果的关系也是正相关, 幼儿跳绳、拍球的练习量増加了,在跳绳、拍球活动中的得分随之提高ε 负相关表示一个变量发生变化时,另一变量发生反方向的变化。如幼儿身体健康水平与 缺勤率的关系是负相关,身体越健康,缺勤率越低,反之,身体状况越差,缺勤率也就越髙 又如练习量与错误率的关系也是负相关,幼儿练习量越多,其错误率也就越低。 零相关表示变量之间线性关系上相互独立,彼此没有关系,一变量变化并不一定引起另 变量的相应变化。如身高与学业成绩的关系是零相关,幼儿身体越高,其学业成绩未必就 越好或越差;又如幼儿的性格与其胖瘦的关系也属零相关。外向的幼儿,可能较胖,也可能 较瘦,内向的幼儿,也可能胖,也可能瘦 相关系数绝对值的大小表示变量关系的密切程度,绝对值越接近1,表示两变量的关系 越密切:绝对值越接近于0,表示两变量的关系越疏远。按绝对值的大小,相关可分为高度 相关、中度相关和低度相关。绝对值在07及以上的,称为高度相关;在0.3~0.7之间的 称为中度相关:03以下的,称为低度相关。 计算相关系数的方法很多,对于不同的数据类型,应采用不同的相关计算方法。在教育 研究中,最常用的相关是积差相关 当两个变量是连续的、成对的且变量的总体接近正态分布时,变量的关系常用积差相关 来表示,其符号为r,计算公式为: ∑X-Cx)∑r)m x2-(x/n∑-∑/ 式中,r表示积差相关系数 ∑表示累加求和 XY表示X与Y的积 X和Y分别表示变量X和变量Y的平均数 O,和O分别表示变量X和变量Y的标准差 表示变量X和变量y的成对数目 例如,10名5岁幼儿在语言x和常识y上的得分如下表第2、3列所示,求两者的相关 程度
8 从上表可看出:虽然幼儿乙的原始分数高于幼儿甲,但是通过和样本比较,将不可比的 原始分数转换成标准分数,幼儿甲平均标准分是 0.6167,幼儿乙平均标准分是 0.4167,幼儿 甲三科成绩标准分之和比幼儿乙高,说明幼儿甲的总成绩比幼儿乙好。 四、相关系数 相关指变量之间的相互关系和联系程度,其大小常用相关系数来表示。相关系数取值介 于-1.00~1.00 之间,其值的正负及大小反映了变量之间变化的方向和关系的紧密程度。 按相关系数的正负符号来分,相关分为正相关、负相关和零相关。 正相关表示一变量发生变化时,另一变量也发生同方向的变化。如身高与体重的关系是 正相关,对幼儿来说,身高增加,体重也随之增加;又如练习量与效果的关系也是正相关, 幼儿跳绳、拍球的练习量增加了,在跳绳、拍球活动中的得分随之提高。 负相关表示—个变量发生变化时,另一变量发生反方向的变化。如幼儿身体健康水平与 缺勤率的关系是负相关,身体越健康,缺勤率越低,反之,身体状况越差,缺勤率也就越高; 又如练习量与错误率的关系也是负相关,幼儿练习量越多,其错误率也就越低。 零相关表示变量之间线性关系上相互独立,彼此没有关系,一变量变化并不一定引起另 一变量的相应变化。如身高与学业成绩的关系是零相关,幼儿身体越高,其学业成绩未必就 越好或越差;又如幼儿的性格与其胖瘦的关系也属零相关。外向的幼儿,可能较胖,也可能 较瘦,内向的幼儿,也可能胖,也可能瘦。 相关系数绝对值的大小表示变量关系的密切程度,绝对值越接近 l,表示两变量的关系 越密切;绝对值越接近于 0,表示两变量的关系越疏远。按绝对值的大小,相关可分为高度 相关、中度相关和低度相关。绝对值在 0.7 及以上的,称为高度相关;在 0.3~0.7 之间的, 称为中度相关;0.3 以下的,称为低度相关。 计算相关系数的方法很多,对于不同的数据类型,应采用不同的相关计算方法。在教育 研究中,最常用的相关是积差相关。 当两个变量是连续的、成对的且变量的总体接近正态分布时,变量的关系常用积差相关 来表示,其符号为 r,计算公式为: ( )( ) ( ) ( ) − − − = X X n Y Y n XY X Y n r 2 2 2 2 , 式中,r 表示积差相关系数 ∑表示累加求和 XY 表示 X 与 Y 的积 X 和 Y 分别表示变量 X 和变量 Y 的平均数 x 和 y 分别表示变量 X 和变量 Y 的标准差 n 表示变量 X 和变量 y 的成对数目 例如,10 名 5 岁幼儿在语言 x 和常识 y 上的得分如下表第 2、3 列所示,求两者的相关 程度
表10-410名5岁幼儿语言与常识的成绩表 序 语言 常识 语言×常识(xy) X (4) (1) (2) 85 6400 7569 6960 7056 6084 6318 6 5776 7225 7055 7890总 8100 8836 8460 7921 8464 8188 8464 8096 计X=8y=8642x=40C=40x=721 从上表可求出,语言与常识的积差相关系数r 72761-838×864/10 0.90, 70440-8382/1074920-8642/10 两者存在高相关。 除此之外,我们也可用计算机或计算器,现以计算器( CASIO iX-82MS,fx-270MS fx-83Ms,fx-85MS,fx-300MS,fx-350MS)为例说明相关系数的计算步骤 1.设置统计模式 MOD国回(出现“REG”可以计算相关系数) 2.清零(清除计算器里以往存贮的数据) hE回日 3.输人数据 88 DT 8,184|DT DDD 4、r计算统计值 四 d sHIFt 5-vA区目得r相关系数r=090 在计算积差相关的过程中,研究者首先要注意其使用条件 1、连续性数据——两列变量都是由测量获得的连续变量。 2、呈正态分布一一两列变量的总体呈正态分布,或接近正态分布,至少是单峰对称分布
9 表 10—4 10 名 5 岁幼儿语言与常识的成绩表 序 号 (1) 语言 X (2) 常识 Y (3) 2 X (4) 2 Y (5) 语言 常识(xy) (6) 1 2 3 4 5 6 7 8 9 10 85 80 84 86 78 75 83 90 89 88 88 87 85 84 81 76 85 94 92 92 7225 6400 7056 7396 6084 5625 6889 8100 7921 7744 7744 7569 7225 7056 6561 5776 7225 8836 8464 8464 7480 6960 7140 7224 6318 5700 7055 8460 8188 8096 总 计 X = 838 Y = 864 = 70440 2 X 74920 2 Y = XY = 72621 从上表可求出,语言与常识的积差相关系数 r 0.90 70440 838 /10 74920 864 /10 72761 838 864/10 2 2 = − − − r = , 两者存在高相关。 除此之外,我们也可用计算机或计算器,现以计算器(CASIO fx-82MS,fx-270MS fx-83MS,fx-85MS,fx-300MS,fx-350MS )为例说明相关系数的计算步骤: 1.设置统计模式 MODE 3 1 (出现“REG”可以计算相关系数) 2.清零(清除计算器里以往存贮的数据) Shift CLR 1 = 3.输人数据 85 , 88 DT 80 , 87 DT 84 , 85 DT 86 , 84 DT 78 , 81 DT 75 , 76 DT 83 , 85 DT 90 , 94 DT 89 , 92 DT 88 , 92 DT 4、r 计算统计值 AC SHIFT S-VAR → → 3 = 得 r 相关系数 r=0.90 在计算积差相关的过程中,研究者首先要注意其使用条件: 1、连续性数据——两列变量都是由测量获得的连续变量。 2、呈正态分布——两列变量的总体呈正态分布,或接近正态分布,至少是单峰对称分布
3、数据必须成对,数据与数据间独立。 4、呈线性关系。 5、要排除共变因素的影响。 6、样本容量要大于等于30 在使用相关过程中,研究者需要明确如下三点: ①相关系数表示两个变量之间的关系程度,当两变量相关时,只表明二者之间存在某种 联系,但并不说明二者之间必然存在因果关系。例如儿童的语言与计算有相关,这不能说明 语言的好坏是导致计算好坏的原因,或计算的好坏是导致语言好坏的原因,二者相关完全有 可能是第三因素影响所致,如可能是儿童智力水平的影响 ②相关系数是用来衡量变量之间相关程度大小的统计量,它不代表一变量对另一变量直 接作用的比例。如要用相关系数来解释一变量对另一变量影响的百分比,需要用决定系数(决 定系数等于相关系数的平方)这一指标。如,知道幼儿语言与常识的相关系数为0.80,不能 认为常识的差异有80%是由语言的差异引起,而只能说:常识的差异有64%(=0.802)可由 语言的差异来解释 ③运用公式计算得到的积差相关系数是样本相关系数,至于总体相关系数是否相关,显 著性如何,必须经过统计假设检验才能正式确定。(统计假设检验部分专门介绍) 第四节推断统计 推断统计是在描述统计的基础上,在一定可靠性水平上,根据样本的统计量对总体参数 进行推断的统计方法。在教育研究中,涉及的总体包含的个体数目较大,我们不可能对所有 个体逐一进行考察,而通常依照某种抽样思想从总体中随机抽取一定数目的样本进行研究 然后根据样本的信息推断总体的情况,这样的统计方法叫做推断统讠 假设检验是常用的推断统计方法,它指研究者利用样本信息,根据一定的概率,对总体 参数或分布的某一假设进行拒绝或保留的决断。 假设检验包括参数检验与非参数检验。平均数差异显著性检验是常见的参数检验;卡方 (x2)检验是常见的非参数检验 在进行平均数差异显著性检验时,我们首先应对样本两个方面的信息进行考查 1.样本的性质,看两样本是相关样本还是独立样本 相关样本包括两种情况:(1)同一组被试在某项测验前测与后测中所获得的两组测验结 果:(2)根据一定条件,将被试一一配对,分别编入实验组与对照组,并对两组被试实施不 同的实验处理之后,用同一测验所获得的测验结果 2.样本的容量(样本中个体的数目),看样本是大样本还是小样本。 在统计上,我们常将两样本容量皆大于30(即nl>30且n2>30的样本称为大样本;如两 样本中有一样本的容量小于或等于30(即n1≤30或n2≤30),我们称这样的样本为小样本 对两平均数差异进行显著性检验,对于不同的样本性质和样本容量,我们所采用的检验 方法也不尽相同 、相关样本平均数差异显著性检验
10 3、数据必须成对,数据与数据间独立。 4、呈线性关系。 5、要排除共变因素的影响。 6、样本容量要大于等于 30。 在使用相关过程中,研究者需要明确如下三点: ①相关系数表示两个变量之间的关系程度,当两变量相关时,只表明二者之间存在某种 联系,但并不说明二者之间必然存在因果关系。例如儿童的语言与计算有相关,这不能说明 语言的好坏是导致计算好坏的原因,或计算的好坏是导致语言好坏的原因,二者相关完全有 可能是第三因素影响所致,如可能是儿童智力水平的影响。 ②相关系数是用来衡量变量之间相关程度大小的统计量,它不代表一变量对另一变量直 接作用的比例。如要用相关系数来解释一变量对另一变量影响的百分比,需要用决定系数(决 定系数等于相关系数的平方)这一指标。如,知道幼儿语言与常识的相关系数为 0.80,不能 认为常识的差异有 80%是由语言的差异引起,而只能说:常识的差异有 64%(=0.802 )可由 语言的差异来解释。 ③运用公式计算得到的积差相关系数是样本相关系数,至于总体相关系数是否相关,显 著性如何,必须经过统计假设检验才能正式确定。(统计假设检验部分专门介绍) 第四节 推断统计 推断统计是在描述统计的基础上,在一定可靠性水平上,根据样本的统计量对总体参数 进行推断的统计方法。在教育研究中,涉及的总体包含的个体数目较大,我们不可能对所有 个体逐一进行考察,而通常依照某种抽样思想从总体中随机抽取一定数目的样本进行研究, 然后根据样本的信息推断总体的情况,这样的统计方法叫做推断统计。 假设检验是常用的推断统计方法,它指研究者利用样本信息,根据一定的概率,对总体 参数或分布的某一假设进行拒绝或保留的决断。 假设检验包括参数检验与非参数检验。平均数差异显著性检验是常见的参数检验;卡方 ( 2 )检验是常见的非参数检验。 在进行平均数差异显著性检验时,我们首先应对样本两个方面的信息进行考查: 1.样本的性质,看两样本是相关样本还是独立样本; 相关样本包括两种情况:(1)同一组被试在某项测验前测与后测中所获得的两组测验结 果;(2)根据一定条件,将被试一一配对,分别编入实验组与对照组,并对两组被试实施不 同的实验处理之后,用同一测验所获得的测验结果。 2.样本的容量(样本中个体的数目),看样本是大样本还是小样本。 在统计上,我们常将两样本容量皆大于 30(即 n1>30 且 n2>30)的样本称为大样本;如两 样本中有一样本的容量小于或等于 30(即 n1≤30 或 n2≤30),我们称这样的样本为小样本。 对两平均数差异进行显著性检验,对于不同的样本性质和样本容量,我们所采用的检验 方法也不尽相同。 —、相关样本平均数差异显著性检验