第七章开发评测量表 进行教学分 修改教学 评价需求 开发教 开发和选择 确定目标 效目标 测量表 学策略 教学材料 教学的形成 性评价 分析学习者 和环境 设计并实施 目标 能说明标准参照评测的目的 ●能说明教学设计师会如何使用入门技能测试、前测和后测 能说出开发标准参照评测的四类质量评判原则,并列出每一类原则下要做的考虑 对于给定的各种教学目标,会写出满足所有四类原则的标准参照客观题 能为产品开发、现场表演和态度评估编写说明,开发评价学习者工作的评分标准 能评估教学目的、从属技能、学习者分析、环境分析、绩效目标和标准参照考试题的 致性 背景 成绩测验目前在美国正处于学校改革运动的前沿。一个新概念,以学生为中心的评测 ( learner- centered assessment),充斥着各种学校改革的文献,贝瑞(1998)将其定义为能促进 学习者学习的评测方法。在这个模型中,以学生为中心的评测任务,就像学习事件一样,鼓 励学习者参与自我评价,承担起对自己学习质量的责任 以学生为中心评测的定义与传统的标准参照考试的定义是一致的,后者是系统化设计所 产生的教学的核心组成。以学生为中心的评测一定是标准参照的(即与教学目的和由教学目 的派生的绩效目标集直接相关),标准参照考试因为不仅能评价学习者的进步,而且还能评 价教学的质量,因此非常重要。标准参照考试的结果准确地告诉了教师每个教学目标学习者 能够做到多好,也告诉了设计师教学的哪些部分不错,哪些部分还需要修改。此外,标准参 照考试还能让学习者通过运用已建立的评判标准来评价他们自己的工作而反思自己的表现
第七章 开发评测量表 目标 ⚫ 能说明标准参照评测的目的 ⚫ 能说明教学设计师会如何使用入门技能测试、前测和后测 ⚫ 能说出开发标准参照评测的四类质量评判原则,并列出每一类原则下要做的考虑 ⚫ 对于给定的各种教学目标,会写出满足所有四类原则的标准参照客观题 ⚫ 能为产品开发、现场表演和态度评估编写说明,开发评价学习者工作的评分标准 ⚫ 能评估教学目的、从属技能、学习者分析、环境分析、绩效目标和标准参照考试题的 一致性 背景 成绩测验目前在美国正处于学校改革运动的前沿。一个新概念,以学生为中心的评测 (learner-centered assessment),充斥着各种学校改革的文献,贝瑞(1998)将其定义为能促进 学习者学习的评测方法。在这个模型中,以学生为中心的评测任务,就像学习事件一样,鼓 励学习者参与自我评价,承担起对自己学习质量的责任。 以学生为中心评测的定义与传统的标准参照考试的定义是一致的,后者是系统化设计所 产生的教学的核心组成。以学生为中心的评测一定是标准参照的(即与教学目的和由教学目 的派生的绩效目标集直接相关),标准参照考试因为不仅能评价学习者的进步,而且还能评 价教学的质量,因此非常重要。标准参照考试的结果准确地告诉了教师每个教学目标学习者 能够做到多好,也告诉了设计师教学的哪些部分不错,哪些部分还需要修改。此外,标准参 照考试还能让学习者通过运用已建立的评判标准来评价他们自己的工作而反思自己的表现, 评价需求 确定目标 进行教学分 析 分析学习者 和环境 编写绩 效目标 修改教学 开发评 测量表 开发教 学策略 设计并实施 教学的形成 性评价 设计并实施 总结性评价 开发和选择 教学材料
这样的反思能促使学习者最终成为能为他们自己的学习质量负责任的人 你可能会奇怪为什么在教学设计过程的这个阶段就要设计考试题,而不是在教学开发完 成之后。主要原因是考试题必须与绩效目标一一对应。教学目标中所要求的行为必须与考试 题中的行为或要求完成的任务中的行为相匹配。同样地,这些发给学习者的考试题也会对教 学策略的开发产生影响。 在这一章里,我们将讨论设计师如何构造不同类型的评测量表。我们之所以用“评测” 一词而不是“考试”,是因为一提“考试”,往往联想到纸笔、多项选择题等等,而“评测” 内涵则更广些,包括各种可以让学习者证明他们是否掌握了新技能的活动。在设计过程的这 个阶段,还要为每个目标构造评测样例 概念 这章的主要概念是标准参照评测。标准参照评测由一组能够直接测定一个或多个绩效目 标中所描述的技能的题目或任务组成。之所以用标灌一词是因为这些评测题目可以作为标尺 来判断一个学习者的表现是否达到教学目标的要求,也就是说,通过了这些评测就表示学习 者已经达到了教学单元的教学目标。现在越来越多的是采用目标参照一词而不是标准参照 这一变化是为了更明显地指出评测和绩效目标之间的关系。评测的题目和任务直接对应教学 材料的教学目标中所描述的行为,因此你可以认为这两个术语本质上是同义词 标准一词的另一用处是说明行为需要掌握到的程度。这类用法的例子包括“学习者应该 正确回答所有题目”、“学习者应该遵循易燃液体安全存储的六个步骤”,“学习者能画出一个 5度锐角”,等等,这类标准说明可以是为一个绩效目标的一道考试题而写,也可以为一个 目标的多道考试题或多个目标的几道综合考试题而作。清楚说明的目标和恰当行为的评判标 准是构造合适的考题所必需的。基于特定的行为目标和所建立的评判标准,一个后测考试可 能只需要一道考试题,也可能需要多道考试题。 四类标准参照考试及其用途 设计师设计的考试主要有四种类型:入门技能测试、前测、练习或模拟测试,以及后测 每种考试类型在设计和传递教学的过程中都有不同的功用。下面我们就从设计教学的设计师 角度来看看每类考试,看看在教学设计过程中它们各要达到什么目的 入门技能测试第一类考试,入门技能测试,是在开始教学前对学习者的考试。这些标 准参照的考试题是为了评定学习者对预备技能,即学习者在教学开始前必须具备的技能的掌 握情况。预备技能是在教学分析图表中虚线以下的技能。如果一个教学单元需要入门技能, 那么就要设计考试题,在形成性评价时让学习者使用 你可能会发现,理论上也是这么说的,缺乏这些技能的学习者在教学中会感到非常吃力。 但是你可能也会发现,出于某些原因,有时入门技能对于教学的成功并不关键。如果在教学 分析的时候没有确定什么重要的入门技能,那么就没有必要开发相应的教学目标和考试题。 但是如果某些目标人群应该已经掌握的技能却有可能没有掌握,那么就要在入门技能考试中 测试这些被置疑的技能 前测前测的目的并不是如后测那样要显示教学后学习的收获,而是要参照教学分析
这样的反思能促使学习者最终成为能为他们自己的学习质量负责任的人。 你可能会奇怪为什么在教学设计过程的这个阶段就要设计考试题,而不是在教学开发完 成之后。主要原因是考试题必须与绩效目标一一对应。教学目标中所要求的行为必须与考试 题中的行为或要求完成的任务中的行为相匹配。同样地,这些发给学习者的考试题也会对教 学策略的开发产生影响。 在这一章里,我们将讨论设计师如何构造不同类型的评测量表。我们之所以用“评测” 一词而不是“考试”,是因为一提“考试”,往往联想到纸笔、多项选择题等等,而“评测” 内涵则更广些,包括各种可以让学习者证明他们是否掌握了新技能的活动。在设计过程的这 个阶段,还要为每个目标构造评测样例。 概念 这章的主要概念是标准参照评测。标准参照评测由一组能够直接测定一个或多个绩效目 标中所描述的技能的题目或任务组成。之所以用标准一词是因为这些评测题目可以作为标尺 来判断一个学习者的表现是否达到教学目标的要求,也就是说,通过了这些评测就表示学习 者已经达到了教学单元的教学目标。现在越来越多的是采用目标参照一词而不是标准参照, 这一变化是为了更明显地指出评测和绩效目标之间的关系。评测的题目和任务直接对应教学 材料的教学目标中所描述的行为,因此你可以认为这两个术语本质上是同义词。 标准一词的另一用处是说明行为需要掌握到的程度。这类用法的例子包括“学习者应该 正确回答所有题目”、“学习者应该遵循易燃液体安全存储的六个步骤”,“学习者能画出一个 5 度锐角”,等等,这类标准说明可以是为一个绩效目标的一道考试题而写,也可以为一个 目标的多道考试题或多个目标的几道综合考试题而作。清楚说明的目标和恰当行为的评判标 准是构造合适的考题所必需的。基于特定的行为目标和所建立的评判标准,一个后测考试可 能只需要一道考试题,也可能需要多道考试题。 四类标准参照考试及其用途 设计师设计的考试主要有四种类型:入门技能测试、前测、练习或模拟测试,以及后测。 每种考试类型在设计和传递教学的过程中都有不同的功用。下面我们就从设计教学的设计师 角度来看看每类考试,看看在教学设计过程中它们各要达到什么目的。 入门技能测试 第一类考试,入门技能测试,是在开始教学前对学习者的考试。这些标 准参照的考试题是为了评定学习者对预备技能,即学习者在教学开始前必须具备的技能的掌 握情况。预备技能是在教学分析图表中虚线以下的技能。如果一个教学单元需要入门技能, 那么就要设计考试题,在形成性评价时让学习者使用。 你可能会发现,理论上也是这么说的,缺乏这些技能的学习者在教学中会感到非常吃力。 但是你可能也会发现,出于某些原因,有时入门技能对于教学的成功并不关键。如果在教学 分析的时候没有确定什么重要的入门技能,那么就没有必要开发相应的教学目标和考试题。 但是如果某些目标人群应该已经掌握的技能却有可能没有掌握,那么就要在入门技能考试中 测试这些被置疑的技能。 前测 前测的目的并不是如后测那样要显示教学后学习的收获,而是要参照教学分析
了解学习者。前测( pretest)在教学开始之前实施,目的是要确定学习者是否已事先部分或全 部掌握了教学中要教的技能。确定学习者是否已部分或全部掌握了技能的原因是为了教学效 率。如果所有技能都已经掌握,那么教学就没有必要了。另一方面,如果只有部分技能被掌 握了,那么前测数据就可以使设计师更有效地创建教学。对于这部分已经掌握的技能只要做 些复习或简单的提醒即可,而将大量时间花在对其他技能的教学上,如举例、反复练习等 设计师还需要确定前测要评测哪些技能,这需要用到设计师的判断力,要选择最重要的 教学目标来考。决定要考什么技能,考几个技能,因教学目的和情况而异。前测中肯定要有 那么一道题或多道题是针对教学分析(包括教学目的)中所确定的关键技能的。 因为入门技能测试和前测都是在教学之前进行的,所以它们经常合二为一。尽管出现在 张卷子上,但并不表示它们是同一类或同样的测试。不同的题目评定教学目的流图上不同 的技能,设计师要基于学习者在这两类题目上的分数做出不同的决定。根据入门技能测试的 成绩,设计师要判断学习者是否已经做好了开始教学的准备;根据前测分数,设计师要决定 教学对于学习者来说是否太初级了,如果不是太初级,如何为特定人群开发最有效的教学 是不是一定要对所教的技能做前测?有时候并不需要。如果你知道你所教的内容对目标 人群来说是新的,如果你知道他们在前测的成绩只会是瞎猜的结果,那么就没必要做前测。 前测只有在一些学习者可能会具有所教内容的部分知识时才有价值。如果考试时间也是个问 题,那么就设计一个简短的前测,测定学期目标和几个关键的子 练习测试练习测试( practice tests)的目的是为了在教学中提供学习者主动参与的机会。 练习测试使学习者能够练习所学的新知识和新技能,自我判断自己的理解程度和技能水平 教师可以根据学习者的练习作业,提供指导反馈,并控制教学进度。一般来说,练习测试所 包含的技能少于前测和后测,主要是针对每节课的内容,而不是整个单元的内容 后测后测在教学之后进行,与前测相对,只是没有对入门技能的考题。与前测类似, 后测( postests)测定教学中所包括的目标。与这里所介绍的所有考试一样,设计师要能将所测 试的技能与后测中的考题对应起来 后测从教学目的分析中选取要评测的技能。按道理应该考所有目标,特别是学期目标 但是与前测一样,如果要测试所有从属技能,就会花很长的时间,也要求试题更加全面,出 更多的题目考更多的技能。如果时间有限,且必须开发简略的测试,那么学期目标和一些重 要的子技能是一定要考的,那些有可能造成学习者在学期目标上出问题的子技能也要考 最后后测可以用来评定学习者的表现,给出学习者完成课程应得到的分数。但是,后测 最初始的目的是为了帮助设计师确定教学中的不足之处。如果一个学习者没有完成学期目 标,设计师就要能够找出在学习过程的什么地方学习者开始听不懂了。通过逐题审查每道题 回答得是否正确,并且将每道题无论答对与否都与其对应的从属技能挂钩,设计师就能准确 地发现问题所在 在教学设计过程中会用到所有这四类测试。但是,在教学的形成性评价结束后,部分或 全部的入门技能测试和前测也就完成了使命,后测也可能会修改为只测试学期目标。总之 在教学设计和开发完成之后花在测试上的时间就不会这么多了。下表总结了每种测试类型 设计决策及每类测试所包含的典型目标 测试类型 设计者决策 要测试的目标 入门技能测试·学习者是否已经做好了开始学习的准·预备技能以及在教学分
了解学习者。前测(pretest)在教学开始之前实施,目的是要确定学习者是否已事先部分或全 部掌握了教学中要教的技能。确定学习者是否已部分或全部掌握了技能的原因是为了教学效 率。如果所有技能都已经掌握,那么教学就没有必要了。另一方面,如果只有部分技能被掌 握了,那么前测数据就可以使设计师更有效地创建教学。对于这部分已经掌握的技能只要做 一些复习或简单的提醒即可,而将大量时间花在对其他技能的教学上,如举例、反复练习等 等。 设计师还需要确定前测要评测哪些技能,这需要用到设计师的判断力,要选择最重要的 教学目标来考。决定要考什么技能,考几个技能,因教学目的和情况而异。前测中肯定要有 那么一道题或多道题是针对教学分析(包括教学目的)中所确定的关键技能的。 因为入门技能测试和前测都是在教学之前进行的,所以它们经常合二为一。尽管出现在 一张卷子上,但并不表示它们是同一类或同样的测试。不同的题目评定教学目的流图上不同 的技能,设计师要基于学习者在这两类题目上的分数做出不同的决定。根据入门技能测试的 成绩,设计师要判断学习者是否已经做好了开始教学的准备;根据前测分数,设计师要决定 教学对于学习者来说是否太初级了,如果不是太初级,如何为特定人群开发最有效的教学。 是不是一定要对所教的技能做前测?有时候并不需要。如果你知道你所教的内容对目标 人群来说是新的,如果你知道他们在前测的成绩只会是瞎猜的结果,那么就没必要做前测。 前测只有在一些学习者可能会具有所教内容的部分知识时才有价值。如果考试时间也是个问 题,那么就设计一个简短的前测,测定学期目标和几个关键的子目标。 练习测试 练习测试(practice tests)的目的是为了在教学中提供学习者主动参与的机会。 练习测试使学习者能够练习所学的新知识和新技能,自我判断自己的理解程度和技能水平。 教师可以根据学习者的练习作业,提供指导反馈,并控制教学进度。一般来说,练习测试所 包含的技能少于前测和后测,主要是针对每节课的内容,而不是整个单元的内容。 后测 后测在教学之后进行,与前测相对,只是没有对入门技能的考题。与前测类似, 后测(postests)测定教学中所包括的目标。与这里所介绍的所有考试一样,设计师要能将所测 试的技能与后测中的考题对应起来。 后测从教学目的分析中选取要评测的技能。按道理应该考所有目标,特别是学期目标。 但是与前测一样,如果要测试所有从属技能,就会花很长的时间,也要求试题更加全面,出 更多的题目考更多的技能。如果时间有限,且必须开发简略的测试,那么学期目标和一些重 要的子技能是一定要考的,那些有可能造成学习者在学期目标上出问题的子技能也要考。 最后后测可以用来评定学习者的表现,给出学习者完成课程应得到的分数。但是,后测 最初始的目的是为了帮助设计师确定教学中的不足之处。如果一个学习者没有完成学期目 标,设计师就要能够找出在学习过程的什么地方学习者开始听不懂了。通过逐题审查每道题 回答得是否正确,并且将每道题无论答对与否都与其对应的从属技能挂钩,设计师就能准确 地发现问题所在。 在教学设计过程中会用到所有这四类测试。但是,在教学的形成性评价结束后,部分或 全部的入门技能测试和前测也就完成了使命,后测也可能会修改为只测试学期目标。总之, 在教学设计和开发完成之后花在测试上的时间就不会这么多了。下表总结了每种测试类型、 设计决策及每类测试所包含的典型目标。 测试类型 设计者决策 要测试的目标 入门技能测试 ⚫ 学习者是否已经做好了开始学习的准 ⚫ 预备技能以及在教学分
备 析图中虚线以下的技能 学习者是否具备所需要的预备技能? 前测 学习者是否已掌握了要教的技能? 学期目标 他们已掌握了哪些技能 目标分析中的主要步骤 我怎样才能最有效地开发这个教学? 练习测试 学习者是否已具备了要学的知识和技·完成目的中目标子集所 能? 需要的知识和技能 他们犯了什么错误,哪些概念认识有●只限一堂课,不是整个单 教学内容分簇是否适当? ●教学进度对学习者是否合适? 后测 学习者是否达到了学期目标? 学期目标 每个主要目标和每个从属目标的教学●主要步骤及其从属技能 是否都有效? 教学在哪些方面需要改进? 学习者是否掌握了所期望的知识、技 能和态度? 设计考试 那么该如何设计和开发一个标准参照考试呢?一个主要的考虑是确定学习领域对应的 考试题目类型或者要评测的任务类型。言语信息领域的目标一般采用客观题,如简答题、选 择题、匹配题和多项选择题。评判学习者的言语信息类回答相对比较容易,而无论这种回答 是手写的还是口头陈述的,因此也就容易判断学习者是否掌握了言语信息目标:学习者要么 能想起答案,要么就什么也答不出来。 智慧技能领域的目标要复杂一些,它们一般来说不是用客观题评判,就是要制作作品(如 音乐成绩、研究报告、手工制品),或给出某种类型的现场表演(如,指挥乐队,演戏,或 召开业务会议)。对于高级智慧技能,很难设计出考试题或评测任务,也很难判断一个回答 是否合适。如果一个目标需要学习者产生唯一的解法或做出同样的作品该怎么办?这时候你 就需要写出操作说明,让学习者照着做,同时建立一套标准来判断学习者完成的质量,而且 还要将这些标准转变成核查表或等级量表,我们常称之为评分标准 态度领域的评测也很复杂,情感目标一般与学习者的态度或偏好有关。通常没有直接的 方式来判断一个人的态度(如,他们是否支持组织多元化)。态度目标的考题或者需要学习者 陈述他们的偏好,或者要求教师观察学习者的行为,通过他们的行动推论他们的态度。例如, 如果学习者在三个不同的场合都主动参与对少数民族雇员提职的支持活动,那么教师就可以 推断他们是支持多元化的。根据这些偏好陈述和所观察到的行为,是可以对态度做出推论的。 心智运动领域目标的考试题一般都是关于如何执行任务的指令集,要求学习者顺序执行 串步骤,这些步骤在一起体现了教学目的。另外,还要确定可接受行为的标准,并将这些 标准转化为核査表或等级量表,教师可以用这些量表来判断每一步执行得怎么样。核查表也 可以直接根据教学分析确定的技能及其执行质量来产生。设计师可能还想测试运动技能的从 属技能,这些经常都是智慧技能或言语信息,可以在学习者做心智运动技能之前用客观题测 试。有时候,执行一个心智运动技能的结果是做了一个产品,如制作一个陶壶,这可以通过
备? ⚫ 学习者是否具备所需要的预备技能? 析图中虚线以下的技能 前测 ⚫ 学习者是否已掌握了要教的技能? ⚫ 他们已掌握了哪些技能? ⚫ 我怎样才能最有效地开发这个教学? ⚫ 学期目标 ⚫ 目标分析中的主要步骤 练习测试 ⚫ 学习者是否已具备了要学的知识和技 能? ⚫ 他们犯了什么错误,哪些概念认识有 误? ⚫ 教学内容分簇是否适当? ⚫ 教学进度对学习者是否合适? ⚫ 完成目的中目标子集所 需要的知识和技能 ⚫ 只限一堂课,不是整个单 元 后测 ⚫ 学习者是否达到了学期目标? ⚫ 每个主要目标和每个从属目标的教学 是否都有效? ⚫ 教学在哪些方面需要改进? ⚫ 学习者是否掌握了所期望的知识、技 能和态度? ⚫ 学期目标 ⚫ 主要步骤及其从属技能 设计考试 那么该如何设计和开发一个标准参照考试呢?一个主要的考虑是确定学习领域对应的 考试题目类型或者要评测的任务类型。言语信息领域的目标一般采用客观题,如简答题、选 择题、匹配题和多项选择题。评判学习者的言语信息类回答相对比较容易,而无论这种回答 是手写的还是口头陈述的,因此也就容易判断学习者是否掌握了言语信息目标:学习者要么 能想起答案,要么就什么也答不出来。 智慧技能领域的目标要复杂一些,它们一般来说不是用客观题评判,就是要制作作品(如 音乐成绩、研究报告、手工制品),或给出某种类型的现场表演(如,指挥乐队,演戏,或 召开业务会议)。对于高级智慧技能,很难设计出考试题或评测任务,也很难判断一个回答 是否合适。如果一个目标需要学习者产生唯一的解法或做出同样的作品该怎么办?这时候你 就需要写出操作说明,让学习者照着做,同时建立一套标准来判断学习者完成的质量,而且 还要将这些标准转变成核查表或等级量表,我们常称之为评分标准。 态度领域的评测也很复杂,情感目标一般与学习者的态度或偏好有关。通常没有直接的 方式来判断一个人的态度(如,他们是否支持组织多元化)。态度目标的考题或者需要学习者 陈述他们的偏好,或者要求教师观察学习者的行为,通过他们的行动推论他们的态度。例如, 如果学习者在三个不同的场合都主动参与对少数民族雇员提职的支持活动,那么教师就可以 推断他们是支持多元化的。根据这些偏好陈述和所观察到的行为,是可以对态度做出推论的。 心智运动领域目标的考试题一般都是关于如何执行任务的指令集,要求学习者顺序执行 一串步骤,这些步骤在一起体现了教学目的。另外,还要确定可接受行为的标准,并将这些 标准转化为核查表或等级量表,教师可以用这些量表来判断每一步执行得怎么样。核查表也 可以直接根据教学分析确定的技能及其执行质量来产生。设计师可能还想测试运动技能的从 属技能,这些经常都是智慧技能或言语信息,可以在学习者做心智运动技能之前用客观题测 试。有时候,执行一个心智运动技能的结果是做了一个产品,如制作一个陶壶,这可以通过
开发一套标准来评判这个产品做得如何,以此作为对该心智运动技能的评测 确定掌握水平 对于你所写的每个行为目标,都应该有一个达标陈述,即要说明学习者在你所提供的考 试中对于目标所描述的技能必须要做到多好。实际上,这个标准也就是要求学习者的掌握水 平。但是掌握水平的概念,相对于达标水平,更多地是用在对整个教学单元或整个课程的考 试中。一个教师可能需要说明,学习者为了“掌握”这个单元,他们必须要达到的行为水平。 问题是:“你如何确定掌握水平该有多高?” 研究掌握学习系统的研究者提出掌握度应该等于对最好的学习者所期望的行为水准。这 种定义掌握度的方法显然是常模参照的(即小组比较方法),但是有时候这也是唯一可用的 评判标准 第二种定义掌握度的方法是靠统计。如果设计师想在进入下一个教学单元前确认学习者 真的掌握了”某项技能,那么就要提供足够的机会让学习者运用这个技能,从而使得技能 的正确实施不是偶然为之。当使用多项选择题的时候,很容易就能计算岀这组题正确答案被 猜中的概率,对于其它类型的考试题,可能很难计算猜中的概率,因此很容易说服他人成功 不是偶然的。但是仅仅超过行为发生的偶然率,可能不能算作一个好的掌握水平,但比随机 率高多少合适经常也是很武断的决定。 设置掌握水平的理想情况是存在着精确且明显的行为水平,可以以此定义掌握度。比如 士兵为了能够发送加密信息,必须要学会拼写标准的军用词汇。在这种情形下,一个教拼写 军用词汇的单元其掌握水平就应该设为100%,这完全不是随意的,因为该技能非常重要, 它是学习后续技能的基础。该技能与后续技能的关系越紧密,掌握水平就要定得越高。作为 个一般性的原则,任何行为的掌握水平的确定都不仅要评价在此时此刻该行为的质量,还 要考虑到其对本单元及课程剩余部分相关技能学习的影响。 在某些情况下,掌握度的最佳定义就是成功完成工作所需要的水平。对于许多复杂技能 来说,其实施水平是连续分布的,新手在一端,有经验的专家在另一端。工作场合或者学习 者最终被期望完成的任务应该达到什么水平呢?在这方面,环境分析的结果可以就所希望的 行为水平提供有用的信息,因此可以用在标准参照评测的设计过程中。但是如果目前在工作 场合没有人使用这些技能,那么管理人员或领域专家就必须运用他们的专业判断来估计掌握 水平了。如果掌握水平被证明不切实际,以后还可以再作调整 编写考试题 无论教学目标中包含的是哪类学习类型,开发标准参照考试题都需要一些考题编写技 巧。一般来说,在编写考试题或评测任务的时候,要从四个方面考虑考试题的质量,即以目 的为中心的原则、以学生为中心的原则、以环境为中心的原则和以评测为中心的原则。下面 分别介绍了各类质量原则 以目的为中心的原则考试题以及评测任务应该与学期目标和绩效目标一致,要符合在 目标中规定的行为,包括动作和概念。为了将考题的回答与目标中说明的特定行为对应,设 计师必须要考虑学习任务或在目标中规定的动词。对于要求学习者陈述或者定义,或者按照
开发一套标准来评判这个产品做得如何,以此作为对该心智运动技能的评测。 确定掌握水平 对于你所写的每个行为目标,都应该有一个达标陈述,即要说明学习者在你所提供的考 试中对于目标所描述的技能必须要做到多好。实际上,这个标准也就是要求学习者的掌握水 平。但是掌握水平的概念,相对于达标水平,更多地是用在对整个教学单元或整个课程的考 试中。一个教师可能需要说明,学习者为了“掌握”这个单元,他们必须要达到的行为水平。 问题是:“你如何确定掌握水平该有多高?” 研究掌握学习系统的研究者提出掌握度应该等于对最好的学习者所期望的行为水准。这 种定义掌握度的方法显然是常模参照的(即小组比较方法),但是有时候这也是唯一可用的 评判标准。 第二种定义掌握度的方法是靠统计。如果设计师想在进入下一个教学单元前确认学习者 “真的掌握了”某项技能,那么就要提供足够的机会让学习者运用这个技能,从而使得技能 的正确实施不是偶然为之。当使用多项选择题的时候,很容易就能计算出这组题正确答案被 猜中的概率,对于其它类型的考试题,可能很难计算猜中的概率,因此很容易说服他人成功 不是偶然的。但是仅仅超过行为发生的偶然率,可能不能算作一个好的掌握水平,但比随机 率高多少合适经常也是很武断的决定。 设置掌握水平的理想情况是存在着精确且明显的行为水平,可以以此定义掌握度。比如 士兵为了能够发送加密信息,必须要学会拼写标准的军用词汇。在这种情形下,一个教拼写 军用词汇的单元其掌握水平就应该设为 100%,这完全不是随意的,因为该技能非常重要, 它是学习后续技能的基础。该技能与后续技能的关系越紧密,掌握水平就要定得越高。作为 一个一般性的原则,任何行为的掌握水平的确定都不仅要评价在此时此刻该行为的质量,还 要考虑到其对本单元及课程剩余部分相关技能学习的影响。 在某些情况下,掌握度的最佳定义就是成功完成工作所需要的水平。对于许多复杂技能 来说,其实施水平是连续分布的,新手在一端,有经验的专家在另一端。工作场合或者学习 者最终被期望完成的任务应该达到什么水平呢?在这方面,环境分析的结果可以就所希望的 行为水平提供有用的信息,因此可以用在标准参照评测的设计过程中。但是如果目前在工作 场合没有人使用这些技能,那么管理人员或领域专家就必须运用他们的专业判断来估计掌握 水平了。如果掌握水平被证明不切实际,以后还可以再作调整。 编写考试题 无论教学目标中包含的是哪类学习类型,开发标准参照考试题都需要一些考题编写技 巧。一般来说,在编写考试题或评测任务的时候,要从四个方面考虑考试题的质量,即以目 的为中心的原则、以学生为中心的原则、以环境为中心的原则和以评测为中心的原则。下面 分别介绍了各类质量原则。 以目的为中心的原则 考试题以及评测任务应该与学期目标和绩效目标一致,要符合在 目标中规定的行为,包括动作和概念。为了将考题的回答与目标中说明的特定行为对应,设 计师必须要考虑学习任务或在目标中规定的动词。对于要求学习者陈述或者定义,或者按照
指示做,或者独立完成的教学目标,其所要求的考试题目类型和答题形式也都是完全不同的。 在出考试题时很重要的一点是考试题要精确地测定目标中所说明的行为,例如,如果目 标是要求学习者能够将概念说明和概念术语对应,那么考试题就必须要包括概念的说明和 组术语,要求学习者做匹配 让我们来看一个例子。给你一个刻度被十等分的标尺,要求说出标尺上指定点的刻度, 精确到0.1。对应这个目标的考试题如下: A ++++++ 2.0 1.A点所在刻度是多少? 2.B点所在刻度是多少? 你可以看出这个例子对应的教学目标是要求学习者能够精确读出一个整刻度分成了十 等分的标尺上任一点的刻度。考试题给学习者一个这样的标尺,还给出了两个字母表示标尺 上的两个指定点。学习者必须要能够指出每个点的刻度值,并精确到十分位。 你在各个课程的练习部分和考试卷上都会碰到很多这样的题目。非常重要的一点是一定 要十分注意目标中的动词所描述的行为。如果动词是匹配、列出、选排、或描述,那么你就 必须要出这样的考试题,要求学习者去匹配、列出、选择、或描述。目标决定了题目的特点, 你不能随意决定题目的形式,比如用多项选择题来评测上面的目标,试题和题目格式一定要 根据目标的措词 考试题和评测任务还应该满足目标中说明的条件,如果目标中规定了题目形式、设备、 模拟环境或资源,那么在评测的时候也要提供这些资源和设备。开卷考试与闭卷考试很不 样,因为后者不能看参考资料。绩效目标中所包含的对行为完成条件的说明是出题人必须依 据的指南 考试题和评测任务还要为学习者提供机会来证明其掌握了目标,达到了目标的要求。出 题人必须要决定为了判断一个目标是否掌握了需要对此目标出几道题,是不是该目标的所有 要求都被覆盖了,这可以用核查表或等级量表来帮助防漏 行为目标一般还包括用来判断技能掌握程度的评判标准,对于行为评判标准是否要提供 给学习者并没有绝对的说法。有时候学习者必须知道行为评判标准,有时候不需要,学习者 通常的认识是为了得分,他们必须要答对。 以学生为中心的原则考试题和评测任务必须要适合学习者的特点和需求。这方面的编 写原则包括要考虑学习者的词汇量,根据其语言水平和发展水平来设置适当的任务复杂度 另外还要考虑学习者的动机和兴趣水平,其经验和背景,以及特殊的需求。 答题指示中的词汇以及考试题本身的词汇应与目标学习者的水平相当,不能按照设计师 的语言水平来出题,除非该语言水平就是目标学习者的水平。学习者可不愿意因为不认识的 术语而答不出题。如果某个术语的定义是完成技能所必需的,那么在教学中就应该教这些定 义。缺乏必要的术语和定义也是出题时经常犯的错误 另外一个考虑是题目要与学习者熟悉的环境和经历有关,学习者不能因为被要求在不熟 悉环境下做题,或者因为不熟悉考题形式而做不出题。将一个所期望的行为放在不熟悉的环 境下去完成会不必要的增加题目的难度。如果真的这么做了,那么设计师就不仅在测试所期
指示做,或者独立完成的教学目标,其所要求的考试题目类型和答题形式也都是完全不同的。 在出考试题时很重要的一点是考试题要精确地测定目标中所说明的行为,例如,如果目 标是要求学习者能够将概念说明和概念术语对应,那么考试题就必须要包括概念的说明和一 组术语,要求学习者做匹配。 让我们来看一个例子。给你一个刻度被十等分的标尺,要求说出标尺上指定点的刻度, 精确到 0.1。对应这个目标的考试题如下: 1. A 点所在刻度是多少? 2. B 点所在刻度是多少? 你可以看出这个例子对应的教学目标是要求学习者能够精确读出一个整刻度分成了十 等分的标尺上任一点的刻度。考试题给学习者一个这样的标尺,还给出了两个字母表示标尺 上的两个指定点。学习者必须要能够指出每个点的刻度值,并精确到十分位。 你在各个课程的练习部分和考试卷上都会碰到很多这样的题目。非常重要的一点是一定 要十分注意目标中的动词所描述的行为。如果动词是匹配、列出、选择、或描述,那么你就 必须要出这样的考试题,要求学习者去匹配、列出、选择、或描述。目标决定了题目的特点, 你不能随意决定题目的形式,比如用多项选择题来评测上面的目标,试题和题目格式一定要 根据目标的措词。 考试题和评测任务还应该满足目标中说明的条件,如果目标中规定了题目形式、设备、 模拟环境或资源,那么在评测的时候也要提供这些资源和设备。开卷考试与闭卷考试很不一 样,因为后者不能看参考资料。绩效目标中所包含的对行为完成条件的说明是出题人必须依 据的指南。 考试题和评测任务还要为学习者提供机会来证明其掌握了目标,达到了目标的要求。出 题人必须要决定为了判断一个目标是否掌握了需要对此目标出几道题,是不是该目标的所有 要求都被覆盖了,这可以用核查表或等级量表来帮助防漏。 行为目标一般还包括用来判断技能掌握程度的评判标准,对于行为评判标准是否要提供 给学习者并没有绝对的说法。有时候学习者必须知道行为评判标准,有时候不需要,学习者 通常的认识是为了得分,他们必须要答对。 以学生为中心的原则 考试题和评测任务必须要适合学习者的特点和需求。这方面的编 写原则包括要考虑学习者的词汇量,根据其语言水平和发展水平来设置适当的任务复杂度, 另外还要考虑学习者的动机和兴趣水平,其经验和背景,以及特殊的需求。 答题指示中的词汇以及考试题本身的词汇应与目标学习者的水平相当,不能按照设计师 的语言水平来出题,除非该语言水平就是目标学习者的水平。学习者可不愿意因为不认识的 术语而答不出题。如果某个术语的定义是完成技能所必需的,那么在教学中就应该教这些定 义。缺乏必要的术语和定义也是出题时经常犯的错误。 另外一个考虑是题目要与学习者熟悉的环境和经历有关,学习者不能因为被要求在不熟 悉环境下做题,或者因为不熟悉考题形式而做不出题。将一个所期望的行为放在不熟悉的环 境下去完成会不必要的增加题目的难度。如果真的这么做了,那么设计师就不仅在测试所期 1.0 2.0 A B
望的行为,而且还在测试其它不相关的行为。即使是一道普通的练习题,这样出题也不合适 学习者越不熟悉所举的例子、题型、答卷格式和考试管理流程,就越难通过考试。这种人为 制造困难的一个典型例子就是编造一个不熟悉的环境下发生的问题。问题发生的情境,无论 是海滩、商店、还是学校,办公室,都应该是目标人群所熟悉的,学习者对熟悉的话题比不 熟悉的话题能更好地展示其技能。如果一个题目出得不必要得难,就可能会损害对问题中所 要评测行为的精确测定 设计师在出考试题和评测任务的时候还要注意性别问题和多元文化问题。题文如果出现 偏见或在统计上出现对某组人的冒犯不仅是不合适的,也是不道德的。最后,设计师还要考 虑如何帮助学习者对自己进行评估,自我评估和自我改造是所有教学的两大主要目的,因为 这会导致自主学习 以环境为中心的原则在出考试题和评估任务的时候,设计师还必须要考虑到最终的应 用环境,以及学习环境或课堂环境。考试题和任务对实际应用环境来说应该尽可能地真实 可信。这类原则可以促进知识和技能从学习环境向应用环境迁移。 另外还要考虑学习环境的设施和资源,有时候学习环境不能提供精确模拟应用条件所必 需的设备,设计师必须创造性地提供与现实尽可能接近的条件。考试环境越真实,学习者的 回答也就越可信。例如,如果行为是要求在一个观众面前做表演,那么考试的时候就必须要 有一个观众在场 以评测为中心的原则学习者在考试的时候可能会紧张,但是结构良好、专业编制的考 试题和评测任务会让考试变得更为轻松。考试题的编写质量包括正确语法、正确拼写和标点 简洁明确的答题指示、资源材料和题目等 为了确保题目和任务清楚,减轻学习者的考试紧张感,在学习者答题之前应该为学习者 提供他们解题所必需的所有信息。理想的情况是,学习者阅读问题和做题说明,在头脑中形 成答案,然后给出回答,或者在一串选项中挑出答案。 那些故意绕学习者的题目并不是在评测教学目标中说明的技能,设计师应该花时间编制 好的模拟题目,而不是发明这些偏题、怪题。如果教学目标是确定学习者完成技能的程度, 那么提供一系列由易到难的题目,比出一、两道难题(如,双重否定,误导信息,嵌套问题, 不完整信息等)更能测出学习者的实际水平 对于各种类型的客观题、作品和行为的操作指示以及评判标准该怎么写,还有很多规则, 这些规则多是为了尽可能地产生最清楚的题目和评测任务而提出的。学习者应该因为不具有 某项技能而出错,但不应该因为考试题目太绕或太混乱而丢分。不熟悉考题和做题说明编写 原则的设计师应该去看一些有关标准参照测量的书籍,上面会有关于各种评测格式的书写原 确定掌握标准 在编制试卷的时候,总是要问这个问题:“为了确定一个目标是否掌握了需要出几道 题?”,学习者必须要答对多少道题才算成功地完成了这个目标?如果学习者答对了一道题, 你是否可以说他们达到了目标?或者,如果他们做错了一道题,你是否能确定他们就没有掌 握这个概念?如果你为每个目标出了十道题,学习者全做对了或全做错了,恐怕也只有在这 种情况下你才能很确定地给出评测的结论。关于一个目标需要出几道题,有一些经验数据
望的行为,而且还在测试其它不相关的行为。即使是一道普通的练习题,这样出题也不合适。 学习者越不熟悉所举的例子、题型、答卷格式和考试管理流程,就越难通过考试。这种人为 制造困难的一个典型例子就是编造一个不熟悉的环境下发生的问题。问题发生的情境,无论 是海滩、商店、还是学校,办公室,都应该是目标人群所熟悉的,学习者对熟悉的话题比不 熟悉的话题能更好地展示其技能。如果一个题目出得不必要得难,就可能会损害对问题中所 要评测行为的精确测定。 设计师在出考试题和评测任务的时候还要注意性别问题和多元文化问题。题文如果出现 偏见或在统计上出现对某组人的冒犯不仅是不合适的,也是不道德的。最后,设计师还要考 虑如何帮助学习者对自己进行评估,自我评估和自我改造是所有教学的两大主要目的,因为 这会导致自主学习。 以环境为中心的原则 在出考试题和评估任务的时候,设计师还必须要考虑到最终的应 用环境,以及学习环境或课堂环境。考试题和任务对实际应用环境来说应该尽可能地真实、 可信。这类原则可以促进知识和技能从学习环境向应用环境迁移。 另外还要考虑学习环境的设施和资源,有时候学习环境不能提供精确模拟应用条件所必 需的设备,设计师必须创造性地提供与现实尽可能接近的条件。考试环境越真实,学习者的 回答也就越可信。例如,如果行为是要求在一个观众面前做表演,那么考试的时候就必须要 有一个观众在场。 以评测为中心的原则 学习者在考试的时候可能会紧张,但是结构良好、专业编制的考 试题和评测任务会让考试变得更为轻松。考试题的编写质量包括正确语法、正确拼写和标点, 简洁明确的答题指示、资源材料和题目等。 为了确保题目和任务清楚,减轻学习者的考试紧张感,在学习者答题之前应该为学习者 提供他们解题所必需的所有信息。理想的情况是,学习者阅读问题和做题说明,在头脑中形 成答案,然后给出回答,或者在一串选项中挑出答案。 那些故意绕学习者的题目并不是在评测教学目标中说明的技能,设计师应该花时间编制 好的模拟题目,而不是发明这些偏题、怪题。如果教学目标是确定学习者完成技能的程度, 那么提供一系列由易到难的题目,比出一、两道难题(如,双重否定,误导信息,嵌套问题, 不完整信息等)更能测出学习者的实际水平。 对于各种类型的客观题、作品和行为的操作指示以及评判标准该怎么写,还有很多规则, 这些规则多是为了尽可能地产生最清楚的题目和评测任务而提出的。学习者应该因为不具有 某项技能而出错,但不应该因为考试题目太绕或太混乱而丢分。不熟悉考题和做题说明编写 原则的设计师应该去看一些有关标准参照测量的书籍,上面会有关于各种评测格式的书写原 则。 确定掌握标准 在编制试卷的时候,总是要问这个问题:“为了确定一个目标是否掌握了需要出几道 题?”,学习者必须要答对多少道题才算成功地完成了这个目标?如果学习者答对了一道题, 你是否可以说他们达到了目标?或者,如果他们做错了一道题,你是否能确定他们就没有掌 握这个概念?如果你为每个目标出了十道题,学习者全做对了或全做错了,恐怕也只有在这 种情况下你才能很确定地给出评测的结论。关于一个目标需要出几道题,有一些经验数据
如果考试题的回答形式允许学习者猜测,那么你对同一个目标最好出几道同类的题,如果猜 对的几率很小,那么出一两道题就足以判断学习者是否具有完成该技能的能力 如果从教学目标的学习类型方面来考虑每个目标要出的题目数目,可能会比较容易地做 出判断。一般来说,要评估智慧技能,需要三次以上的机会来证实是否具有该技能,对于言 语信息,从记忆中检索特定的信息只要一道题就够了。但是如果信息对象内容很多(如,确 定州府),那么设计师就必须从中随机挑选几个实例,并假定学习者的表现就代表着这个要 掌握的言语信息对象的掌握比例。在心智运动技能情况下,经常也只有一种方式测试技能, 即要学习者在考官面前完成该技能。有时候教学目标可能还会要求学习者在不同的条件下完 成该技能,这可以表示为重复该心智运动技能。 题型 在出考试题的时候另一个需要考虑的重要问题是:“哪种类型的考试题或评测任务最能 测出学习者的表现?”目标中说明的行为为确定评测该行为的试题类型提供了线索。表7.1 中最左边一列列出了行为目标中说明的行为的类型,表的第一行给出了可以用来评测学习者 表现的考题题型。这个表只是提供一些建议,说明目标的特点如何决定了最合适的评测类型。 表71行为类型和相关的题目类型 考题类型 目标中的简答题填空题完型填空多选题匹配题作品现场表现 行为类型 核查表核查表 说明 确定 讨论 定义 选择 区分 解决 开发 定位 构造 产生 操作/运行 选择(态 正如图上所显示的,有些类型的行为可以有多种评测方式,有些考题类型比其它类型更 适合考某类行为。例如,如果认为学习者记住某个事实很重要,那么要求他们说出这个事实, 比要他们从多项选择题中选择更好。应该以教学目标为指南,选择那些能够给学习者提供更 好的机会来展示目标中所要求的行为的题型。在选择最佳考试题型的时候还要考虑一些其他 因素,因为每类考试题都有它的优点和局限。为了从那些可用的题型中挑选出最佳题型,还 可以考虑下列一些因素:学习者答题所需要的时间、批改所需要的时间,考试环境和猜中正 确答案的机率。 有些题目形式虽然能加速考试过程,但是并不合适采用,比如为了判断学习者是否知道
如果考试题的回答形式允许学习者猜测,那么你对同一个目标最好出几道同类的题,如果猜 对的几率很小,那么出一两道题就足以判断学习者是否具有完成该技能的能力。 如果从教学目标的学习类型方面来考虑每个目标要出的题目数目,可能会比较容易地做 出判断。一般来说,要评估智慧技能,需要三次以上的机会来证实是否具有该技能,对于言 语信息,从记忆中检索特定的信息只要一道题就够了。但是如果信息对象内容很多(如,确 定州府),那么设计师就必须从中随机挑选几个实例,并假定学习者的表现就代表着这个要 掌握的言语信息对象的掌握比例。在心智运动技能情况下,经常也只有一种方式测试技能, 即要学习者在考官面前完成该技能。有时候教学目标可能还会要求学习者在不同的条件下完 成该技能,这可以表示为重复该心智运动技能。 题型 在出考试题的时候另一个需要考虑的重要问题是:“哪种类型的考试题或评测任务最能 测出学习者的表现?”目标中说明的行为为确定评测该行为的试题类型提供了线索。表 7.1 中最左边一列列出了行为目标中说明的行为的类型,表的第一行给出了可以用来评测学习者 表现的考题题型。这个表只是提供一些建议,说明目标的特点如何决定了最合适的评测类型。 表 7.1 行为类型和相关的题目类型 考题类型 目标中的 行为类型 简答题 填空题 完型填空 题 多选题 匹配题 作品 核查表 现场表现 核查表 说明 确定 讨论 定义 选择 区分 解决 开发 定位 构造 产生 操作/运行 选择(态 度) 正如图上所显示的,有些类型的行为可以有多种评测方式,有些考题类型比其它类型更 适合考某类行为。例如,如果认为学习者记住某个事实很重要,那么要求他们说出这个事实, 比要他们从多项选择题中选择更好。应该以教学目标为指南,选择那些能够给学习者提供更 好的机会来展示目标中所要求的行为的题型。在选择最佳考试题型的时候还要考虑一些其他 因素,因为每类考试题都有它的优点和局限。为了从那些可用的题型中挑选出最佳题型,还 可以考虑下列一些因素:学习者答题所需要的时间、批改所需要的时间,考试环境和猜中正 确答案的机率。 有些题目形式虽然能加速考试过程,但是并不合适采用,比如为了判断学习者是否知道
某个术语的正确定义而采用真/假判断题,如果要学习者做这样的选择,那么学习者就不是 在定义术语,而是在将题目中的定义与教学中所学的定义进行比较。真/假判断题不是该目 标中所说明行为最合适的评测形式,何况真假判断题猜对答案的几率又在50% 可以将考试题从最佳评测题型转变为需要最少做题时间或最少批改时间的题型,但是改 变后的题型仍旧要提供学习者展示目标中要求的行为的机会。因为在教学实施的时候,很重 要的一点是教师要能使用这个评价过程,所以设计师在开发教学的时候可以用某一种题型, 然后在教学准备被广泛采用的时候再提供更多的题型。 考试环境也是影响题型选择的重要因素。考试环境下有哪些可用的设备和设施?学习者 是否能在目标中说明的条件下实际完成一个技能?如果没有设备或设施,是否可以用纸和笔 或其他形式来构造对现实的模拟?如果不可能模拟,像这样的问题“列出你要做所采取 的步骤”是否对你的情境是适当的、可用的?考试题中评测的行为与目标中陈述的行为相差 越远,就越不可能精确地判断学习者是否能够完成所希望的行为。有时候目标中描述的行为 是不可能被评估的,这样就必须采用其它的方式,这也是在开发教学策略时需要做出的重要 考虑 题目排序 在智慧技能或言语信息的考试中,题目顺序的排放没有硬性的规定,也没有什么快速法 则,但是有一些关于排放的建议,最终的决定还是要基于考试的环境和要评测的行为 对于需要人工判分并分析每个目标答题情况的设计师来说,典型的排序策略是将同一个 目标的题目放在一起,而不管题目的形式。对于这种策略只有一种类型的题目可能是例外, 那就是答题内容比较长的论述题,这种类型的题目一般放在考试的最后,便于学习者在考试 时管理他们的时间。这种形式组织的考试题可能不如按题目类型组织的试卷那么齐整,但是 这种组织方式无论是对学习者还是对教师都是最为方便的,因为它使学习者能够在某个时刻 集中于某个方面的信息和技能,也使得教师不用先对数据重新排序就能够按照教学目标来分 析个体或小组的表现。 编写答题指示 考试卷应该提供清楚简洁的答题指示。学习者在考试的时候往往都很紧张,因为会依据 考试成绩来评判学习者,所以学习者要非常清楚地知道考试的时候应该怎么做。一般来说 整张考试卷要有一个答题指示,当题型发生变化的时候,每个部分也要有该部分的答题指示。 不同的做题环境可能需要不同的答题指示,不过下面这些种类的信息通常都会出现在 答题指示中: 1.考试题目要说明评测的内容范围,而不是简单地写一个“测验”或“考试 2.简要说明要求评测的教学目标或行为,以及每个正确答案的分值 3.告诉学习者如果不知道答案是否可以猜测 4.答题指示还要说明学习者写错字要不要扣分 5.告诉学习者答卷上是写他们的名字,还是只写小组名即可 6.要说明考试的时间限制,答题字数限制和可用空间大小。此外,还要告诉学习者他
某个术语的正确定义而采用真/假判断题,如果要学习者做这样的选择,那么学习者就不是 在定义术语,而是在将题目中的定义与教学中所学的定义进行比较。真/假判断题不是该目 标中所说明行为最合适的评测形式,何况真/假判断题猜对答案的几率又在 50%。 可以将考试题从最佳评测题型转变为需要最少做题时间或最少批改时间的题型,但是改 变后的题型仍旧要提供学习者展示目标中要求的行为的机会。因为在教学实施的时候,很重 要的一点是教师要能使用这个评价过程,所以设计师在开发教学的时候可以用某一种题型, 然后在教学准备被广泛采用的时候再提供更多的题型。 考试环境也是影响题型选择的重要因素。考试环境下有哪些可用的设备和设施?学习者 是否能在目标中说明的条件下实际完成一个技能?如果没有设备或设施,是否可以用纸和笔 或其他形式来构造对现实的模拟?如果不可能模拟,像这样的问题“列出你要做 所采取 的步骤”是否对你的情境是适当的、可用的?考试题中评测的行为与目标中陈述的行为相差 越远,就越不可能精确地判断学习者是否能够完成所希望的行为。有时候目标中描述的行为 是不可能被评估的,这样就必须采用其它的方式,这也是在开发教学策略时需要做出的重要 考虑。 题目排序 在智慧技能或言语信息的考试中,题目顺序的排放没有硬性的规定,也没有什么快速法 则,但是有一些关于排放的建议,最终的决定还是要基于考试的环境和要评测的行为。 对于需要人工判分并分析每个目标答题情况的设计师来说,典型的排序策略是将同一个 目标的题目放在一起,而不管题目的形式。对于这种策略只有一种类型的题目可能是例外, 那就是答题内容比较长的论述题,这种类型的题目一般放在考试的最后,便于学习者在考试 时管理他们的时间。这种形式组织的考试题可能不如按题目类型组织的试卷那么齐整,但是 这种组织方式无论是对学习者还是对教师都是最为方便的,因为它使学习者能够在某个时刻 集中于某个方面的信息和技能,也使得教师不用先对数据重新排序就能够按照教学目标来分 析个体或小组的表现。 编写答题指示 考试卷应该提供清楚简洁的答题指示。学习者在考试的时候往往都很紧张,因为会依据 考试成绩来评判学习者,所以学习者要非常清楚地知道考试的时候应该怎么做。一般来说, 整张考试卷要有一个答题指示,当题型发生变化的时候,每个部分也要有该部分的答题指示。 不同的做题环境可能需要不同的答题指示,不过下面这些种类的信息通常都会出现在 答题指示中: 1. 考试题目要说明评测的内容范围,而不是简单地写一个“测验”或“考试一”。 2. 简要说明要求评测的教学目标或行为,以及每个正确答案的分值 3. 告诉学习者如果不知道答案是否可以猜测 4. 答题指示还要说明学习者写错字要不要扣分 5. 告诉学习者答卷上是写他们的名字,还是只写小组名即可 6. 要说明考试的时间限制,答题字数限制和可用空间大小。此外,还要告诉学习者他
们是否要用特定工具答题,比如2号铅笔,使用机读答题卡,特殊文字,特殊设备 如计算器或地图等。 编写清楚简洁的答题指示并不容易,对你来说淸楚的事情对其他人来说可能并不清楚。 在写出答题指示后,要仔细修改,以确保学习者得到了正确完成考试所需要的所有信息 评估试卷和试题 答题指示和每个目标的考试题在实际用来评价学习者的表现之前都要进行形成性评价 因为一道考试题对于出题者来说可能是十分清楚的,但是对于答题者来说可能却是混乱不清 的。考试的时候很多环节都可能出错,设计师要确保:(1)答题指示清楚,简单,容易照 着做,(2)每个考试题都很清楚,并且含有对学习者刺激的信息,(3)答题条件是现实可行 的,(4)答题方式学习者很清楚,(5)有学习者答题所需的答题空间、时间和设备。 在出完考试题之后,设计师应该请一个学习者或某个人(不是实际目标组的人)来大声 地解释做题指示和考试题,并且按照答题格式要求回答每个问题。在构造考试卷的时候,设 计师可能不知不觉地产生了一些错误,这种对考试的初步审核可以减轻学习者的焦虑,少浪 费学习者和教师的时间,避免无效的考试结果。即使是题目编号写错了这样的小错误也会造 成答卷混乱,难以解释考试的结果。类似地,象不清楚的做题指示、令人糊涂的举例或问题, 以及那些对于考试对象来说太难的词汇也都可能造成同样的问题。请一个人,最好是几个人 对考试卷进行初步审核,这可以有助于发现试卷的缺点和每道题应该修改的地方 考试之后,设计师还要评估每道题的清晰度,对于大多数学习者都没有做对的题目更要 仔细分析。这样的问题也许并没能测定出学习者的表现,但是说明了在题目中、或者做题指 示中或者在教学中可能存在着不合适的地方。受到怀疑的题目一定要在再次使用之前进行分 析和修改 如果设计师必须要在同一时刻或者在很短的时间跨度内(一天或一周内)对不同组的学 习者评测同一目标,那么还必须要考虑考试答卷的诚实性和一致性,设计师必须要准备多套 后测考试卷。除了前测考卷之外,一般来说还要准备五、六套后测考试卷 在编写考试题或考试卷的时候,设计师必须要牢记,考试可以测定以下内容是否适当 (1)考试本身(2)答卷格式,(3)教学材料,(4)教学环境和情境,以及(5)学习者的 成就 这里讨论的所有建议都可以用在标准参照考试卷的开发中,如果你不是一个熟练的出题 专家,也许想多看几本有关试题构造的参考书。本章后面列出一些测试技术方面的参考资料。 开发测量行为表现、作品和态度的量表 开发测定学习者行为表现和作品的量表并不是要出考试题,而是要写指导学习者活动的 说明,构造一个评分标准来指导对行为表现或作品的评价 许多复杂的智慧技能都既有过程目标也有作品目标。例如,考虑采用本教材的一门课程, 教学目的可以是:“用教学设计过程来设计、开发和评估一个一小时的自学材料”。学习者可 能被要求纪录教学设计过程的每一步,产生一些教学材料。教师可以通过审查学习者关于如 何使用教学设计过程的报告和他们的中间产品,如教学分析和行为目标来评价这个过程。为
们是否要用特定工具答题,比如 2 号铅笔,使用机读答题卡,特殊文字,特殊设备, 如计算器或地图等。 编写清楚简洁的答题指示并不容易,对你来说清楚的事情对其他人来说可能并不清楚。 在写出答题指示后,要仔细修改,以确保学习者得到了正确完成考试所需要的所有信息。 评估试卷和试题 答题指示和每个目标的考试题在实际用来评价学习者的表现之前都要进行形成性评价。 因为一道考试题对于出题者来说可能是十分清楚的,但是对于答题者来说可能却是混乱不清 的。 考试的时候很多环节都可能出错,设计师要确保:(1)答题指示清楚,简单,容易照 着做,(2)每个考试题都很清楚,并且含有对学习者刺激的信息,(3)答题条件是现实可行 的,(4)答题方式学习者很清楚,(5)有学习者答题所需的答题空间、时间和设备。 在出完考试题之后,设计师应该请一个学习者或某个人(不是实际目标组的人)来大声 地解释做题指示和考试题,并且按照答题格式要求回答每个问题。在构造考试卷的时候,设 计师可能不知不觉地产生了一些错误,这种对考试的初步审核可以减轻学习者的焦虑,少浪 费学习者和教师的时间,避免无效的考试结果。即使是题目编号写错了这样的小错误也会造 成答卷混乱,难以解释考试的结果。类似地,象不清楚的做题指示、令人糊涂的举例或问题, 以及那些对于考试对象来说太难的词汇也都可能造成同样的问题。请一个人,最好是几个人, 对考试卷进行初步审核,这可以有助于发现试卷的缺点和每道题应该修改的地方。 考试之后,设计师还要评估每道题的清晰度,对于大多数学习者都没有做对的题目更要 仔细分析。这样的问题也许并没能测定出学习者的表现,但是说明了在题目中、或者做题指 示中或者在教学中可能存在着不合适的地方。受到怀疑的题目一定要在再次使用之前进行分 析和修改。 如果设计师必须要在同一时刻或者在很短的时间跨度内(一天或一周内)对不同组的学 习者评测同一目标,那么还必须要考虑考试答卷的诚实性和一致性,设计师必须要准备多套 后测考试卷。除了前测考卷之外,一般来说还要准备五、六套后测考试卷。 在编写考试题或考试卷的时候,设计师必须要牢记,考试可以测定以下内容是否适当: (1)考试本身(2)答卷格式,(3)教学材料,(4)教学环境和情境,以及(5)学习者的 成就。 这里讨论的所有建议都可以用在标准参照考试卷的开发中,如果你不是一个熟练的出题 专家,也许想多看几本有关试题构造的参考书。本章后面列出一些测试技术方面的参考资料。 开发测量行为表现、作品和态度的量表 开发测定学习者行为表现和作品的量表并不是要出考试题,而是要写指导学习者活动的 说明,构造一个评分标准来指导对行为表现或作品的评价。 许多复杂的智慧技能都既有过程目标也有作品目标。例如,考虑采用本教材的一门课程, 教学目的可以是:“用教学设计过程来设计、开发和评估一个一小时的自学材料”。学习者可 能被要求纪录教学设计过程的每一步,产生一些教学材料。教师可以通过审查学习者关于如 何使用教学设计过程的报告和他们的中间产品,如教学分析和行为目标来评价这个过程。为