2019年第3期 外语学刊 2019,No.3 总第208期 FOREIGN LANGUAGE RESEARCH Serial No 205 ●外语教学:能力量表研发专题 国外批判性思维测评研究进展 马利红刘坚 (天津职业技术师范大学,天津3022;北京师范大学,北京100875) 提要:作为21世纪技能之一,批判性思维在外语教育界越来越受到关注,但是批判性思维教学只有和批判性思维 评价相结合才能真正培养学生的批判性思维。本文从测评内容、测评形式、测评题型、信度和效度证据等方面综述国外 批判性思维测评研究的新进展,旨在为我国外语界开展批判性思维评价研究提供参考 关键词:批判性思维测评;效度;信度;测评形式;外语教育 中图分类号:H319 文献标识码:A 文章编号:1000-0100(2019)03-0064-5 DOI编码:10.16263/ j. enki.23-1071/h.2019.03.011 The Development of Overseas Critical Thinking Assessment (Tianjin University of Technology and Education, Tianjin 300222, China; Beijing Normal University, Beijing 100875, China) As one of the 21"century skills, critical thinking has received more and more attention in foreign language education. However critical thinking teaching can cultivate students'critical thinking only by being combined with critical thinking assessment. This paper reviewed the new development of overseas critical thinking assessment based on assessment content, evaluation form, as- sessment items, the reliability and validity evidence, ete. It is hoped that the paper will provide insight into critical thinking as- sessment research in foreign language education in China Key words: critical thinking assessment: validity; reliability; evaluation form; foreign language education 1引言 (张莎文秋芳2017:110-114)为代表,对其他学 外语界近几年与批判性思维有关的研究数量段外语学习者批判性思维的测评研究尚不足。本 不断上升,且主要集中在批判性思维培养与外语文探讨国外批判性思维测评研究的新进展,旨在 技能的融合方面( Razaei et al.2011:769-77)。为我国外语界未来相关研究指明发展方向 但是批判性思维教学只有和科学的批判性思维评 价相结合才能真正培养学生的批判性思维(Abra- 2测评内容 mi et al.2014:275-314)。作为提升批判性思维 从测评内容上,国外批判性思维测评分为批 培养质量的有效方式,批判性思维测评研究成为判性思维人格倾向测评、批判性思维技能测评和 外语教育领域比较重要的研究课题 综合测评。 目前,我国外语界对于批判性思维的测评研 2.1批判性思维人格倾向测评 究以外语类大学生思辨能力量具(文秋芳等 批判性思维人格倾向是一个人进行批判性思 2010:19-26)、英语专业硕士生思辨倾向量具维的态度、特质和倾向(B tal.2016:158 本文系全国教育科学“十三五”规划教育部重点课题“基础教育阶段英语学科素养的内涵、培养路径和测评指标 研究”(DHA160310)和2019年教育部人文社会科学规划基金项目“外语写作中的批判性思维评价效度研究”(19YJA 740038)的阶段性成果。 作者电子邮箱:; professori9506@1 21994-2019ChinaAcademicJOurnalElectronicpUblishingHouse.Allrightsreservedhttp:/www.cnki.net
●外语教学: 能力量表研发专题 国外批判性思维测评研究进展* 马利红 刘 坚 ( 天津职业技术师范大学,天津 300222; 北京师范大学,北京 100875) 提 要: 作为 21 世纪技能之一,批判性思维在外语教育界越来越受到关注,但是批判性思维教学只有和批判性思维 评价相结合才能真正培养学生的批判性思维。本文从测评内容、测评形式、测评题型、信度和效度证据等方面综述国外 批判性思维测评研究的新进展,旨在为我国外语界开展批判性思维评价研究提供参考。 关键词: 批判性思维测评; 效度; 信度; 测评形式; 外语教育 中图分类号: H319 文献标识码: A 文章编号: 1000 - 0100( 2019) 03 - 0064 - 5 DOI 编码: 10. 16263 /j. cnki. 23 - 1071 /h. 2019. 03. 011 The Development of Overseas Critical Thinking Assessment Ma Li-hong Liu Jian ( Tianjin University of Technology and Education,Tianjin 300222,China; Beijing Normal University,Beijing 100875,China) As one of the 21st century skills,critical thinking has received more and more attention in foreign language education. However, critical thinking teaching can cultivate students' critical thinking only by being combined with critical thinking assessment. This paper reviewed the new development of overseas critical thinking assessment based on assessment content,evaluation form,assessment items,the reliability and validity evidence,etc. It is hoped that the paper will provide insight into critical thinking assessment research in foreign language education in China. Key words: critical thinking assessment; validity; reliability; evaluation form; foreign language education 1 引言 外语界近几年与批判性思维有关的研究数量 不断上升,且主要集中在批判性思维培养与外语 技能的融合方面( Razaei et al. 2011: 769 - 777) 。 但是批判性思维教学只有和科学的批判性思维评 价相结合才能真正培养学生的批判性思维( Abrami et al. 2014: 275 - 314) 。作为提升批判性思维 培养质量的有效方式,批判性思维测评研究成为 外语教育领域比较重要的研究课题。 目前,我国外语界对于批判性思维的测评研 究以 外 语 类 大 学 生 思 辨能力量具 ( 文 秋 芳 等 2010: 19 - 26) 、英语专业硕士生思辨倾向量具 ( 张莎 文秋芳 2017: 110 - 114) 为代表,对其他学 段外语学习者批判性思维的测评研究尚不足。本 文探讨国外批判性思维测评研究的新进展,旨在 为我国外语界未来相关研究指明发展方向。 2 测评内容 从测评内容上,国外批判性思维测评分为批 判性思维人格倾向测评、批判性思维技能测评和 综合测评。 2. 1 批判性思维人格倾向测评 批判性思维人格倾向是一个人进行批判性思 维的态度、特质和倾向( Bensley et al. 2016: 158 - 64 2019 年第 3 期 总第 208 期 外语学刊 FOREIGN LANGUAGE RESEARCH 2019,No. 3 Serial No. 208 * 本文系全国教育科学“十三五”规划教育部重点课题“基础教育阶段英语学科素养的内涵、培养路径和测评指标 研究”( DHA160310) 和 2019 年教育部人文社会科学规划基金项目“外语写作中的批判性思维评价效度研究”( 19YJA 740038) 的阶段性成果。 作者电子邮箱: professorliu9506@ 126. com( 刘坚)
2019年 马利红刘坚国外批判性思维测评研究进展 第3期 168)。有学者认为批判性思维人格倾向常常包过程性技能,如演绎、评价、推理和论证等。 括寻求真理、开放性、系统性、自信心、好奇心、认 2.3批判性思维综合测评 知成熟度等( Facione, Facione1992)。 批判性思维是多维构念,既包括批判性思维 常见的批判性思维人格倾向测评工具包括加技能,也包括批判性思维人格倾向和元认知(Ben- 利福尼亚心理动机测评(CM3)和加利福尼亚思 sley et al.2016:158-168),因此批判性思维综合 辨人格倾向量表(CCTDⅠ)等。CM3是针对美国测评是一项艰巨任务。哈尔彭批判性思维测试 中小学生的批判性思维人格倾向量表,包括学习( Halpern Critical Thinking Assessment,HCTA)是 导向( Learning Orientation)、创造性问题解决基于日常生活场景将批判性思维人格倾向和技能 ( Creative problem solving)、精神集中( Mental fo-融合在一起的综合测评,大量样本已证明HCT cus)、认知完整性( Cognitive Integrity)4个维度,具有较好的信度和效度( Halpern1998:449 研究表明这4个维度与学生的学习动机和学业成455)。最近开发的 HCTAES( Halpern Critical 绩显著正相关( Giancarlo et al.2004:347-364)。 Thinking Assessment Using Everyday Situations)从 CM3测量的批判性思维人格倾向不局限于特定5个维度评价大学生的批判性思维:推理能力、论 学科课程,而是测量学生智力活动(如推理)的认证分析能力、假设检验能力、应用能力、决策和解 知参与度和内在动机。cCTDⅠ是应用广泛的批判决问题的能力,题目涉及25个日常生活情境,每 性思维人格倾向测评工具,主要应用于大学生和个情境下包含一道选择题和一道开放题,进一步 中学高年级学生( Facione, alone1992)。 完善HCTA(同上2006) 近些年来,国际文献中报告研究者对批判性 思维人格倾向量表做进一步开发和验证,如批判 3测评形式 性思维人格倾向量表(CTDS)的发展和心理测量 从测评形式上,国外批判性思维测评包括嵌 评价过程。CTDS的题目由批判性思维人格倾向套于特定学科的批判性思维测评和通用型批判性 工具改编,运用CTDS分别对两组被试(一年级本思维测评。 科生和研究生)进行心理测量评价,在第一个研 3.1特定学科批判性思维测评 究中,探索性因子分析结果表明CTDS是两因子 嵌套于特定学科的批判性思维测评用于评价 模型:批判性开放和反思性怀疑:第二个研究中,某一特定学科领域的批判性思维,如外语界学者 多组验证性因素分析进一步验证两因子模型,而根据学生的外语写作表现评价学生的批判性思维 且多组验证性因子分析结果表明两组学生理解题( Stapleton2002:250-257)、批判性思维特质调查 目的路径相似(Sosu2013:107-119)。教育学CTAs( Critical Thinking Attribute Survey)主要测试 家、心理学家都认为CTDS是测评批判性思维人与教育和教师发展相关的特定学科批判性思维技 格倾向的有效工具(同上)。 能( Foray2016:52-62)。语篇测试( essay test)和 2.2批判性思维技能测评 真实情景评价”被认为是在特定学科领域提高批 对批判性思维技能及子技能比较有影响的分判性思维评价效度的两种测评方法( Tonja"la 类是美国哲学协会德尔菲项目提出的解释、分析、1998:173-189) 评价、推理、阐释、自我调节6项技能和16项子技 目前,嵌套于特定学科的批判性思维测评己 能( Facione, Facione1992)。基于批判性思维是经在下列学科领域得到发展,如心理学( Bensley 种认知,有助于决定做什么或相信什么”,研究eta.2016:158-168)、生物学( McMurray et al 者开发康奈尔批判性思维测评(CCTT),题目涉及1991:183-192)、外语教育( Stapleton2002:250 假设、可信度、演绎、归纳、推理5个方面,CCⅣT将257)等。但是目前这些嵌套于特定学科的批判性 试题目融入真实生活场景中,而且整套题目的测思维测评主要用于预测学科成绩,很少真正用于评 试场景是连贯的(nis, Millman, Tomko1985)。价学习者的批判性思维技能和倾向 根据元分析结果,CCTT是应用最广泛的批判性思 3.2通用型批判性思维测评 维测评工具( Abrami et al.2014:275-314)。 通用型批判性思维测评用于评价学生的通用 根据德尔菲项目对批判性思维测评的建议,批判性思维技能,如CCTT和 CCTST.剑桥思维 研究者开发加利福尼亚思辨技能测评工具能力测评TSA( Cambridge Thinking Skills Assess- ( CCTST)。之后,研究者根据德尔菲报告的测评ment)也是一项评价学生学习任何专业都需要的 指南进一步发展 CCTST,旨在测评批判性思维的通用思维技能的测评工具,目前已被剑桥大学、牛 21994-2019ChinaAcademicJOurnalElectronicpUblishingHouse.Allrightsreservedhttp:/www.cnki.net
168) 。有学者认为批判性思维人格倾向常常包 括寻求真理、开放性、系统性、自信心、好奇心、认 知成熟度等( Facione,Facione 1992) 。 常见的批判性思维人格倾向测评工具包括加 利福尼亚心理动机测评( CM3) 和加利福尼亚思 辨人格倾向量表( CCTDI) 等。CM3 是针对美国 中小学生的批判性思维人格倾向量表,包括学习 导向 ( Learning Orientation ) 、创造性问题解决 ( Creative Problem Solving) 、精神集中( Mental Focus) 、认知完整性( Cognitive Integrity) 4 个维度, 研究表明这 4 个维度与学生的学习动机和学业成 绩显著正相关( Giancarlo et al. 2004: 347 - 364) 。 CM3 测量的批判性思维人格倾向不局限于特定 学科课程,而是测量学生智力活动( 如推理) 的认 知参与度和内在动机。CCTDI 是应用广泛的批判 性思维人格倾向测评工具,主要应用于大学生和 中学高年级学生( Facione,Facione 1992) 。 近些年来,国际文献中报告研究者对批判性 思维人格倾向量表做进一步开发和验证,如批判 性思维人格倾向量表( CTDS) 的发展和心理测量 评价过程。CTDS 的题目由批判性思维人格倾向 工具改编,运用 CTDS 分别对两组被试( 一年级本 科生和研究生) 进行心理测量评价,在第一个研 究中,探索性因子分析结果表明 CTDS 是两因子 模型: 批判性开放和反思性怀疑; 第二个研究中, 多组验证性因素分析进一步验证两因子模型,而 且多组验证性因子分析结果表明两组学生理解题 目的路径相似( Sosu 2013: 107 - 119) 。教育学 家、心理学家都认为 CTDS 是测评批判性思维人 格倾向的有效工具( 同上) 。 2. 2 批判性思维技能测评 对批判性思维技能及子技能比较有影响的分 类是美国哲学协会德尔菲项目提出的解释、分析、 评价、推理、阐释、自我调节 6 项技能和 16 项子技 能( Facione,Facione 1992) 。基于批判性思维是 “一种认知,有助于决定做什么或相信什么”,研究 者开发康奈尔批判性思维测评( CCTT) ,题目涉及 假设、可信度、演绎、归纳、推理 5 个方面,CCTT 将 测试题目融入真实生活场景中,而且整套题目的测 试场景是连贯的( Ennis,Millman,Tomko 1985) 。 根据元分析结果,CCTT 是应用最广泛的批判性思 维测评工具( Abrami et al. 2014: 275 -314) 。 根据德尔菲项目对批判性思维测评的建议, 研究 者 开 发 加 利 福 尼 亚 思 辨 技 能 测 评 工 具 ( CCTST) 。之后,研究者根据德尔菲报告的测评 指南进一步发展 CCTST,旨在测评批判性思维的 过程性技能,如演绎、评价、推理和论证等。 2. 3 批判性思维综合测评 批判性思维是多维构念,既包括批判性思维 技能,也包括批判性思维人格倾向和元认知( Bensley et al. 2016: 158 - 168) ,因此批判性思维综合 测评是一项艰巨任务。哈尔彭批判性思维测试 ( Halpern Critical Thinking Assessment,HCTA) 是 基于日常生活场景将批判性思维人格倾向和技能 融合在一起的综合测评,大量样本已证明 HCTA 具有较好的信度和效度 ( Halpern 1998: 449 - 455) 。最 近 开 发 的 HCTAES ( Halpern Critical Thinking Assessment Using Everyday Situations) 从 5 个维度评价大学生的批判性思维: 推理能力、论 证分析能力、假设检验能力、应用能力、决策和解 决问题的能力,题目涉及 25 个日常生活情境,每 个情境下包含一道选择题和一道开放题,进一步 完善 HCTA( 同上 2006) 。 3 测评形式 从测评形式上,国外批判性思维测评包括嵌 套于特定学科的批判性思维测评和通用型批判性 思维测评。 3. 1 特定学科批判性思维测评 嵌套于特定学科的批判性思维测评用于评价 某一特定学科领域的批判性思维,如外语界学者 根据学生的外语写作表现评价学生的批判性思维 ( Stapleton 2002: 250 - 257) 、批判性思维特质调查 CTAS( Critical Thinking Attribute Survey) 主要测试 与教育和教师发展相关的特定学科批判性思维技 能( Forawi 2016: 52 -62) 。语篇测试( essay test) 和 “真实情景评价”被认为是在特定学科领域提高批 判性思维评价 效 度 的 两 种 测 评 方 法( Tynja ¨ la ¨ 1998: 173 -189) 。 目前,嵌套于特定学科的批判性思维测评已 经在下列学科领域得到发展,如心理学( Bensley et al. 2016: 158 - 168) 、生物学( McMurray et al. 1991: 183 - 192) 、外语教育( Stapleton 2002: 250 - 257) 等。但是目前这些嵌套于特定学科的批判性 思维测评主要用于预测学科成绩,很少真正用于评 价学习者的批判性思维技能和倾向。 3. 2 通用型批判性思维测评 通用型批判性思维测评用于评价学生的通用 批判性思维技能,如 CCTT 和 CCTST. 剑桥思维 能力测评 TSA( Cambridge Thinking Skills Assessment) 也是一项评价学生学习任何专业都需要的 通用思维技能的测评工具,目前已被剑桥大学、牛 65 2019 年 马利红 刘 坚 国外批判性思维测评研究进展 第 3 期
2019年 马利红刘坚国外批判性思维测评研究进展 第3期 津大学和伦敦大学学院采用 论证性文章,标出段落,但大部分段落中有论证错 误,要求学生对每一段及整篇文章中隐含的写作 测试题型 者思维方式进行评价,并论证自己为何这样评价。 国外批判性思维测试采用选择题、开放题、选 EWCTET就是高复杂结构语篇测验( high struc- 择题+开放题、语篇测试、表现性评价等形式 ture essay test)的例子。二是中等复杂结构(me- 4.1选择题 dium structure),也是采用议论文测评批判性思 选择题具有内容覆盖面广、评分标准客观、评维,即提供一篇论证性文章但文章结构相对简单, 分速度快等独特优势,可为评价批判性思维的基要求学生对文章主题进行论证或者辩护,但是不 本方面提供证据,因此有人建议在开发批判性思具体阐述为何这样论证或辩护,可采用综合评分 维测试题时使用选择题。但研究证明利用选择题或分析评分方法。目前,国外有些大学的高级定 测评批判性思维受被试批判性思维复杂程度和测位考试( College Board AP tests)一般采用这种题 评理念影响,只能测量认知水平,难以测试批判性型。三是微复杂结构( minimal structure),用于测 思维的核心内容,难以评价被试对解决复杂问题评的文章结构较简单,要求考生只回答一个问题 的态度(Ku2009:70-76, Norris1989:21-26)。 或阐述一件事,比如要求学生就某个感兴趣的话 根据评价批判性思维测评工具的3个标准:题或问题发表看法或捍卫自已的立场,这种题型 是测评是否基于批判性思维的科学概念,二是可以给学生更多发挥空间,但是为教师提供的诊 测评内容是否全面,三是测评题目的难度是否符断性信息较少,也可采用综合评分和分项评分方 合学生水平,研究者发现目前很多批判性思维测式。美国的伊利诺斯批判性思维作文大赛(The 评缺乏综合性内容,特别是选择题,往往漏掉批判 llinois critical thinking essay contest)使用这种测 性思维中的重要信息(Enis1993:179-186) 试题型。尽管批判性思维语篇测试这种开放性测 尽管选择题测评批判性思维有诸多弊端,但评模式有利于展示被试思维过程中的认知能力和 综合科学性、有效性、评分一致性、经济性和可行认知倾向,但是很多人也认为特定情境和严谨结 性等多方面考虑,改善选择题仍具有重要的实践构限制了被试作答,难以充分显示被试的思维倾 意义( Norris 1989)。因此,很多批判性思维测试向,而且主观评分深受评分员信度影响( Bridge- 仍使用选择题形式,比如美国大学学业水平测试 man et a.2012:27-40) CAAP(Collegiate Assessment of Academic Proficie 为测量批判性思维的教学成效,学者们积极 cy test)就采用选择题评价学生对特定语篇进行探索更多开放性测评方式,如档案袋评价、采访、 分析、评价和归类的能力。2015年11月ETS推小组调查、假设情景应答、学生自我报告、认知测 出的评估大学生学习成果的最新批判性思维测试试等( Halpern2006)。另外,研究者还建议使用 也采用选择题形式,在每段语料后给出几个问题,半结构性开放题,即提供真实生活场景,让学生批 主要考查分析和综合能力,分析能力包括评估证判性表达自己的思想( Ennis1993:179-186),这 据本身及其使用、分析和评估论证过程、理解论证种测评题型可以考查批判性思维的更多方面。 语言、区分有效论证和无效论证,综合能力包括展“开放题可反映被试的思维过程,可考查被试 开有效论证等(刘欧2016:13-17)。 维过程的清晰性、相关性与逻辑性,还可考査辩证 4.2开放题 思维的深刻性和灵活性,但是开放题也有一定的 采用开放题测评批判性思维越来越引起学界局限性,比如评分带有一定主观性,评分速度慢 关注(马利红2018)。例如,作为一种开放性批判信度低等”(文秋芳2012) 性思维测评工具, EWCTET( The Ennis-Weir criti-- 4.3选择题与开放题相结合 cal Thinking Essay Test)适用于高中及大学生,评 选择题和开放题在测评批判性思维时各有局 价被试辨别语篇中的推理漏泂以及如何捍卫自己限性,比如选择题在命题时费时费力,难以全面、有 的立场,即测评被试的分析能力和在真实情景中效地测试出批判性思维技能和倾向,开放题则在评 的反应能力和论证能力(Fnis,weir1985)。 分时耗费精力,信度难以保障,开放题中的测试情 影响力较大的开放性批判性思维测评方法是景又太具体、主观性偏强(Iiu 3种基于语篇的批判性思维测评方法(Enis于是,有研究者提出一个折中办法,即采用选择+ 1993:179-186)。一是高复杂结构( high struc-构答反应( constructed response)的测评模式,让学 ture),运用议论文测评批判性思维,即提供一篇生在选出答案后写出原因,由于命题者和被试的立 21994-2019ChinaAcademicJOurnalElectronicpUblishingHouse.Allrightsreservedhttp:/www.cnki.net
津大学和伦敦大学学院采用。 4 测试题型 国外批判性思维测试采用选择题、开放题、选 择题 + 开放题、语篇测试、表现性评价等形式。 4. 1 选择题 选择题具有内容覆盖面广、评分标准客观、评 分速度快等独特优势,可为评价批判性思维的基 本方面提供证据,因此有人建议在开发批判性思 维测试题时使用选择题。但研究证明利用选择题 测评批判性思维受被试批判性思维复杂程度和测 评理念影响,只能测量认知水平,难以测试批判性 思维的核心内容,难以评价被试对解决复杂问题 的态度( Ku 2009: 70 - 76,Norris 1989: 21 - 26) 。 根据评价批判性思维测评工具的 3 个标准: 一是测评是否基于批判性思维的科学概念,二是 测评内容是否全面,三是测评题目的难度是否符 合学生水平,研究者发现目前很多批判性思维测 评缺乏综合性内容,特别是选择题,往往漏掉批判 性思维中的重要信息( Ennis 1993: 179 - 186) 。 尽管选择题测评批判性思维有诸多弊端,但 综合科学性、有效性、评分一致性、经济性和可行 性等多方面考虑,改善选择题仍具有重要的实践 意义( Norris 1989) 。因此,很多批判性思维测试 仍使用选择题形式,比如美国大学学业水平测试 CAAP( Collegiate Assessment of Academic Proficiency test) 就采用选择题评价学生对特定语篇进行 分析、评价和归类的能力。2015 年 11 月 ETS 推 出的评估大学生学习成果的最新批判性思维测试 也采用选择题形式,在每段语料后给出几个问题, 主要考查分析和综合能力,分析能力包括评估证 据本身及其使用、分析和评估论证过程、理解论证 语言、区分有效论证和无效论证,综合能力包括展 开有效论证等( 刘欧 2016: 13 - 17) 。 4. 2 开放题 采用开放题测评批判性思维越来越引起学界 关注( 马利红 2018) 。例如,作为一种开放性批判 性思维测评工具,EWCTET( The Ennis-Weir Critical Thinking Essay Test) 适用于高中及大学生,评 价被试辨别语篇中的推理漏洞以及如何捍卫自己 的立场,即测评被试的分析能力和在真实情景中 的反应能力和论证能力( Ennis,Weir 1985) 。 影响力较大的开放性批判性思维测评方法是 3 种基于语篇的批判性思 维测评方法 ( Ennis 1993: 179 - 186) 。一是高复杂结构( high structure) ,运用议论文测评批判性思维,即提供一篇 论证性文章,标出段落,但大部分段落中有论证错 误,要求学生对每一段及整篇文章中隐含的写作 者思维方式进行评价,并论证自己为何这样评价。 EWCTET 就是高复杂结构语篇测验( high structure essay test) 的例子。二是中等复杂结构( medium structure) ,也是采用议论文测评批判性思 维,即提供一篇论证性文章但文章结构相对简单, 要求学生对文章主题进行论证或者辩护,但是不 具体阐述为何这样论证或辩护,可采用综合评分 或分析评分方法。目前,国外有些大学的高级定 位考试( College Board AP tests) 一般采用这种题 型。三是微复杂结构( minimal structure) ,用于测 评的文章结构较简单,要求考生只回答一个问题 或阐述一件事,比如要求学生就某个感兴趣的话 题或问题发表看法或捍卫自己的立场,这种题型 可以给学生更多发挥空间,但是为教师提供的诊 断性信息较少,也可采用综合评分和分项评分方 式。美国的伊利诺斯批判性思维作文大赛( The Illinois Critical Thinking Essay Contest) 使用这种测 试题型。尽管批判性思维语篇测试这种开放性测 评模式有利于展示被试思维过程中的认知能力和 认知倾向,但是很多人也认为特定情境和严谨结 构限制了被试作答,难以充分显示被试的思维倾 向,而且主观评分深受评分员信度影响( Bridgeman et al. 2012: 27 - 40) 。 为测量批判性思维的教学成效,学者们积极 探索更多开放性测评方式,如档案袋评价、采访、 小组调查、假设情景应答、学生自我报告、认知测 试等( Halpern 2006) 。另外,研究者还建议使用 半结构性开放题,即提供真实生活场景,让学生批 判性表达自己的思想( Ennis 1993: 179 - 186) ,这 种测评题型可以考查批判性思维的更多方面。 “开放题可反映被试的思维过程,可考查被试思 维过程的清晰性、相关性与逻辑性,还可考查辩证 思维的深刻性和灵活性,但是开放题也有一定的 局限性,比如评分带有一定主观性,评分速度慢, 信度低等”( 文秋芳 2012) 。 4. 3 选择题与开放题相结合 选择题和开放题在测评批判性思维时各有局 限性,比如选择题在命题时费时费力,难以全面、有 效地测试出批判性思维技能和倾向,开放题则在评 分时耗费精力,信度难以保障,开放题中的测试情 景又太具体、主观性偏强( Liu et al. 2014: 1 - 23) 。 于是,有研究者提出一个折中办法,即采用选择 + 构答反应( constructed response) 的测评模式,让学 生在选出答案后写出原因,由于命题者和被试的立 66 2019 年 马利红 刘 坚 国外批判性思维测评研究进展 第 3 期
2019年 马利红刘坚国外批判性思维测评研究进展 第3期 场与观念不同,被试可以论证自己的答案(Enis基于60项研究的元分析表明批判性思维其实只 1993:179-186)。鉴于选择+构答反应这种题型有一个单因子( Bernard et a.2008:15-22)。 综合性强,可弥补选择题的不足,允许学生背景差 批判性思维测评的效度研究主要通过与其他 异和对题目阐释的差异存在,很多研究者力荐采用认知技能的相关性来验证,比如批判性思维与 选择+构答反应的形式命制批判性思维题目。研般认知技能(如SAT和GRE)具有中度相关,与 究表明尽管构答反应题型可为批判性思维测评提GPA和课程成绩中度相关( Halpern2006),而且 供真实情景,但是表面效度很强,作答时间等同的具有较高批判性思维的人比具有较低批判性思维 情况下,构答反应题的信度低于选择题( Lee et a.的人生活更加积极。关于效度验证的研究表明批 2011:115-136)。 判性思维测评研究的数量和质量差异较大,批判 halpern研发的HCTA和 HCTAES将选择题性思维测评的普遍问题包括维度划分证据不充 和构答反应相结合,每个情境下有一道选择题和分,子维度信度低,效度验证证据不充分等( Liu et 道开放题,测量被试的不同认知能力,选择题主al.2014:1-23)。 要考查批判性思维技能,开放题主要考查批判性 思维倾向。另外,EPP( ETS Proficiency Profiles) 6结论与启示 CLA+都是采用选择题和构答反应相结合的形式 批判性思维测试工具和测评方式的发展说明 ( Educational Testing Service2010)。Ku(2009:批判性思维测评越来越多样化、学科化和动态化, 70-76)指出选择题、调查问卷可能不是最有效为我们开发研制适合中国外语学习者的本土化测 的测评批判性思维的方式,并提出包括多项选择评工具提供很好的借鉴。未来批判性思维测评要 和开放题的综合性测评方式以监测被试选择某一进行情景化、个性化和多样化的探索,量化测评和 选项时的思维过程,与Enis(1993:179-186)和质性评价相结合,以更加详实具体的数据展示学 Halpern(2006)的测评理念一致。 生的批判性思维技能和人格倾向。 4.4表现性评价 思维除具有普遍性特征外,还受文化因素影 近些年来,国际上出现通过完成某项任务测响(文秋芳2012)。国内学者对批判性思维的测 评批判性思维能力的方法,即表现性评价。自然评研究缺乏对文化因素的探讨,难以和国际上同 观察是常见的表现性评价方法之一,如受过培训类研究进行比较。因此,研究我国外语学习者的 的观察者以一个人或一组人的活动为中心,进行批判性思维能力,不能一味照搬西方理论,测评工 观察并记录,描述一系列事情。结构稍复杂的表具也不能停留在对国外工具的翻译和修订上,应 现性评价是运用学生档案袋记录学生批判性思维结合我国学生的思维特点,开发适合我国文化背 的日常发展和进步情况。尽管表现性评价是测评景和学段特征的批判性思维测评工具 批判性思维的好办法,但是这类评价的效度难以 建立( Ennis1993:179186)。 参考文献 目前国际上已有的结构较严谨的表现性评价刘欧.高校学生学习成果测评的历史、现状和前瞻 是美国国家教育进展评估(NEAP)开发的拓展性 中国考试,2016(11).‖Liu,O. Student learning 评价。2002年,美国教育援助委员会通过表现性 Outcomes Assessment in Higher Education: A Historical 评价测评大学毕业生的批判性思维技能,包括选 Review, Current State, and Future Directions []. Chi- 择题和开放性写作题,其中开放性写作题比较成 na Examinations, 2016(11) 熟,要求学生阅读分析相关语篇后做出批判性回马利红.国外批判性思维开放题测评的发展及启示D.中 应。现在通过表现性评价测评学生的批判性思维 国考试,2018(3).‖Ma,L.H. The Development of 已被拓展应用到美国中学生群体。 Open Questions in Overseas Critical Thinking Assessment and Its Implications []. China Examinations, 2018(3) 5信度和效度 文秋芳.中国外语类大学生思辨能力现状研究[M].北 批判性思维具有多维特征,但是现有批判性 京:外语教学与研究出版社,2012.‖Wem,Q.F.A 思维测评大多报告分维度的得分表现。虽然分维 Study on the Current Situation of Chinese Foreign Lan- 度得分可提供批判性思维某一技能的详细信息, guage Students'Critical Thinking Ability [M]. Beijing 但这些维度的信度并不高,维度划分并没有足够 Foreign Language Teaching and Research Press, 2012 的实证证据( Liu et al.2014:1-23)。更有甚者,文秋芳王海妹王建卿赵彩然刘艳萍.我国外语 21994-2019ChinaAcademicJOurnalElectronicpUblishingHouse.Allrightsreservedhttp:/www.cnki.net
场与观念不同,被试可以论证自己的答案( Ennis 1993: 179 -186) 。鉴于选择 + 构答反应这种题型 综合性强,可弥补选择题的不足,允许学生背景差 异和对题目阐释的差异存在,很多研究者力荐采用 选择 + 构答反应的形式命制批判性思维题目。研 究表明尽管构答反应题型可为批判性思维测评提 供真实情景,但是表面效度很强,作答时间等同的 情况下,构答反应题的信度低于选择题( Lee et al. 2011: 115 -136) 。 Halpern 研发的 HCTA 和 HCTAES 将选择题 和构答反应相结合,每个情境下有一道选择题和 一道开放题,测量被试的不同认知能力,选择题主 要考查批判性思维技能,开放题主要考查批判性 思维倾向。另外,EPP( ETS Proficiency Profiles) , CLA + 都是采用选择题和构答反应相结合的形式 ( Educational Testing Service 2010 ) 。Ku ( 2009: 70 - 76) 指出选择题、调查问卷可能不是最有效 的测评批判性思维的方式,并提出包括多项选择 和开放题的综合性测评方式以监测被试选择某一 选项时的思维过程,与 Ennis( 1993: 179 - 186) 和 Halpern( 2006) 的测评理念一致。 4. 4 表现性评价 近些年来,国际上出现通过完成某项任务测 评批判性思维能力的方法,即表现性评价。自然 观察是常见的表现性评价方法之一,如受过培训 的观察者以一个人或一组人的活动为中心,进行 观察并记录,描述一系列事情。结构稍复杂的表 现性评价是运用学生档案袋记录学生批判性思维 的日常发展和进步情况。尽管表现性评价是测评 批判性思维的好办法,但是这类评价的效度难以 建立( Ennis 1993: 179 - 186) 。 目前国际上已有的结构较严谨的表现性评价 是美国国家教育进展评估( NEAP) 开发的拓展性 评价。2002 年,美国教育援助委员会通过表现性 评价测评大学毕业生的批判性思维技能,包括选 择题和开放性写作题,其中开放性写作题比较成 熟,要求学生阅读分析相关语篇后做出批判性回 应。现在通过表现性评价测评学生的批判性思维 已被拓展应用到美国中学生群体。 5 信度和效度 批判性思维具有多维特征,但是现有批判性 思维测评大多报告分维度的得分表现。虽然分维 度得分可提供批判性思维某一技能的详细信息, 但这些维度的信度并不高,维度划分并没有足够 的实证证据( Liu et al. 2014: 1 - 23) 。更有甚者, 基于 60 项研究的元分析表明批判性思维其实只 有一个单因子( Bernard et al. 2008: 15 - 22) 。 批判性思维测评的效度研究主要通过与其他 认知技能的相关性来验证,比如批判性思维与一 般认知技能( 如 SAT 和 GRE) 具有中度相关,与 GPA 和课程成绩中度相关( Halpern 2006) ,而且 具有较高批判性思维的人比具有较低批判性思维 的人生活更加积极。关于效度验证的研究表明批 判性思维测评研究的数量和质量差异较大,批判 性思维测评的普遍问题包括维度划分证据不充 分,子维度信度低,效度验证证据不充分等( Liu et al. 2014: 1 - 23) 。 6 结论与启示 批判性思维测试工具和测评方式的发展说明 批判性思维测评越来越多样化、学科化和动态化, 为我们开发研制适合中国外语学习者的本土化测 评工具提供很好的借鉴。未来批判性思维测评要 进行情景化、个性化和多样化的探索,量化测评和 质性评价相结合,以更加详实具体的数据展示学 生的批判性思维技能和人格倾向。 思维除具有普遍性特征外,还受文化因素影 响( 文秋芳 2012) 。国内学者对批判性思维的测 评研究缺乏对文化因素的探讨,难以和国际上同 类研究进行比较。因此,研究我国外语学习者的 批判性思维能力,不能一味照搬西方理论,测评工 具也不能停留在对国外工具的翻译和修订上,应 结合我国学生的思维特点,开发适合我国文化背 景和学段特征的批判性思维测评工具。 参考文献 刘 欧. 高校学生学习成果测评的历史、现状和前瞻[J]. 中国 考 试,2016 ( 11 ) . ‖ Liu,O. Student Learning Outcomes Assessment in Higher Education: A Historical Review,Current State,and Future Directions[J]. China Examinations,2016( 11) . 马利红. 国外批判性思维开放题测评的发展及启示[J]. 中 国考试,2018 ( 3) . ‖Ma,L. -H. The Development of Open Questions in Overseas Critical Thinking Assessment and Its Implications[J]. China Examinations,2018( 3) . 文秋芳. 中国外语类大学生思辨能力现状研究[M]. 北 京: 外语教学与研究出版社,2012. ‖Wen,Q. -F. A Study on the Current Situation of Chinese Foreign Language Students' Critical Thinking Ability[M]. Beijing: Foreign Language Teaching and Research Press,2012. 文秋芳 王海妹 王建卿 赵彩然 刘艳萍. 我国外语 67 2019 年 马利红 刘 坚 国外批判性思维测评研究进展 第 3 期
2019年 马利红刘坚国外批判性思维测评研究进展 第3期 类大学生思辨能力量具的修订与信效度检验研究 Instrument for Testing and Teaching [R].Pacific Grove ].外语界,2010(4).‖Wen,Q.F,Wang,H Midwest Publications, 1985 M, Wang, J. Q, Zhao, C. R, Liu, Y.P. Revision Facione, P. A, Facione, N. C. The California Critical nd Reliability and Validity Test of Chinese Foreign Thinking Disposition Intentory MM].Millbrae: Californ Language Students'Critical Thinking Ability Measure- Academic Press, 1992 ment [. Foreign Language World, 2010(4) Forawi, S. A. Standard-based Science Education and Critical 张莎文秋芳.英语专业硕士生思辨倾向的量具构建与 Thinking ] Thinking Shills and Creativity, 2016(20) 实证调查叮.外语学刊,2017(2).‖ Zhang,S, Giancarlo,C.A, Blown,S.W, Urdan,T. Assessing se. Wen,Q.F. Inventory Development and Investigation of Toward Critical Thinking MA English Majors'CTDs []. Foreign Language Re Development of the California Measures of Mental Moti- vation []. Educational and Psychological Measurement Abrami, P, Bernard, E. Borokhovski, D, Waddington, C 2004(2) Wade, C, P T. Strategies for Teaching Students Halpern, D. F. Teaching Critical Thinking for Transfer to Think Critically: A Meta-analysis D]. Review of edu- Across Domains: Dispositions, Skills, Structure Trai- ational Research, 2014(2) ning, and Metacognitive Monitoring D]. American Psy sley, D. A, Ra ologist, 1998(4) sessment Loop on Critical Thinking: The Challenge of Halpern, D F. Halpern Critical Thinking Assessment Using Multidimensional testing and Low test-aking motivation Everyday Situations: Background and Scoring Standards 0]. Thinking Skills and Creativity, 2016(21) [R]. Claremont: Claremont McKenna College Press Bernard, R D, Abrami, P, Sicoly, F, Borokhovs- 2006 M. Exploring the Structure of the Wat- Ku, K.Y. Assessing Students'Critical TI son- Glaser Critical Thinking Appraisal: One Scale or mance: Urging for Measurements Using Multi-response Many Subscales? []. Thinking Shills and creativity Format D]. Thinking Skills and Creativity, 2009(1) 208(3) Lee, H. S, Liu, O.. Linn, M. C. Validating Measure Bridgeman, B, Trapani, C, Attali, Y. Comparison of Hu ment of Knowledge Integration in Science Using Multi nan and Machine Scoring of Essays: Differences by ple-choice and Explanation Items D]. Applied Measure Gender, Ethnicity, and Country []. Applied Measure- ment in Education, 2011(2) ment in Education, 2012(1) Liu,O.. Frankel, L, Katrina, C.R. Assessing Critical Butler, H. A, Dwyer, C P, Hogan, M.J., Franco, A Ri Thinking in Higher Education: Current State and Direc was, S. F, Saiz, C, Almeida, L S. The Halpern Criti- tions for Next-Generation Assessment [] ETS Research cal Thinking Assessment and Real-world Outcomes Report Series, 2014 Cross-national Applications [J]. Thinking Skills and Norris, S. P. Can We Test Validly for Critical Thinking? Creativity, 2012 (7) D. Education Researcher, 1989(9) Educational Testing Service. ETS Proficiency Profile Users Sosu, E. M. The Development and Psychometric Validation Guide [m]. Princeton: Ar of a Critical Thinking Disposition Scale [].Thinking Ennis,RH. Critical Thinking Assessment []. Theory into ills and Creativity, 2013(9) Practice,1993(3) Stapleton, P. Critical Thinking in Japanese L2 Writing: Re- Ennis, R. H, Millman, J, Tomko, T. N. Cornell Critical inking Tired Constructs []. ELT Journal, 2002(3) Thinking Tests [M]. Seaside: Critical Thinking Compa- Tynja"la", P. Traditional Studying for Examination V Constructivist Learning Tasks: Do Learning Outcomes Ennis, R.h., Weir, E. The ennis -Weir ct essay test: An Differ? []. Studies in Higher Education, 1998(21) 定稿日期:2019-04-10 【责任编辑陈庆斌】 21994-2019ChinaAcademicJOurnalElectronicpUblishingHouse.Allrightsreservedhttp:/www.cnki.net
类大学生思辨能力量具的修订与信效度检验研究 [J]. 外语界,2010( 4) . ‖Wen,Q. -F.,Wang,H. - M.,Wang,J. -Q.,Zhao,C. -R.,Liu,Y. -P. Revision and Reliability and Validity Test of Chinese Foreign Language Students' Critical Thinking Ability Measurement[J]. Foreign Language World,2010( 4) . 张 莎 文秋芳. 英语专业硕士生思辨倾向的量具构建与 实证调查[J]. 外语学刊,2017 ( 2) . ‖Zhang,S., Wen,Q. -F. Inventory Development and Investigation of MA English Majors' CTDs [J]. Foreign Language Research,2017( 2) . Abrami,P.,Bernard,E.,Borokhovski,D.,Waddington,C., Wade,C.,Persson,T. Strategies for Teaching Students to Think Critically: A Meta-analysis[J]. Review of Educational Research,2014( 2) . Bensley,D. A.,Rainey,C.,Murtagh,M. P. Closing the Assessment Loop on Critical Thinking: The Challenge of Multidimensional Testing and Low Test-taking Motivation [J]. Thinking Skills and Creativity,2016( 21) . Bernard,R.,Zhang,D.,Abrami,P.,Sicoly,F.,Borokhovski,E.,Surkes,M. Exploring the Structure of the Watson — Glaser Critical Thinking Appraisal: One Scale or Many Subscales? [J]. Thinking Skills and Creativity, 2008( 3) . Bridgeman,B.,Trapani,C.,Attali,Y. Comparison of Human and Machine Scoring of Essays: Differences by Gender,Ethnicity,and Country[J]. Applied Measurement in Education,2012( 1) . Butler,H. A.,Dwyer,C. P.,Hogan,M. J.,Franco,A.,Rivas,S. F.,Saiz,C.,Almeida,L. S. The Halpern Critical Thinking Assessment and Real-world Outcomes: Cross-national Applications[J]. Thinking Skills and Creativity,2012( 7) . Educational Testing Service. ETS Proficiency Profile User's Guide[M]. Princeton: Author,2010. Ennis,R. H. Critical Thinking Assessment[J]. Theory into Practice,1993( 3) . Ennis,R. H.,Millman,J.,Tomko,T. N. Cornell Critical Thinking Tests[M]. Seaside: Critical Thinking Company,1985. Ennis,R. H.,Weir,E. The Ennis-Weir CT Essay Test: An Instrument for Testing and Teaching[R]. Pacific Grove: Midwest Publications,1985. Facione,P. A., Facione, N. C. The California Critical Thinking Disposition Inventory[M]. Millbrae: California Academic Press,1992. Forawi,S. A. Standard-based Science Education and Critical Thinking[J]. Thinking Skills and Creativity,2016( 20) . Giancarlo,C. A.,Blohm,S. W.,Urdan,T. Assessing Secondary Students' Disposition Toward Critical Thinking: Development of the California Measures of Mental Motivation[J]. Educational and Psychological Measurement, 2004( 2) . Halpern,D. F. Teaching Critical Thinking for Transfer Across Domains: Dispositions,Skills,Structure Training,and Metacognitive Monitoring[J]. American Psychologist,1998( 4) . Halpern,D. F. Halpern Critical Thinking Assessment Using Everyday Situations: Background and Scoring Standards [R]. Claremont: Claremont McKenna College Press, 2006. Ku,K. -Y. Assessing Students' Critical Thinking Performance: Urging for Measurements Using Multi-response Format[J]. Thinking Skills and Creativity,2009( 1) . Lee,H. S.,Liu,O. -L.,Linn,M. C. Validating Measurement of Knowledge Integration in Science Using Multiple-choice and Explanation Items[J]. Applied Measurement in Education,2011( 2) . Liu,O. -L.,Frankel,L.,Katrina,C. R. Assessing Critical Thinking in Higher Education: Current State and Directions for Next-Generation Assessment[J]. ETS Research Report Series,2014. Norris,S. P. Can We Test Validly for Critical Thinking? [J]. Education Researcher,1989( 9) . Sosu,E. M. The Development and Psychometric Validation of a Critical Thinking Disposition Scale [J]. Thinking Skills and Creativity,2013( 9) . Stapleton,P. Critical Thinking in Japanese L2 Writing: Rethinking Tired Constructs[J]. ELT Journal,2002( 3) . Tynja¨ la ¨,P. Traditional Studying for Examination Versus Constructivist Learning Tasks: Do Learning Outcomes Differ? [J]. Studies in Higher Education,1998( 21) . 定稿日期: 2019 - 04 - 10 【责任编辑 陈庆斌】 68 2019 年 马利红 刘 坚 国外批判性思维测评研究进展 第 3 期