原创 李倩等 语文建设杂志 2024-05-29 17:48 北京
(本文约7343字,阅读大约需要20分钟)
【摘 要】深化学业水平考试变革是国际教育发展的重要组成部分。立足核心素养的内涵与特点,国际语文学业水平考试在测评理念、测评设计、测评结果等方面作出了诸多探索。在测评理念上,立足课程评价的整体性,促进过程性与终结性评价理念的融合;在测评设计上,探索教育数字化赋能测评设计与实施,创设情境性、交互性在线测试系统;在测评结果的分析与应用上,强调测评、教学、学习之间的有效关联,充分发挥测评数据的教育价值。
【关键词】语文学业水平考试;测评理念;测评设计;测评结果
以教育考试评价理念和实践的变革加速课程内容和教学方式的变革,是国际课程改革的重要实践经验。[1]在《义务教育语文课程标准(2022年版)》中,根据核心素养立意的课程目标与课程内容,学业水平考试部分对命题原则、规划、要求进行了优化与升级。变革语文学业水平考试的迫切性,不仅源于教育测评和评价自身理论、实践的优化与迭代,更是由核心素养这一育人目标的特殊性决定的。相比于知识和技能,核心素养内在结构复杂程度高、构成要素之间的关联性强。[2]这一属性对已有的教育考试和评价实践经验提出了新的挑战。近年来,以经济合作与发展组织(OECD)、国际教育成就评价协会(IEA)为代表的国际教育组织和研究团队,力图在设计理念、理论假设、试题设计等方面开展创新性探索。为此,本研究立足语文学业水平考试变革的现实需求,聚焦国际核心素养测评理论和实践研究,从“测评理念”“测评设计”“测评结果”三个维度,梳理并探究语文学业水平考试研究的国际前沿和发展趋势。
一、测评理念:强调终结性与过程性评价理念的融合
终结性评价和过程性评价构成了语文课程评价。前者强调以特定阶段的学业水平考试成绩来评价语文教和学的成效,后者则重视课堂教学以及日常学习中的过程性学业表现和成果的价值,以此作为提升和改进教学的客观依据。在教学实践中,终结性评价与过程性评价往往呈现出泾渭分明的状态,且其某一方面的特点被逐渐强化、放大,致使对评价的片面化认识愈加突出,如将终结性评价简化为学业水平考试,过度关注其量化倾向和价值判断功能;将课堂评价视作过程性评价的唯一方式,忽视其优化学生学习的功能价值。事实上,区分两种评价模式的关键并非评价工具的类型,更非评价结果的形态,而是评价结果的使用及其同教和学之间的互动关系。换言之,无论是终结性评价,还是过程性评价,其根本目的在于促进课程目标的有效实现,推动教学进程的深化。从这一角度出发,任何教育评价的设计和实施都应着眼于课程评价的系统性与整体性,既要关注不同评价模式之间的区别,更要推动彼此之间的互动与关联。近年来,在价值取向和设计理念方面,越来越多国际教育测评项目开始强调“评价观的一致性”“终结性与过程性评价理念的融合”。
所谓“评价观”,是指对评价的基本内涵、价值、功能的基础性认知与理解。随着教育测量和评价理论的不断革新,对“评价是什么”这一核心问题的认识,不过度强调终结性或过程性的差异,而是强调对“评价”本质属性认识的一致与统一。受心理测量学的影响,教育考试评价往往被视为客观测量和精准丈量学生内在稳定特质或属性的过程。这与教育发展的客观现实存在着本质性的矛盾和冲突。学生核心素养的形成、发展是一个动态变化的过程,会受到课程、教师、学习同伴、家庭等诸多因素的影响。考试评价应随学习进程的变化来测量、观察、记录学生的变化和发展,以此推测并解释学生学习进程的变化趋势和影响因素。因此,教育考试评价是以特定的教育目标为出发点,运用科学有效的工具,系统搜集与分析不同类型证据,并作出推理与判断的过程。[3]这个对评价的核心认识成为语文教育考试和评价设计的重要认识论基础。美国教育考试服务中心研发的“认知视角的学习评价、促进与作为学习工具的评价系统”(Cognitively Based Assessment of, for, and as Learning),其设计依据为以证据为中心的测评理论,强调“基于证据开展推论”的核心思想。[4]从本质上来看,测评是以搜集与观察到的学生真实学习表现为基础,推测其发展情况或水平的过程。[5]因此,有效采集与分析证据是教育评价实践的关键。据此,英语语言艺术考试评价的设计至少要包括学生模型(阐述“评价什么”)、任务模型(描述“运用怎样的任务开展评价”)、证据模型(说明任务模型如何为学生模型提供证据)等部分。值得关注的是,除了作为认识论基础,这一思想还影响着测试数据的搜集。国际阅读素养进展研究(Progress in International Reading Literacy Study,简称PIRLS)强调要通过拓展与学生阅读素养表现密切相关的证据。[6]具体而言,除学生阅读素养测试外,还会以调查问卷的方式,搜集学生所在国家的阅读课程政策、家庭阅读环境、教师阅读教学行为、学生个人阅读投入等相关信息,以此追踪与系统刻画全球范围内学生阅读素养的发展趋势。
要想打破终结性与过程性评价之间的绝对壁垒,即在设计学业水平测试过程中,有意识地吸纳与嵌入过程性评价的观念。两种评价模式的“融合与整合”,鲜明地体现在“如何搜集证据”“搜集哪些证据”两个方面。一般而言,学业水平测试中“问题”或“任务”的设置往往会关注学生了解与掌握的语文学科知识和技能。显然,这与“评价促进学习”目标存在一定的距离。在测评任务设计上,还应体现学生为什么会这样思考问题,他们的理解和想法是如何产生的。换言之,要充分体现学生理解与解决语文学科关键问题的过程和结果,要给予学生立体而全面地呈现自身语文学习经验的空间和条件。以英国普通中等教育毕业考试(General Certificate of Secondary Education)为例,经典文学作品的阅读与理解是其重要考查内容。因其选择的作品多为篇幅较长、体量较大的整本书,测试任务的设计并未聚焦于主要内容、关键人物、重要情节的浅层理解,而是通过设置指向作品深度阅读的系列化问题,评估学生的阅读质量。以文学作品《安妮塔和我》为例,主要设计了三道试题:(1)通过阅读选段内容,你对主人公纳尼亚有哪些认识?用原著选段中的证据来支撑你的答案。(2)解释选段中作者是如何用语言来呈现安妮塔的演讲和行为的。用原著选段中的证据来支撑你的答案。(3)在选段中,涉及了一些不同文化的元素。尝试说明在小说中的其他部分,不同文化的重要性。在你的回答中,你必须考虑到展示不同文化的事件,这些差异如何影响到那些涉及不同文化的内容。从问题的具体内容可知,除了学习成果,学生还要展现作品阅读过程中的方法、策略、结构化思考等。此外,在学业水平考试中,借助数字化测评技术与手段,记录学生过程性的行为与表现,以此作为推论学生学业成就表现水平的重要依据。以美国教育考试服务中心的写作在线测试为例,数字化测试记录了学生写作过程中的按键数据,主要包括停顿时间长短、文本删除与无序性文字编辑、不间断文字编辑。[7]借助过程性表现的分析,综合判断学生写作素养的内在特点与发展水平。
二、测评设计:探索教育数字化赋能测评设计和实施
数字技术的深入发展为核心素养测评摆脱现实困境提供了诸多可能。以信息网络平台与人工智能技术为基础,越来越多的国际教育测评实践从纸笔测试逐渐转向数字化在线测试。2015年,PISA(国际学生评估项目)测试开始大规模使用计算机自适应测试系统;由国际教育成就评估协会组织实施的PIRLS阅读素养、TIMSS数学素养测试,分别于2016年、2019年将数字化评估作为可选择性的方式,并拟定于2023年、2026年实现数字化评估的全面覆盖。同时,澳大利亚全国读写与算数能力评价项目,自2008年开始推动数字化测试改革,并于2022年实现所有监测学科的数字化转型。
所谓“数字化教育测评”是指以教育目的与目标为根本出发点,利用信息科技、大数据分析与人工智能的技术优势等,建立动态性搜集与分析数据的自动化平台,为教育决策的制定与调整提供客观依据。需要强调的是,数字化教育测评并非数字化技术与教育测评“形式”层面的简单相加,更非媒介或手段等测评呈现形态的改变,而是以对教育测评、核心素养、教学和学习规律的深刻反思为基础,进行在“设计理念”“测评形式”等多层面的创新性探索。当前,计算机自适应测试是数字化教育测评的核心实践成果。该测试以项目反应理论为基础,构建包含不同难度水平的题库,根据学生展现出的内在能力水平自动匹配难度适宜的题目,最终综合估计学生的真实能力水平。与常态化纸笔测试相比,其优势集中体现在以下三个方面。
首先,展现真实而复杂的语文学习生态系统。纸笔测试往往遵循的是“问题—个体—反应”的模式,即以问题的形式检验学生对某一知识或特定技能的掌握程度。仅从测评角度来看,其优势在于可直接借助学生的作答反应作出价值判断。若立足于课程、教学、评价的互动关系,其背后的隐患和风险则不言自明。对学生而言,语文学习是由多元主体、多种要素互动协作的复杂动力系统,不仅包含与文本材料、学习问题的互动,还必然包括与教师、学习伙伴、文化情境等多种要素的相互作用。针对这一现实,计算机在线测试尝试以“问题—人际互动—个体—人际互动—行为”的模式表征语文学习的真实形态,力图实现“评价反映教学,促进教与学”的理念。以美国教育考试服务中心研发的“为了理解而阅读”在线测试系统为例,测试单元“建设绿色校园网站”围绕“如何借助主题网站的建设,帮助社区民众了解绿色校园”这一核心学习问题,呈现了以小组合作学习为主要形式的测试题目。在“撰写绿色校园简介”任务中,参加测试的学生要在学习同伴完成的内容基础上,进一步补充完善相关内容。综合来看,每一个测试单元包含学习主题、文本材料、合作学习小组、学习任务等要素,以此来综合评估学生阅读素养的表现特征和发展水平。
其次,设置连续、立体的语文学习情境。情境是指学习行为和实践活动所依托的真实环境[8],是学生核心素养形成和发展的必要条件。当前,语文纸笔测试已在情境主题类型、表征形式等方面作出了诸多探索。但是,从测试效果来看,仍存在“与问题解决过程无实质性关系”“与现实生活逻辑存在矛盾”等方面的问题。[9]针对这一现状,计算机在线测试更为关注情境的连续性,即强调问题源于情境、情境内所包含的要素持续参与问题解决的过程。此时,数字化测试中的“情境”至少能够取得两个方面的效果:一是为学生提供解决问题的立场、目的、条件等,充分提高学生的参与度和积极性,为全面了解学生真实核心素养发展水平提供坚实的基础;二是促进学生学习观和知识观的转变,帮助学生在语文学习与现实生活之间建立合理的联系。美国国家教育进展评估项目中,写作素养的评估是借助计算机在线测试系统开展的。以说明类写作试题为例,该试题要求学生写一篇即将投稿给大学管理委员会的介绍信息科技的文章,阐释说明科学技术对自身生活的重要性。在该试题中,情境是由若干要素构成的整体,具体包括视频资料、真实的交际目的和对象、预期效果等。视频资料主要展示了当下青少年在生活中是如何使用现代科学技术的;交际的目的是说服他人接受自己的观点,对象为大学管理委员会;预期取得的交际效果为使学校管理委员会关注科学技术的重要价值,并重视科学技术与学校管理的深度融合。上述要素展现了写作的主题,也深度参与了学生构思与撰写文章的全过程。
最后,设置人机交互式测试模式。“交互”强调的是主体与客体之间的交流互动。在纸笔测试中,测试内容和任务往往以静态、线性的方式呈现,学生与其的交流互动难以可视化。相反,以计算机网络平台为依托的数字化测试,通过“虚拟代理”预设脚本的方式[10],创设真实的测试情境,设置扮演不同角色的学习同伴,引导学生按照特定的路径和流程[11],展现自己对问题的认识和理解。在测试过程中,学生通过角色扮演、点击超链接、多媒体播放、文本拖拽等方式,真实地投入问题解决的过程中。以2021年ePIRLS阅读素养测试为例,测试情境为“课堂专题探究”,探究的核心问题是“为了生存,以斑马和羚羊为代表的野生动物每一年是如何完成迁徙的”。整个测试包含两个虚拟角色,一个是“教师”,其角色功能在于介绍专题探究的内容、引导学生遵循特定的流程完成探究任务;另一个角色是“学生”,通过浏览文本、点击超链接文本等相关操作,展现自己对文本、问题的理解与认识。
三、测评结果:加强测评、教学、学习之间的有效关联
在一项测评实践结束后,测评结果所代表的绝对意义往往备受瞩目。这种现象背后隐含的思想观念是“测评即是对学生学习成果、教师教学成果的价值评判”。然而,教育测评的设计和实施应首先满足“教育性”这一条件,即立足测评与教学、学习的良性互动关系,充分发挥测评工具、测评结果对提升教育质量、改进优化教学实践的正向促进作用。换言之,教育实践者追求的不应是量化结果的排序和比较,而是深度挖掘、分析数据背后的意义。以此为基础,结合教育实践的观察和分析,及时捕捉教育教学发展中的关键问题,制订具有改进和提升功能的行动方案。在这一观念的影响下,越来越多的国际教育测评尝试在“测评”“教学”“学习”三者之间建立有效的关联互动。
根据测评结果的作用对象,可以将其价值和功能概括为三种类型,分别为“宏观把控国家教育政策的实施效果”“有效解决学校教学实践的现实困境”“及时诊断学生学习过程中的问题”。
首先,在国际教育大规模测评中,测评结果往往反映的是特定国家教育政策的实施效果。通过对学生在特定领域测试结果的分析,以及与不同层面影响因素的关联,能发现全球教育发展背景下教育教学的“最佳模式”和“关键问题”,从而形成分析诊断全球教育问题的专业报告,并据此对排名靠后的国家提供教育援助和支持。[12]以PIRLS和PISA阅读素养测试为例,借助教育国际排名和影响因素的调查结果,能够发现2018年尽管我国四省市参测学生的阅读表现位居全球第一位,但达到水平5与水平6的比例之和为21.7%,明显低于新加坡(25.8%)[13];同时,与英国、澳大利亚、芬兰等国家相比,社会经济地位对学生阅读素养表现水平具有较强的预测作用[14]。此类数据不仅能帮助我们认识到自身课程政策的优势和问题,也为未来课程、教学的改革明确了方向。
其次,学校是落实教育变革理念的主要实践主体。借助测评数据客观反映学校教育教学状况,对促进国家教育政策的实施具有重要意义。然而,抽样方式的特点,使大规模教育测评难以直接反映学校教育教学的现实情况。因此,以学校为测评及改进单位的实践项目逐渐兴起。近来,经济合作组织推出“基于PISA的学校测评”项目,其测评目标主要包括三个部分:一是衡量学生阅读素养及其21世纪核心素养的发展水平;二是通过搜集学生社会经济背景、学习动机等相关数据,为学校教育教学的建设与发展提供客观依据;三是借助测评数据的分析,为学校管理者和教师改进行动提供证据。该项目主要包括测评、拓展、行动三个方面。以阅读素养测试为例,测评部分主要是以学校报告的方式呈现学生阅读、社会情感能力等方面的整体表现,并将其与全球、国家平均水平进行比较;拓展方面,为学校提供全球范围内阅读素养培养的优质实践框架,以学生数据来指导教师教学实践和学生的个体学习,为学校学习环境的营造提供辅助信息;行动部分,帮助学校明确提升学生阅读素养的起点和方向,为学校提供向国际同行学习的机会。
最后,测评数据源自学生的真实表现,它不仅可以作用于国家教育、学校教学层面的改进提升,还可以帮助学生发现自身学习过程中的优势和问题。在大规模测试中,教师较为关注具有典型性和代表性的群体特征,并以此作为调整教学进程的重要依据。在这种情况下,学生个性化的学习问题往往会被忽略,并成为阻碍学习不断深化的因素。为了帮助学生准确分析诊断学习困境,越来越多的测评系统注重个性化的“诊断”“反馈”功能。2022年,香港考试及评核局正式推出香港中学文凭考试诊断回馈系统,以建立“为教学和学习提供反馈”测评系统。教师可根据学生或教学需要,组合不同类型的试卷并分配给不同的学生,进而根据学生作答结果的分析,制订相应的教学改进计划。在完成测试后,学生可获得包含整体表现水平、分内容和认知领域的表现水平、错题表现、题目的学习提示等相关内容。借助这些内容,学生可改进自身的学习方法,优化学习效果。
总体而言,核心素养这一育人目标的确定,不仅改变了课程组织形态和教学实践方式,也促进了教育测量和评价设计理念、实施方式的深刻变革。当前,针对核心素养的复杂性、综合性特点,国内外研究者已在测评理念和形式、统计分析方法、测评结果自动化分析等方面作出了诸多探索与尝试。本研究仅呈现了对国际学业水平考试国际前沿的阶段性理解与认识,未来应聚焦语文课程核心素养的特点,在上述方面作出更深入的探究。
参考文献:
[1]Klenowski V. Assessment Reform and Educational Change in Australia [M]//Assessment Reform in Education. Springer,Dordrecht,2011:63~74.
[2]European Commission,Directorate-General for Education,Youth,Sport and Culture. Key Competences for Lifelong Learning[M].Publications Office of the European Union,2019:5.
[3]索耶.剑桥学习科学手册:第2版[M].徐小东,等译.北京:教育科学出版社,2021:236~241.
[4] Deane P, Sabatini J, Feng G, et al. Key practices in the English language arts (ELA):Linking learning theory, assessment, and instruction[J]. ETS Research Report Series, 2015(2).
[5] Riconscente M M, Mislevy R J, Corrigan S. Evidence-Centered Design[M]//Handbook of Test Development. Routledge, 2015:40~63.
[6]Mullis I V S,Martin M O. PIRLS 2021 Assessment Frameworks[M].International Association for the Evaluation of Educational Achievement.The Netherlands,2019.
[7] Guo H, Zhang M, Deane P, et al. Writing process differences in subgroups reflected in keystroke logs[J]. Journal of Educational and Behavioral Statistics,2019(5).
[8] Bellocchi A, King D T, Ritchie S M. Context-based assessment:Creating opportunities for resonance between classroom fields and societal fields[J]. International Journal of Science Education,2016(8).
[9]叶丽新.语文情境化命题:进展表现与深化路径[J].全球教育展望,2022(7).
[10]首新,等.基于过程数据的人机“虚拟代理”协作问题解决测评研究——以PISA中国四地区为例[J].现代教育技术,2023(10).
[11]檀慧玲,等.国际教育评价项目合作问题解决能力测评:指标框架、评价标准及技术分析[J].电化教育研究,2018(9).
[12]王超.教育国际排名作为全球基础教育治理工具及其反思[J].比较教育学报,2023(4).
[13]OECD. PISA 2018 Results (Volume I):What Students Know and Can Do [M]. Paris:OECD Publishing,2019:107.
[14]OECD. PISA 2018 Results (Volume II):Where All Students Can Succeed [M].Paris:OECD Publishing,2019:60.
(李倩 董怡雯:北京师范大学 中国基础教育质量监测协同创新中心;郑国民 :北京师范大学文学院)
[本文原载于《语文建设》2024年5月(上半月)]
(微信编辑:苟莹莹;校对:张兰)
END