摘 要:高质量的课堂评价要从测试目的、学习目标、测试设计和高效的传达四大要素综合考量。本文聚焦学习目标与测试设计之间的衔接,首先讨论了学习目标的类别,特别是学习目标中的认知维度,认为 Chappuis 和 Stiggins(2017)的思维目标便于教师在课堂评价中操作使用。本文接着对评价方法和手段进行分类,构建了四大类十二小类的评价方法和手段系统。基于前面的讨论,本文最后对学习目标与评价方法和手段之间的契合度进行评判和讨论,旨在为教师在课堂评价决策过程中提供思考方向。
关键词:课堂评价;学习目标;评价方法和手段;匹配
作者:林敦来,北京师范大学外国语言文学学院副教授,硕士生导师,
北京师范大学外文学院公外部主任。
引言
每一项测试均源于特定目的。教师在进行课堂评价过程中容易出现的误区之一是混淆两大类别的测试:常模参照测试和标准参照测试。前者关注学生的排名情况,而后者关注的则是学生是否达到教学目标要求。 Brown(2017a)将标准参照测试看作是教师为诊断学生学习或检测学生学习成果而准备的测试,它能提高学生的学习动机并能提供及时的反馈,从而促进学习。
因此笔者倡议教师在课堂评价中应该主要采用标准参照测试。在标准参照测试中,确定明确的学习目标极其重要,本文首先介绍学习目标的类别,然后参阅 Brown(2017b)介绍课堂评价中常见的评价方法和手段,并探讨这些评价方法和手段与学习目标之间的匹配度问题,以期为教师提供在课堂评价决策中的思考方向。
学习目标分类
在讨论学习目标之前,有必要先介绍高质量课堂评价的要素。Chappuis & Stiggins(2017)通过长期的研究发现高质量课堂评价要有四大要素(如图1所示)。图1显示高质量的课堂评价源于清晰的测试目的,其目的可以是终结性的,如验收学生学习成果;也可以是形成性的,如诊断问题所在以调整教学。
图 1. 高质量的课堂评价(改编自 Chappuis & Stiggins,2017)
测试目的决定了测试目标和测试设计。如上文所述,教师应该在课堂评价中采用标准参照测试,设定明确的学习目标作为考查重点,并依此设计恰当的评价方法来检测学习目标。最后,高质量的课堂评价还需要高效的传达,为学生提供详细的学习成果数据,让他们知晓学习目标的完成情况,发挥课堂评价的促学作用。在整个过程中,不难看出学习目标的基础性作用。
Stiggins 和 Conklin(1992)将学习目标分为知识目标、思维目标、表现性技能目标、成果目标和情感目标。知识目标包括陈述性知识(如词汇)、程序性知识(如隐性语法)和概念性知识(如被动语态的概念)。表现性技能目标如英语学习中的大声流利朗读。成果目标如学生完成的英语海报、撰写出来的英语小短文。情感目标如学生的兴趣、学习动机和态度。
随着《欧洲语言共同参考框架》在全球范围内受广泛关注以及中国英语语言能力量表的制定,基于行为的语言能力使用视角受到国内专家学者和一线教师的关注,特别是能做表述(can-dostatements)。在这些表述中一般有三个要素,即条件、标准与表现,如能在嘈杂的环境中(如在机场)听懂广播,提取有用信息完成相应任务。在本条描述语中还可以看到“提取”这个认知动词,实际上它反映的就是思维目标。
就思维目标来说,广为人知的是布鲁姆的教育目标分类(如图2)。但是布鲁姆教育目标分类也有一些问题,如它将教育目标分为低阶思维和高阶思维,存在误导性,因为在每个层面的认知难度都可能存在很大差异,识记某个内容的难度不一定会亚于领会某个简单概念。把识记作为最初级的低阶思维也容易误导人们忽视记忆的作用。
图 2. 布鲁姆教育目标分类(改编自 Anderson et al., 2001)
应用应该是所有学习的目标,并与其他目标结合使用,而在此框架中它出现在低阶思维,令人费解。鉴于此,应该在思维目标中淡化“低阶”和“高阶”的概念,构建一种较为“平等”的思维目标框架。Chappuis 和 Stiggins(2017)的思维目标分类(见表1),该分类将思维目标分为六大类别,类别之间不突显高低之分,但是却有可能在同一任务中互相依赖,协同发力。
表1. Chappuis & Stiggins(2017)思维目标的常见分类
具体来说,推断可以是归纳性和演绎性的。在英语测评中常见的有总结文章或文段大意,推测作者意图、预测人物行为等等。分析如根据词汇的前缀、后缀和词根等理解词汇含义,或者分析文本中关于某个话题的不同看法,找出正面和/或反面证据。
对比如英语测评中常见的 Odd One Out,通过对比比较,挑出不同的内容。分类如英语测评中常见的将词汇含义根据不同的标准进行归类。评价如要求学生评判不同来源收集的信息可信度,学生需要提出主张,设定标准,用证据评判信息。整合常见于学生撰写的英语报告,学生需要阅读不同的材料,将其中的要素结合起来,用自己的语言表达自己的想法。
评价方法与手段
Brown(2017b)总结了四大类十二种评价类型。这四大类包括选择应答题(selected response, receptive response, selection item)、建构应答题(constructed response, productive response, supply item)、个人应答(personal response)和个性化应答(individualized response)。
选择应答题的三种类型为正误判断、选择题和匹配题。建构应答题的三种类型为填空题、简答题和表现性评价。表现性评价指让学生写作、进行口语表达或角色表演等。它能够模拟现实真实的语言运用,因此能够弥补客观题的不良影响。个人应答聚焦学习者,让学生积极参与评价,运用语言来创造对学生个体来说重要的意义或模仿真实的语言运用。
个人应答包括档案袋评价、讨论会评价和自评/他评。档案袋评价(portfolio assessment)是收集评价数据的一种方式。它可以记录学生的成长数据,也可以是学生最佳作品的集合或者是喜欢的阅读材料集合。例如学生可以选择自己喜欢的阅读文本放入档案袋,文后撰写评论,在课堂小组活动中为同学介绍这些文本及选择依据。课后教师可以回收学生档案袋,基于材料为每位学生设计阅读理解问题,并让学生回答这些问题(Brown,2013)。
在讨论会评价(conference assessment)中,教师可以与一名或多名同学就语言学习的某个方面进行讨论指导,如语法点、某个任务、写作的某个方面。在这个过程中,学生对自己的优缺点有更加详细的了解,也对自己的学习进程和策略有更深认识。自评/他评给学生评价自己的作品和同伴作品的机会,这种方式与表现性评价、档案袋评价和讨论会评价都能结合起来使用。它将学生与评价更加紧密地联系在一起,帮助学生了解学习进程,鼓励学生自主学习,提高学生的学习动机。
个性化应答更加聚焦学习者个体。评价和反馈均针对学生个体,量体裁衣,能够准确地检测学生的学习进程。
个性化应答包含三种评价手段:
(1)连续评价(continuous assessment)通过连续、循环和累积的方式将绝大多数学习活动转换成评价活动(Puhl,1997)。通过建构反馈圈提高学生的学习动机。在多数情况下,将反馈加入到现有的课堂教学活动中就可能实现连续评价。连续评价的一个例子是在课堂中加入连续反思环节,学生完成某项学习任务后立刻回答一些反思性问题,如哪个方面做得好,哪个方面有待提高,将来可以如何做得更好,为此我要进行哪些训练等等(Brown,2013)。
(2)差异评价(differentiated assessment)首先考虑学生的学习风格,运用一些量表评定学生的学习风格是视觉型、听觉型和动觉型,然后为不同风格的学生提供不同的评价方式。例如在考查学生对说明书的理解中,为视觉型的学生提供文本或图片,为听觉型的学生读出说明书,为动觉型的学生提供模拟物品进行实操,这些评价活动有助于提高学生的学习动机。
(3)动态评价(dynamic assessment)源于社会文化理论,关注学生最近发展区(Zone of Proximal Development,简称ZPD),即在干预下学生能够展现哪些潜能,又称学习潜能评价(learning potential assessment),是对在评价过程中,通过评价者和学生的互动,尤其是在有经验的评价者的帮助下,探索和发现学生潜在发展能力的一系列评价方式的统称。一个简单的例子可以是:学生说:“I go toschool yesterday.”老师重复这句话,指出这句话有问题,学生如果没有意识到这句话的问题,教师可以说:“Go?”以导向动词时态,如果学生说:“Goed?”教师可以说还有问题,学生继续努力,如果最终不能产出 went,教师就说应该是:“I went to school yesterday.”通过这一系列互动,教师能够发现不同学生的ZPD,对于提高学生的学习和学习动机都有促进作用。
应该指出,上文中选择应答题和建构应答题(除了表现性评价)属于微观的具体的评价方法,称为题项(items),而表现性评价和个体应答以及个性化应答均属于宏观的评价手段,是收集数据的方法,称为评价(assessment)。总体上说,宏观的评价手段能够规避传统测试的局限性,带来良好的反拨作用。个体应答和个性化应答关注学生个体,对学生的动机有良好的促进作用。
学习目标与评价方法和手段的匹配度考量
在明确了学习目标和可供选择的评价方法与手段后,教师要考虑学习目标与评价方法的匹配问题,以便在课堂评价中能够实现良好的课堂评价设计。表2是关于学习目标与评价方法和手段的总体匹配情况。
表 2. 学习目标与评价方法的总体匹配度
表格中的数字0代表完全不匹配,1代表部分匹配,2代表匹配较好,3代表匹配非常好。如果要测试知识,如单词的拼写,选择简答、个人应答和个性化应答都能够全面考查到。选择应答题因其非直接测试,不能确保完全测试到知识的各个方面,匹配度为2。而表现性评价因学生有可能避免使用欲测词汇,没有获得相应数据而不能判定学生是否掌握相应的词汇,故采用表现性评价测试知识不是可靠的做法,匹配度为1。
从思维目标测试看,选择应答题可以测试许多但是不是所有的思维目标(如评价、整合),因此匹配度为2,简答题可以测试到所有的思维目标,匹配度为3,表现性评价因任务完成的失败不能确保是哪个环节出现问题,比如学生整合信息过程中是没有看懂原文,还是没有足够的表达能力,抑或是不具备整合的能力。因此匹配度为2。
个人应答和个性化应答均能够完整考查思维目标,匹配度为3。表现性技能在比较少的情况下,如请学生将图片中的某个物品涂成什么颜色,能够用选择应答题测试该目标,但是在绝大多数情况下需要通过学生的实际表现,如大声流利朗读来评价,因此它与表现性评价、个人应答和个性化应答的匹配度为3。成果目标如学生撰写出连贯的英语小作文,制作出英语小广告或海报等只能通过表现性评价、个人应答和个性化应答来实现,匹配度为3。
表3列出了语言测评中的具体技能与评价方法手段的匹配。它能与表2相互辉映,从技能和学习目标方面为教师的课堂评价提供思考方向。在表3中,语言测评技能除了常见的听、说、读、写、词汇语法以外,还涉及了综合技能评价,如读写结合和听说结合。读写结合近年来受到广泛关注,研究者们认为它因为与现实中的任务更加接近而有更高的真实性。读写结合的常见任务有概要写作、读后续写等。
表 3 评价方法或手段与具体技能的匹配度(改编自 Brown, 2017b)
语音分两个层面考查,语音音素考查学生处理单个单词发音的能力,常见的评价内容如最小对立体(ship—sheep)。语篇语音考查的是学生处理自然口语中的韵律的能力,如重读、连读、弱化等现象。语用考查的是语言在实际环境中的运用能力,如礼貌用语、言外之意、指代等。我们用 N(not apply)来代表内容与方法之间不匹配,P(passive)代表内容与方法之间只在接受性信息方面匹配,而B(both passive and productive)代表在接受性信息和产出性信息上均匹配。
例如,阅读中我们可以用正误判断(如看一幅图片,让学生判断一句话 This is a cat. 是否正确)、选择题和匹配题来考查学生是否具备输入性阅读能力。而填空题、简答题以及表格下方的评价方法或手段能考查学生读懂文本,并产出对文本的理解,因此匹配度为B。
从表3中,我们可以大体看到从简答题开始到以下各种评价手段均能测试语言技能中的接受性信息和产出性信息。但是在实际决策中,我们要考虑学习目标与方法手段的总体匹配情况(见表2)。例如,我们要评价学生的阅读理解能力,如果只是考查知识和思维目标,从表2可知,选择应答题基本能满足我们的需求,在课堂评价中可以选择正误判断(Which of the statements is true according to the text?)、选择题(What is the main idea of the text?)、匹配题(Match the scientists with the inventions they have made as described in the text.)。
这些题型便于监考,便于评分,便于反馈,可操作性很强。但是测试的是学生的接受性知识。填空题和简答题与学习目标匹配度非常高,是更好的选择,但是它的评分可能有一定的困难,比如测试评价思维能力时,学生答案可能多种多样,需要基于学生表现进行评分标准的细化。
部分考试,如雅思阅读,采用控制回答字数来降低评分难度,但是其后果却使得其能测试的思维目标窄化。表现性评价与学习目标的匹配为1,如让学生撰写一篇文章来展示他们对原文的理解,但是如果学生写出的文章不佳,我们很难确定问题出在哪里,是学生的阅读理解出现问题,是任务太宽泛,还是学生写作能力不足,难有定论。
个人应答和个性化应答关注学生,是非常可取的评价方法,但是在具体情境中,如班级大、教师工作量大的情况下,用它们来评价学生的阅读理解有困难,另外评分也有困难。
结语
本文中,笔者讨论了学习目标与评价方法和手段的匹配问题,旨在为一线教师的课堂评价提供一个思路。在讨论中我们看到个人应答和个性化应答与学习目标在宏观上和微观上的匹配度均很高,而且有助于提高学生的学习动机,在课堂评价中应尽可能多采用。但是我们也需要注意到,进行个人应答和个性化应答对教师的专业发展提出挑战,比如他们需要对评价方法和手段、语言本身、语言能力的发展路径、评分标准的制定、反馈的方式等有更深刻的了解,总结起来就是他们需要很高的英语测评素养。而目前研究显示,教师的测评素养有很大的提升空间。教师可以通过参加工作坊、阅读相关文献、参加在职培训等方法提升测评素养,而相关管理机构也应该投入更大的财力物力帮助一线教师,为他们测评素养的提升提供政策支持和培训机会。