研究生生涯已经进行了三分之一,新鲜的小学妹们也大波来袭,对小方向语言测试由一无所知到初成体系,本篇算是对已学专业知识的一个总结吧。既是自我交代,也期能为后继想学教育测量和语言测试的同门们提供一点小小的帮助。
第一讲 语言测试的基本概念
一、测试、测量、评估和评述
在教育测量和语言测试的文献中,有四个使用频率很高又很接近的术语,分别是测试(testing)、测量(measurement)、评估(evaluation)和评述(assessment)。
1.测试(testing)
测试是一种特殊测量技术,以获取量化的信息为目的,该信息反映应试者所掌握的某一方面的知识或能力的程度。一般来讲,测试由一系列问题构成,每一个问题都有一个正确答案。可以分为客观性测试(题型有多项选择、正误判断、配伍题等,答案唯一)和主观性测试(口试、作文等,答案不唯一)两大类。
2.测量(measurement)
测量指收集量化信息来决定被测量之物(不限于知识或能力)存在的程度。测量包括测试,测试是测量的一种形式。
3.评估(evaluation)
评估不局限于量化手段,在评估过程中,也经常使用面谈、问卷调查,观察等定性手段来系统的收集信息,目的是作出价值判断或决定。在语言教学效果评估中,语言测试也是常用的手段之一。
4.评述(assessment)
评述是使用最宽泛的术语,广义上值收集语言数据,包括测试数据。总之评价收集定量和定性信息,供评述人了解被评述物之现状。
小结:评述>评估(需作价值判断的评述)>测量>测试
二、测试的分类
1.按照作用/功能分类
(1)学业测试
考察学习者掌握教学大纲规定的学习内容的情况。通常在一门课程结束的时候实施,测试内容以大纲规定的教学目标和教学内容为依据,不受具体教材和课程的影响。很多学业测试采用标准化测试形式。例如高中各科会考,大学四六级考试等。
(2)进展测试
又称课程进展测试,在一门课程的不同阶段或结束时实施,目标是考察学习者掌握课程或教材内容的情况。一般由任课教师命制。
(3)水平测试
考察学习者掌握知识的水平,不以教学大纲、课程计划或者教材为依据,应试者可以是不同的学习背景。有考察一般知识或能力水平的,如我国的公共英语等级考试;有考察应试者是否具备接受某种教育或培训的学科知识水平的,如托福和雅思;也有考察应试者是否具备其所从事的职业要求的语言水平,如我国的职称英语考试。
(4)学能测试
又称预测性测试(prognostic tests),考察应试者学习某一学科的潜能。一般在应试者开始学习相关学科之前实施。著名的学能测试有J.Carroll和S.Sapon设计的MLAT(modern language aptitude test)和Pimsleur设计的PLAB(pimsleur language aptitude battery).
MLAT考察语音编码能力、语法敏感性、归纳式学习能力和机械记忆能力(后来机械学习能力被排除,只保留前三种),详情链接:Modern Language Aptitude Test and Manual_百度文库
PLAB考察言语智能、学习动力和听觉能力。详情链接:PLAB
(5)诊断测试
确定学习者学习中的困难和存在的问题,以便教师及时发现不足,在后续的教学活动中采取补救措施。
(6)分级测试
有的地方也成为分班考试,考察应试者学科知识水平,并以此为依据把他们纳入适当的课程计划中。
2.其他分类
(1)速度测试和强度测试(都测知识或能力)
速度测试测试应试者解决问题的速度,题目一般比较容易,但题目数量大且有时间限制。应试者不能完成测试中全部题目的原因往往是时间不够。
强度测试题目数量不大,但有难度,应试者不能完成测试中全部题目的原因不是时间不够,而是应试者不具备完成全部题目所要求的知识或能力。
(2)主观性测试和客观性测试(根据评分方式区分)
二者的区别是看评分者是否需要对应试者提供的答案的正确性或满足测试的程度作出主观判断。
(3)分立式测验和综合性测验
反映的是测试设计者的语言观和语言能力观。分立式测验认为语言是由笑的语言成分(如语音、词汇、语法等)构成,人的语言能力是可以分解的,由具体的成分构成。在分立式测验中,一个题目只测量应试者掌握一个单独的语言成分的情况,题目彼此独立。20实际中叶占据主导地位,但也从那时起遭到越来越多的批评,人们对他的效度提出了质疑。综合性测验则要求应试者再做一个题目时融合多方面的技能和知识。但其提供的诊断性知识有限。
(4)标准化测试和教师自主命题的测试
(5)形成期评估和终结性评估
(6)常模参照性测验和标准参照性测验
(7)直接性测试和非直接性测试