此前文献以讨论读后续写功效为主,2013年这篇论文指向的是“读后续写”进入语言测试的可能性。
这让我想起上周金老师的导师Professor David Coniam做的讲座,介绍香港英语测试30年过程变化。本论文引言部分有句话:语言测试的历史可以说是一部题型变更发展史。某时期某一题型的使用总有时髦理论的影子,反映人们对语言、语言学习、心理测量、教育心理等理论的当下认识,认识的深化通常带来题型的更替。
全文基于一项测试,对其展开效度、信度取证分析。
测评项目:评分信度、评分量表、题型难度和共时效度 concurrent validity
测试对象:四个班高中学生 完成一个阅读+写作的英语测试,写作包括两项:读后续写+命题作文。读后续写分两种ab卷,a卷无段首句,b卷有段首句。
为检验有效性,该试验请其中一个班的英语老师为学生英语水平排名,当作参考数据。
数据分析工具:Rasch 模型+ SPSS (这一部分已经开始看不懂了。。。)
数据一:总体评分信度
sass 两位评分员打分内部一致性较高,评分显著相关
Rasch 两位评分员打分内部一致性较好
数据二:读后续写评分信度
Rasch模型
评分员信度 与模拟的拟和度较好
数据三:评分量表
量表各档次对续写要求有具体描述,涵盖四方面:内容、结构、语言准确性和语言丰富性。
Rasch模型结果。检验评分量表的一个指标:平均能力度量值。能力强的考生得高分,能力弱的考生得低分。本研究数据结果,总体趋势能力度量值从低到高递增,只有在得11分、15分的考生,能力度量值低于前面的值。
从结果来看,15个等级的评分量表,划分过细偏多,多个等级之间区分不明显,影响评分质量
数据四:读后续写的难度
读后续学有段首句的最难,无段首句的其次,命题作文最低。
数据五:读后续写的共时效度
与英语老师给出的英语水平排名表做相关分析,有显著意义,共时效度良好。
结论:
效度、信度都ok
个人感悟:
本研究要求对数据统计工具非常熟悉,看完这篇意识到自己这方面还是最大的缺陷,最大的问题是,我还没明白这些统计的目的、意义。但其中有关评分角度的分项,值得借鉴。我正在准备的读后续写写作策略研究,正处在不知道如何分析语料的分叉口,亟待找到一个分析方向,着手操作。