美国:出题100万,测量学100万
一、题目难度与区分度估计
1.1题目质量评价概述
@题目质量中的问题:
*计分方式在设计上有问题(0、3,或0123)
*选择题选项分布
*题目赋分或加权方式不当
*分数合成方式不当
*题目贡献度太小(要么都会、要么都不会)
*题目难度的分布有缺陷
*数据有缺陷
1.2题目作答反应分析
1.2.1 客观题的CTT分析:随不通能力学生段,选项选择的分布变化。
中等水平的学生(平均分)正答率要高于50%,TOP10%学生正答率最高——好题。
高水平正答率高,低水平正答率低
好题目的选项分布特点(选项分布分析):
1.2.2 主观题的CTT分析
0-5,信度0、0.5、1、1.5...
1.3题目参数估计方法
1.3.1经典测量理论
——题目区分度
CTT:
IRT
——题目难度()
1.3.2 客观题的IRT分析
题目反应理论模型
a斜率:区分度,b:难度,c:猜测度
考试目的不同,选择题目不同
二、信度估计与效度证据收集
2.1信度效度的概念
①信度一致,效度不好(偏离-系统误差造成)
④信度和效度都好
控制好系统误差和随机误差
案例:重大考试的测量信度调查——张厚粲、郑日昌《教育研究》1985
试卷题目作答反应分析——好试卷的题目反应类型(天花板定多高,地板定多低)
2.2测量信度的估计(0.8以上)
计算(spss错,有前提条件)
2.2.1信度估计案例:alpha系数
2.2.2 信度估计案例:重测信度(前测、后测)
2.3效度证据的收集
————结构效度的因素分析证据案例(要考哪些知识,是否真的有这些东西)
eg.实证效度举例:WISC-IV(GT/MR)
2.4保障质量的组卷建议
1.能力呈正态分布,题目不能正态分布(均匀分布)
2.题目难度呈均匀分布
三、分数表达与使用的恰当性
3.1原始分数解读
3.1.1 原始分数的局限
*总分排序是不正确的
3.1.2 原始分总分不合理
(高考排序,数学!!!)
3.2 常模参照分数
3.2.2 量表分数的转换前提
3.2.3量表分的应用——曾经的标准分制度
3.2.4 区分度太低导致的麻烦
3.内容参照分数
小结与建议
【小结】测量学三要求
【建议】