保障考试质量的测量学要求

美国：出题100万，测量学100万

一、题目难度与区分度估计

1.1题目质量评价概述

@题目质量中的问题：

*计分方式在设计上有问题（0、3，或0123）

*选择题选项分布

*题目赋分或加权方式不当

*分数合成方式不当

*题目贡献度太小（要么都会、要么都不会）

*题目难度的分布有缺陷

*数据有缺陷

1.2题目作答反应分析

1.2.1 客观题的CTT分析：随不通能力学生段，选项选择的分布变化。

中等水平的学生（平均分）正答率要高于50%，TOP10%学生正答率最高——好题。

高水平正答率高，低水平正答率低

图片发自简书App

好题目的选项分布特点（选项分布分析）：

1.2.2 主观题的CTT分析

0-5，信度0、0.5、1、1.5...

1.3题目参数估计方法

1.3.1经典测量理论

——题目区分度

CTT：

IRT

——题目难度（）

1.3.2 客观题的IRT分析

题目反应理论模型

a斜率：区分度，b：难度，c：猜测度

考试目的不同，选择题目不同

图片发自简书App

二、信度估计与效度证据收集

2.1信度效度的概念

图片发自简书App

①信度一致，效度不好（偏离-系统误差造成）

④信度和效度都好

控制好系统误差和随机误差

案例：重大考试的测量信度调查——张厚粲、郑日昌《教育研究》1985

试卷题目作答反应分析——好试卷的题目反应类型（天花板定多高，地板定多低）

2.2测量信度的估计（0.8以上）

计算（spss错，有前提条件）

2.2.1信度估计案例：alpha系数

2.2.2 信度估计案例：重测信度（前测、后测）

2.3效度证据的收集

————结构效度的因素分析证据案例（要考哪些知识，是否真的有这些东西）

eg.实证效度举例：WISC-IV（GT/MR）

2.4保障质量的组卷建议

1.能力呈正态分布，题目不能正态分布（均匀分布）

2.题目难度呈均匀分布

三、分数表达与使用的恰当性

3.1原始分数解读

3.1.1 原始分数的局限

*总分排序是不正确的

3.1.2 原始分总分不合理

（高考排序，数学！！！）

3.2 常模参照分数

3.2.2 量表分数的转换前提

3.2.3量表分的应用——曾经的标准分制度

3.2.4 区分度太低导致的麻烦

3.内容参照分数

小结与建议

【小结】测量学三要求

【建议】

最后编辑于：2019.10.25 15:25:23

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。