2025-06-26【读书笔记】评估与评价中的测量模型

今天继续阅读《第七章评估与评价中的测量模型》，总结如下。

这一章的核心是介绍如何用数学模型来更科学地分析测验题目（项目）和考生能力之间的关系。它超越了传统的“经典测验理论”，引入了更强大的工具——项目反应理论（IRT）。

1. 目标是什么？

理解考生答对题目的概率如何受到题目本身的特性（难度、区分度等） 和考生自身能力水平的共同影响。

最终目标是更精准地测量考生的能力，并更深入地了解题目（项目）的质量。

2. 核心模型：二级计分模型（对/错题）

这是基础，处理只有“答对”或“答错”两种结果的题目（如选择题）。

介绍了两种主要模型：

拉希模型： 最简洁的模型。它认为题目难度和考生能力可以用同一把尺子衡量。考生答对题目的概率只取决于他的能力比题目难度高多少。模型假设所有题目区分度相同（即区分好学生和差学生的能力一样）。

逻辑斯蒂模型（如双参数、三参数）： 更复杂也更灵活。除了难度，它还考虑：

区分度： 题目区分不同能力考生的能力（区分度越高，曲线越陡）。

猜测参数（三参数）： 考生纯粹靠猜答对题目的可能性（对选择题很重要）。

这些模型的核心思想是：画出一条“特征曲线”。这条曲线显示不同能力水平的考生答对该题目的概率。能力越高，答对概率越大。

扩展模型：多级计分模型

现实中的题目（如问答题、部分得分题）往往不止“对/错”两种结果，可能有多个得分等级（如0分、1分、2分、3分）。

这一部分介绍了如何将IRT模型扩展到处理这种有序多级评分的情况。

模型需要预测考生在每个可能的得分等级上的概率，而不仅仅是通过的概率。

更复杂的模型：多维模型

前面的模型假设测验只测量一种能力（如“数学能力”）。但很多测验其实同时测量多种相关但不同的能力（如代数能力、几何能力）。

多维模型允许同时考虑多个能力维度。考生答对题目的概率取决于他在题目涉及的所有相关维度上的能力水平。

这更符合现实，但模型也更复杂。

考虑背景：多水平IRT模型

考生不是孤立存在的，他们属于班级、学校等群体。

多水平模型将IRT与多水平分析（分层线性模型） 结合起来。

它不仅能估计个体考生的能力、题目参数，还能分析群体层面（如学校教学质量） 如何影响个体考生的能力表现或题目的特性（如不同学校题目难度感知不同）。

3. 总结一下这一章的关键点：

核心工具： 项目反应理论（IRT）是核心框架，提供了强大的数学模型。

模型发展： 从最简单的对/错题模型（拉希、逻辑斯蒂）出发，扩展到能处理部分得分题（多级计分）、多能力测验（多维）以及考虑群体影响（多水平）的复杂模型。

核心价值： 这些模型让教育测量更精准、更公平。它们能：

更准确地估计考生能力（不依赖于特定题目或考生群体）。

更深入地分析题目质量（难度、区分度、猜测可能性）。

实现更公平的测验（如题目难度相当、分数等值）。

处理更复杂的现实情况（部分得分、多能力、群体效应）。

简单说，这一章讲的是用数学“魔法”来解开测验题目和考生能力之间复杂关系的秘密，让考试评价更科学、更可靠。