今天继续阅读《第六章 教育测量的基本要素》,核心内容如下。
这一章讲的是如何科学地设计和评价考试(测验)。它就像一本“考试设计说明书”,告诉大家做好一个考试需要关注哪些关键点:
1. 考试的目的是什么?(测验目的)
考试不是千篇一律的!设计考试前,必须想清楚:
是为了选拔(比如升学考,看谁分数高)?
还是为了达标(比如毕业考,看是否达到某个水平)?
或者是为了诊断学习困难(比如单元小测,找出学生哪里没学好)?
目的不同,考试的设计(题目难度、题型、评分标准)就大不一样。
2. 好考试的标准是什么?(评估的质量标准)
一把好尺子要准、要稳。好考试也要满足两个核心标准:
信度: 这把“尺子”稳不稳?考多次结果差不多吗?题目评分一致吗?(比如,同一份卷子不同老师批改分数差不多)。
效度: 这把“尺子”准不准?考的是不是你想考的东西?(比如,数学考试考的是数学能力,而不是阅读理解能力)。效度有很多种(内容效度、结构效度等),核心就是考试是否测对了目标。
3. 怎么规划考试内容?(测验双向细目表)
不能随便出题!需要一个“考试蓝图”(双向细目表)。
这个表有两个维度:
考什么内容?(比如数学里的代数、几何)
考什么能力?(比如记忆、理解、应用、分析)
这个表告诉你:各个内容和能力要出多少题、占多少分。确保考试全面覆盖且重点突出教学目标。
4. 题目长什么样?(测验形式)
题目类型(题型)很重要:
选择题: 效率高,评分客观,但可能测不出深度思考和表达能力。
填空题/简答题: 能测一些理解和应用,评分相对客观。
论述题/操作题: 能测复杂思维、表达或动手能力,但评分难、耗时长、可能主观。
选什么题型要看考试目的、成本、评分可行性。
5. 题目好不好?(测验和项目分析)
题目(项目)设计出来不是直接用,要试测和分析:
难度: 题目是太难了(大家都错)还是太简单了(大家都对)?难度要适中。
区分度: 好题目应该能把水平高的学生和水平低的学生区分开(水平高的答对多,水平低的答对少)。
选项分析(选择题): 错误选项(干扰项)有没有迷惑性?是不是都有人选?没人选的干扰项是无效的。
分析后要修改或淘汰不好的题目。
6. 怎么把考试组织成一个系统?(评估系统)
考试不是孤立的,它存在于一个更大的系统里:
题库: 需要管理大量题目(入库、分类、标注难度等)。
等值: 不同时间、不同版本的考试分数要能比较(比如去年的卷子和今年的卷子难度不同,怎么公平比较分数?)。
评分: 如何保证评分标准统一、公平?(尤其是主观题)。
报告: 考完试怎么把分数结果清晰、有意义地告诉学生、老师或学校?
7. 总结一下这一章的核心:
设计考试就像造一把好尺子。
首先要明确量什么、为什么量(目的)。
尺子本身要又准(效度)又稳(信度)。
造之前要画好设计图(双向细目表),规划好量哪里、怎么量。
选择合适的**“刻度”类型**(题型)。
造出来的“刻度”(题目)要测试和调整(项目分析),确保好用。
最后,这把尺子要能融入一个更大的测量体系(题库、等值、评分、报告系统)里工作。
理解这些基本要素,是设计出公平、有效、有用的教育考试的基础。