一天2个
1、 为什么不同测验分数转化为Z分数就能比较
- 标准分数Z值是以被试所属组分数的标准差为单位来表示的被试个体分数对平均数的距离
- 标准分数的分布状态,就是原始分数整个分布状态的“平移放缩”后的产物;两个分布状态是完全的相似形,只是标准分数分布中,平均数取0而标准差为1
- 若两个测验上原始分数分布状态相同,比如都呈正态分布,那么两个测验上的标准分数,就可直接比较了
2、 求整份测验难度
- 当所有项目的满分值都相等时,才能用求算术平均数办法;如果各项目的满分值并不相等,就要用求加权平均数的办法
- 在后一种情况下,各项目难度指数都要用本项目的满分值来加权
- 当有了全部被试的测验总分后,就可直接利用它们来求取被试总分的平均数,然后再求它对全卷满分的比
3、 标准化常模参照测验难度
- 一般的标准化常模参照测验目的是要尽可能把握信住被试的个别差异,因此希望测验后所有被试的分数“尽可能拉开距离”,好、中、差被试都能得到相应的彼此有足够差异的分数
- 测验项目的恰当难度应该是p值尽量接近0.50
- 只有当项目难度指数值愈接近0.50时,项目才愈具有区分被试的能力
4、 标准参照测验难度?教育领域中有不少测验是标准(目标)参照测验
- 其目的是要考察被试的水平是否达到应有要求。这种测验其项目的难度,就不应该由被试的实际通过率来决定,而应由项目的考核要求是否体现了应有标准或教学目标来决定
- 即使一个测验项目的通过率为1.00,但考核要求确实体现了应有标准或教学目标,项目的难度仍然是恰当的、合理的。相反,如果一个测验项目的通过率很低,甚至为0.00,但考核要求并无不当,体现的是应有标准和教学目标,那么,项目难度也是合理的、必要的,应予坚持
5、 项目区分度指数取值范围多高为好
- 区分度指数值若在0.20以下说明项目区别被试优劣的能力很差,应从测验中淘汰这类项目
- 区分度指数取值在0.20至0.29之间说明这类项目区别被试优劣的能力还相当弱应通过修改来提高其区分能力
- 区分度指数取值在0.30至0.39间就说明这类项目的区别被试优劣的能力合格;若区分度指数取值大于0.40,试题区别被试优劣的能力就很强,是性能优良的试题
6、 各种信度系数适用情况
- 重测相关求信度系数,就特别着重考察跨时距上所得分数的一致性。经常测试如智力、能力倾向和人格特点。因此稳定性系数多用在预测性测验上
- 用平行形式相关法求信度系数,特别强调测验内容结构要平行等值性,多用于学业成就测验中
- 内部一致性系数强调测验中各个项目都要测查同一个特质。要求其所含项目具有高度的同质性
7、 常模参照测验与标准参照测验的差异
- 常模参照测验的成绩通常是一种相对评分,说明被试在某一被试团体中的相对地位;而标准参照测验的成绩通常是一种绝对评分,说明被试达成某一教学目标,或掌握某一范围内的知识技能的实有程度
- 常模参照测验在设计意图上比较强调对个体能力的区分鉴别,而标准参照测验在设计意图上考虑的是测验内容抽样是否良好地代表一组既定的能力标准或既定的教学目标
- 常模参照测验通常涉及更广泛的、难以明确限定的学习内容与能力目标,对每一项而标准参照测验相对来讲,测验内容集中在限定的学习任务上,对每一项学习任务或目标通常用较多数量的题目来测量
8、 实验技能考核三原则
- 实践性为主的原则。应以动手操作为主,不能停留在笔试形式下考查实验操作知识的方式上
- 全面性原则。要尽力考核到实验计划与设计、实验的实施与操作、实验的分析与解释、实验报告撰写等环节;因此可结合笔试、口试和演示进行
- 客观化原则。要建立在行为观察的基础上,客观地评价学生的实验技能
9、 标准化成就测验特点
- 由有关教育测量专家和学科专家编制
- 实现了测验全过程的标准化
- 测验题目经过专家审查,常常还抽取代表性被试样本进行预测
- 备有测验指导手册
- 通常备有等价的或平行的几份测验
- 测验的质量经过检验,信度高、效度好
- 标准化成就测验还具有相对稳定性的特点
10、 编制命题双向细目表通常以教学大纲或考试大纲为根据,采取步骤
- 确定考试内容要目,并把它们排列在表中最左边一栏上。这有两种方法;一按照教材章节名称依次罗列;二是根据教学内容知识块分别罗列
- 界定该科目应考查的掌握目标层次,并把这些目标层次从低级到高级依次安排在表中顶端第一行有关格子上
- 确定各项考试内容要目下的分数比重
- 把每一项考试内容的分数比重(如第一章绪论分数比重10分)逐一分配到若干必要的考查目标即掌握层次上去,形成网格的分数分配方案,即是命题双向细目表
11、 主观题突出的特点和长处
- 不允许简单猜测,适于考察分析综合能力、组织表达能力以及计算与推论等较为复杂的心智技能
- 提倡自由反应,有利于考察应用能力乃至创造能力
- 可以获得较为丰富的作答反应过程资料,便于分析被试的技能、策略和知识缺陷等
- 内容和形式更为接近教学与实践中的问题情境,被试不陌生、好接受,教师命拟比较方便
主观题不足 - 作答反应费事,有大量的书写任务,造成被试“忙于写而无暇想”,“手指累而头脑松”
- 单位时间中施测的问题量减少,限制了测验内容的覆盖面,不利测验效率的提高
- 允许被试以文字技巧和作答风格来搪塞胡弄主试,靠“模棱两面可的词句”与“面面俱到的分析”来赚得高分
- 评分易受阅卷者主观因素的影响