数据集
RACE数据集
RACE: Large-scale ReAding Comprehension Dataset From Examinations,相关介绍可参考:https://www.jianshu.com/p/7040a76d56a7
SciQ数据集
Crowdsourcing Multiple Choice Science Questions,相关介绍可参考:https://www.jianshu.com/p/2de4acd1cbf4
论文阅读
1.Ranking Distractors for Multiple Choice Questions Using Multichannel Semantically Informed CNN-LSTM Networks
1.该文思想是将选项评估问题堪称推荐系统中的排序问题,默认题目中正确答案和三个干扰选项排序应在其他候选选项之前,使用排序算法的评估方式p@3、MAP、NDGG、MRR在数据集RACE和SciQ上进行评估,两个数据集P@3最高53%。
2.论文使用的模型是将问题、准确答案、问题相关的上下文、候选干扰选项分别通过CNN和BiLSTM编码,另外,对上述四个元素的词相似度矩阵使用CNN操作,得到相似语义模式编码,并与CNN、BiLSTM编码,共三个编码向量进行拼接,后接三个全连接层,最终得出各候选干扰项的分数分布进行排序。
2.Automatic Distractor Suggestion for Multiple-Choice Tests Using Concept Embeddings and Information Retrieval(2018 acl)
1.论文提出一种基于医学领域本体UMLS,使用概念向量进行语义相似度计算(候选概念与(正确答案+问题)的相似度),获取top n(文中500)个候选;使用问题作为搜索词,使用候选在搜索引擎Lucene中出现的第一篇文章的排序位置为候选进行重排序,得到最终top k个推荐干扰项。
2.论文通过计算推荐干扰项在最终真实干扰项中命中的情况进行干扰项生成的自动评估。实验结果显示,当推荐干扰项为top 20时,推荐的干扰项命中实际干扰项的概率为20%(此处分母为出现在UMLS中的干扰项数)
3.论文提到了另一种干扰项评估思路:使用学生答题情况来评价干扰项的质量,如果没人选的干扰项,其质量就较差
3.Semantic similarity of distractors in multiple-choice tests- extrinsic evaluation(2009 acl)
1.论文使用了几种干扰项的生成策略(搭配模版、基于wordnet的四种语义相似度计算方法、分布相似性、发音相似性、综合方法),生成后由老师进行修改,通过学生的作答情况对题目难度、干扰项的效果进行评估。
2.将学生作答按照高低分分组,高分一组(前三分之一),低分一组(后三分之一),对比两组数据的各项指标(题目难度、题目区分能力、干扰项的有效性),进行生成效果的评估。
3.其中,干扰项的有效性评估:认为好的干扰项应该更吸引低分用户选择(相对于高分组);如果一个干扰项更吸引高分组用户选择,则被认为poor;如果一个干扰项无人选择,则被认为not-useful。实验结果表明,混合方案可以达到最好的效果,有89%的干扰项可以满足该特性。
《待扩充》