检索/搜索系统评价体系基础构建

       本文主要讲解了检索系统的评价体系构建的基本方式,不涉及高深的数学公式,通过阅读可以初步了解基本概念。

一、为什么需要建立完整的检索评价体系

       人们在度量事物好坏的时候,总是喜欢包含主观标记信息,这些信息都会给评价标准引入大量的复杂性、延迟和误差,我们称之为“噪声”。不好的评价指标往往充斥着人们对于所描述事物的不信任和二次猜忌,也会因此忽略了事物的某些特征而让评价指标不够全面。规则化是一个不错的概念,它能让问题的描述和考虑更加的全面、不冗余,从而构建出一个性能优越的评价体系。

       在设计评价指标的时候,一定要时刻铭记5个关键点:代价成本、简洁性、可信性、准确性和因果相关性。对于这几个关键点的提升能够直接帮助后续产品的改进、用户体验的提升,也能帮我们在各种左右为难的权衡局面中做出合理和自然的取舍。

       实际工作中,简单性、低成本和构造的有效性通常是对立的,通常会为了追求简单和低成本性而破坏了构造的有效性。很多公司或团队在这个方面投入了大量的人力物力,力求得到完美的平衡。结构有效性设计的一个难点在于它使用的人类标记信息,人类都具有主观偏差性,对于标签的理解都存在着主观性和差异性,所以个人在标记过程中的准则和标准都可能有所差异,例如A童鞋将这个标签标记为1,B童鞋就认为应该标记为2。

       就目前而言,大多公司在追求简洁和低成本性的时候,缺少了可信性、准确性和因果相关性,所以很难根据这些客观指标去修改、完善和优化算法,进一步优化检索系统。因为我们不能保证用户反馈体现了严格数学意义上的随机抽样,因此我们可能永远无法解决这个问题,所以我们需要建立起一个完整的规则化的评价体系。

二、确定测试集构建方案

       一个完整的测试集由三部分组成:文档集、查询集和相关判断集。

(一)文档集

       文档集是一组文档的集和,确定了文档的规模内容范围。该组文档被信息检索系统用来进行文字分析,它是信息系统评估的数据基础,从各种数据源中选取并整理成符合规范格式的文档,如期刊等。文档集要具有代表性与多样性,并且需要有一定规模。但不能一味增加测试集的规模,因为会使相关判断工作耗费大量人力。

(二)查询集

       查询集是向信息检索系统提出问题的集和,这些问题依据检索系统和所需评估项目的不同,可以是一个或一组关键词,也可以是一段文字描述。根据文档的具体内容,将文档集划分成多个类别,然后按照类别将文档分配给若干名构建查询主题的人员,构建人员再根据具体内容来创建查询主题。最后,筛选得到的查询主题,选出比较理想的查询主题,并将其整理为统一的格式。查询集分为2类构建方式:

\bullet 第一类查询内容范围比较大,此类内容需要对其定义描述,并需要列出哪些内容会与该主题相关,用来作为后续相关判断的参考,一般有多个描述及对应的答案。如“笔记本”,对应的答案应该有“笔记本的分类”,“如何使用笔记本”,“笔记本维修”等等。

\bullet 第二类查询内容是一个颗粒度比较细致问题,问题本身就定义的比较清晰,一般是一些比较固定的答案,如“林肯生日”。

(三)相关判断集

       相关判断集制作非常耗费时间,所以需要查询集问题的数量通常控制在几百个左右。相关判断集是对应查询集中问题所给的一组标准答案的集和,它被用来比对信息检索系统对于查询集中的问题所给出的答案。相关判断集的正确性和权威性非常重要,通常由人工手动判断获得。人工判断过程:所有相关判断的赋值工作由若干名研究员分成2组进行。分为初步判断和检查2个阶段。第1阶段,先由1组业务人员进行判断赋值。第2阶段,完成赋值后,由另一组业务人员进行检查。当2组判断工作完成后,将判断结果进行合并计算,得到相关判断集。

三、检索系统的评价指标

       搜索引擎的检索效果一般可以从相应时间、查全率、查准率等方面来衡量,其中查准率和查全率又是最重要的2项指标响应时间是用户输入检索开始查询到检索出结果的时间。查准率是指一次搜索结果集中符合用户要求的数目与该词搜索结果的总数之比。查全率是指一次搜索结果中符合用户要求的数目与用户查询相关的总数之比。一个好的搜索引擎应该具有较快的响应速度、高的查全率和查准率,或者有极大的相似度。

       查准率=检索出的相关信息量/ 检索出的信息总量查全率

       查全率=检索出的相关信息量/ 系统中的相关信息总量

查准率金额查全率是相对的,当查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低。

检索系统给出的答案和相关判断集中的答案越相近,则证明该检索系统的质量越高。 

  例如:在一次测试集检索中,共检出文章10篇,其中相关判断集中的文章为6篇(实际上检索问题在相关判断集中有12篇),其余的4篇为非相关文章,按照上述公式,本次检索的查准率=(6/10)×100%即60%,查全率=(6/12)×100%即50%。

  利用上述公式,对每一次信息检索,都可计算出其查准率和查全率,对检索系统做出数据化的评价。

四、模型评测指标及展示方式

       信息检索中,一般以查准率和查全率绘制P-R图的方式进行展示,也就是将测试集中每一个问题的查准率和查全率当成一个点,然后将这些点连成线。例如我测试集中的查询集有200个问题,就会将这200个问题的准确率和查全率都跑出来,如下图所示:

然后以查全率为X坐标轴,查准率为Y坐标轴,绘制成P-R图:

P-R图

       P-R曲线越靠近右上角,则模型的效果越好。图上1、2两条曲线分别代表模型的两次迭代,曲线2完全包住曲线1及代表第2次迭代的效果要比第1次的效果好。

五:总结

       根据笔者构建的实际经验,整个评价体系构建最难的地方在于如何构建测试集,需要根据实际业务来构建查询集和相关判断集,虽然非常耗费人工时间,但是在评价体系构建完成后,可以测量模型的性能是非常有意义的,为今后的迭代提供数据支持。

       另一方面,评测指标还有ROC(接收者操作特征曲线)、对数损失等等,在实际项目中可根据自身的需要自行选择评价指标。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354