Interleaving for Ranking Evaluation Online

评估信息检索系统的排序模型,常见的离线评估指标有

  • precision recall F1-score
  • NGCG
  • MAP ERR

常见的线下评估指标有:

  • CTR / CVR
  • Time to first click
  • interleaving

这里主要介绍一种线上比较有效的评估方法balanced interleaving,它的操作过程如下:
假设有两个排序模型,A 和 B,某一结果列表 (a ,b ,c ,d ,e,f)

  1. 它们排序序列为 (a ,b ,c ,d ,e ,f) 和(b ,c ,a ,f ,e ,d)
  2. 新建一个列表I,以ABABAB...
    的顺序,从两列表中顺序选取一个元素添加到I中,并记下列表I中元素的来源。I就是最终展示到用户面前的结果列表
  3. 统计I中来自A 和 B 或者 AB 点击或者转化的量, C(A) C(B) C(AB)

计算:
$\delta(AB) = \frac{C(A) + C(AB)*\frac{1}{2}}{C(A)+C(B)+C(AB)} - \frac{1}{2}$

$\delta(AB)$ 大于0表明A WIN B,反之B WIN A,绝对值表示差距大小。

参考:https://www.cs.cornell.edu/people/tj/publications/chapelle_etal_12a.pdf

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容