[第001号]
摘要
网络搜索评估指标的设计与如何建模用户交互过程密切相关,不同的行为模型产生不同的指标去评估搜索的性能。最重要的一个要考虑的因素是用户何时结束一段时间的搜索, 因为这与收益和付出的评估密切相关。现存的模型通常采用一些简化的指标去决定停止的时间点。主要有以下两种:1. 收益上限(RR,AP);2. 付出上限(Precision@N,DCG@N)。但是在实际的搜索过程中用户的停止指标要复杂的多,通过对一段时间的真实用户的搜索的收益和付出的分析,我们发现结束指标与
收益和付出都相关。受到宝石迷阵游戏的启发,我们提出了宝石迷阵玩家模型(BPM)来模拟用户的交互过程。在BPM中,玩家通常结束在发现了充足的有用信息或者已经失去了继续玩的耐心。基于这种假设,我们提出了一种新的框架,该框架基于收益上限和付出上限。我们会展示如何基于该框架去推导出传统的指标像贴现累计收益(DCG),预期收益排序(ERR),评价效用(AP)。我们也会与现有的指标比较来展示该框架的有效性。
研究过程
1. 介绍
两种评估网络搜索的方法:
面向系统的测试
面向用户的学习
真实用户的行为在一段时间的交互检索过程中。
收益与付出、现有评估指标、收益上限、付出上限、宝石迷阵游戏及启发等介绍
研究内容:
- 介绍使用BPM模型模拟用户搜索交互过程,解释一段时间搜索的结束指标
- 基于BPM模型,提出一个新的统一的框架去评估网络搜索和实例了如何从框架中导出现存的指标
- 基于收集到的数据集,对比现有的指标,展示了框架的有效性。
2. 评估框架
该评价框架主要有以下几个组件组成:交互、收益和付出、预期收益和可忍耐付出、指标函数。
2.1 交互
2.2 收益和付出
2.3 预期收益和可忍耐付出
2.4 指标函数
只是指出是收益和付出的函数,不探讨具体形式
3. 指标
3.1 基于BPM的指标
3.2 现有指标
示例如何从框架推导出现有的指标,以Discount Cumulative Gain(DCG——贴现累计收益)为例。
3.3 收益和付出的上限
3.3 动态预期收益(E_Benefit)和可忍耐付出(T_Cost)
4. 实验
4.1 测试数据收集
把数据分为两类:
- informational queries(信息性的搜索)
- navigational queries(导航性的搜索)
4.2 测试结果
5. 相关研究
6. 结论和展望
- 重申3条结论
- 当前的一些限制和展望
2.1 对于静态和动态BPM指标,做了简单的假设,以后会探索更复杂的情况。
2.2 测试数据基于实验性的用户学习,未来使用真实的用户日志数据分析。
2.3 只分析了框架与用户满意度相关的有效性,用户的不满意度也是信息检索的一个方面。
学习心得
心得体会