本文总结自 Amazon 论文: On Evaluating and Comparing Open Domain Dialog Systems
—— Anu Venkatesh, Amazon
1. 开放域对话系统简介
开放域对话系统指的是没有明显目标,而旨在让对话方开心愉悦的对话系统,例如亚马逊Alexa,微软Cortana,微软小冰,苹果Siri,小爱同学,天猫精灵等都算是开放域对话系统,而像国内某些快递公司或者银行上线的智能客服系统,只能识别特定回答,不具备闲聊功能的,则不算是开放域对话系统。为了提高开放域对话系统的水平,2017-2018年Amazon曾经举办了2次Alex Prize比赛悬赏250万美金给大学生参赛队伍。通过在比赛中找真人对参赛队伍创造的对话系统进行评分,这赛事为Amazon积累了不少对话系统的评价数据。并且Amazon研究人员还尝试用这些数据做了一下基于机器学习的对话质量评价系统。
这篇文章会先回顾一下论文里提到的传统的评价指标,然后介绍Amazon这篇论文里的所谓“至今为止最综合性的”评价指标。
2. 评估开放域对话系统的难点
- 由于人工评测的高成本和低效率,所以学界基本上都在使用机器翻译评价指标BLEU和文本总结评价指标ROUGE(下文会详细讲)
- 有学者(Liu et al., 2016)研究发现这些指标同人工评价相关性很低(也就是说不符合人的标准)
- 又有学者发现了另外的问题,对话系统领域的数据集质量一般,他们都用类似于Reddit, Twitter上爬取的一些对话数据去训练,而这些数据不论是在质量,对话的轮数,以及上下文话题统一等方面都存在一些问题。
有人说,图灵测试不就是干这个的吗?把一个人和一台机器放在黑盒子里,外面的人和他对话,看外面的人是否可以判断出该人是真人还是机器。
然鹅,图灵测试用于对话系统评测是有问题的:
- 没有可比性: 对话系统和人类所拥有的知识不同,处理方式也不同,所以不能要求机器产生和人类似的回答。对话系统的回答即便不像人,也不一定就不是一个好的回答。
- 图灵测试倾向于产生花言巧语但没有实质内容的回答: 好的对话系统需要有实质的有价值的信息。
- 目的不同: 图灵测试是为了让人类无法分辨对话方是真人还是机器,而对话系统的标准应该是对话体验以及是否能达到对话方的目的(例如回答问题,订餐等)。
因此,Amazon在举办Alex Price杯对话系统比赛时,规定了一个评测框架,这个框架包含参与度(engagement), 覆盖度(domain coverage), 连贯性(coherence), 话题多样性(topical diversity), 以及话题深度(conversational depth)这5大类,都是用的人工评测的方式。这个评测框架就是这篇文章的主要贡献。
最后,砸钱弄了比赛,提高了Amazon的Alexa人工智障的智障度,成功赚到了钱。那那些数据怎么最大化利用呢?这不正好是有人工标注么,拿60000条对话和那些人工标注跑个模型,试试搞个自动打分器,本来就是人打的分数,那跟人的打分相关度肯定高了,还能顺便发篇paper,真香!作者在文章里就试了俩模型,Hierarchical LSTM和GBDT,自己也说就是小试一下而已 (This experiment was done to obtain the potential of automating the ratings.),诚意着实是一般了。
3. 传统的自动评价指标
3.1 目标导向对话系统(goal-oriented dialogue system)的评价指标
TRAINS (Ferguson et al., 1996)
PARADISE (Walker et al., 1997)
SASSI (Hone and Graham, 2000)
MIMIC (Chu-Carroll, 2000)
3.2 机器翻译(Machine Translation)的评价指标
- BLEU (Papineni et al., 2002)
最常见的评价指标,是一种词重叠评价指标,基于两句句子的共现词频率 - METEOR (Banerjee and Lavie, 2005)