Building Task-Oriented Dialogue Systems for Online Shopping 论文笔记 任务向导对话

论文发表在AAAI-2017
作者团队多数来自微软研究院或者微软小冰团队
一作和通讯作者来自北航软国重实验室(惭愧啊,手动捂脸三次,哈哈哈),完成于作者在微软亚洲研究院实习期间

image.png

DS:对话系统,包括四部分(可以理解为四个过程,也可以理解为四个函数 ):
QU:查询理解,把自然语言描述的问题映射到其含义M表示上。(语义表示?还是向量嵌入表示?)
ST:状态追踪,H是个不断更新的状态变量,ST会根据上一步的H_(t-1)以及用户QU对应的问题含义表示M,输出一个新的状态H_(t)
DM:对话管理,就是把上一步的状态翻译(解码?)成自然语言。与此同时,还要选择一个合适的动作
PKB:产品知识库,以三元组的形式表示。只不过以<p,n,v>的方式表示


image.png

QU解析出的M,看来应该是某种语义表示,而不是向量表示。
花体I:用户的意图,决定了DM应采用的动作
花体C:标签,分类。决定了DM所考虑的商品范围
花体A:用户关注的属性。
例如用户输入“给我推荐一个5.2寸屏的华为手机吧”,那么用户的意图就是推荐;产品分类就是手机,关注的属性为品牌和屏幕大小,对应的值分别是华为和5.2英寸。
接下来说怎么搞定这个花体I
了解用户的意图还是有难度的
例如如果一个用户说“我想买个华为P9”,那他的意图应该是需要推荐
如果他说“华为P9怎么样”,那可能得回答问题
如果他说“华为P9很漂亮”,我们就不能确定他的意图们只能触发闲聊模块跟他聊会儿


image.png

算法1解释了如何实现意图相关的短语的挖掘
第一步是从类似于百度知道这样的网站把包含知识库中的商品名的问题都爬出来,构成集合Q_(D)
第二步把问题切成很多的短语
第三步用LDA做话题聚类
第四步用众包的方法给每一类的短语定义一个意图
第五步再反过来,对每个意图去挑选对应的术语(使用众包的思想)
第六步把标记好的映射搞成一个意图的集合花体I

(吐槽:感觉什么东西扯到众包就感觉不靠谱了)
特别地,论文考虑了三个跟阶段相关的意图

  1. 增加过滤条件,这个阶段用户在视图增加过滤条件
  2. 再看看,用户想再看看别的类似的商品
  3. 拒绝,用户不满当前推荐。这一类的indent从百度知道那里爬不到,只能从聊天日志中提取
    经过上述意图抽取,会得到一个意图的集合,然后再反过来从问题集中为每种意图选取2000个问题。对于意图不明显的问题(需要出发闲聊系统),我们也给他挑选了2000个问题。这样就可以构建一个分类器来预测一个自然语言描述的问题所包含的意图,或者仅仅是闲聊。
    下一步解释怎么搞定这个花体C
    整体而言,整个过程被描述成一个分类过程,然后还改了个卷积神经网络
    输入层:把每个中文词(应该是经过分词了吧)映射到一个词向量上,然后一个句子就是把每个词的词向量拼在一起。


    image.png

    卷积层:搞点卷积,然后用tanh激活一下(说实话,从公式上好像看不出卷积的意思)


    image.png

    池化层:表示看不懂,估计瞎写的吧,主要是她那个i没写清楚
    image.png

    image.png

    语义层:先线性再激活一下
    image.png

    最后把用户的句子的语义跟每个产品对应的句子的语义求最接近(所以并没有按照经典的分类问题来处理,例如数字识别那种的)
    image.png

    属性抽取
    这段公式很乱啊,看起来好费劲


    image.png

    这个公式的意思是:T帽子是个集合?然后里面有t帽子1到t帽子K一共K个元素?
    image.png

    m是问题的向量表示。t是不同的属性。
    P(t|m)表示m可以用t表示的概率
    整个意思大概是说找K个t使得第三行那个连乘的式子达到最大值
    一个单词既不表示属性也不表示值的时候,P([word]|m)被直接赋上一个特别小的值。
    下面介绍P这玩意儿怎么获得
    如果对于属性是产品名字的情况,要从搜索日志中去搜索P值。假如一个用户输入了检索条件q,然后出来了一排url让他选,他最后选了个商品p的url,这个东西就可以从日志里拿出来。然后好多的记录放在一起,就可以计算link啦
    image.png

    #(p,q)是输入了q,然后选择了p的次数,两个分母没解释,猜测的话应该是:第一分母是输入了q没有选p的次数,第二个分母的话,选了p,但搜索条件不是q
    image.png

    然后,就可以计算P了,比较容易理解,不在多余解释。
    计算其余属性名及属性值:
    用了个动态规划算法。这个,以后再研究吧。
    image.png

    状态追踪:

    ST用于维护状态变量H,H是一个状态的形式化表示。ST的话,工作原理是这样的:
    1)首先对M_t.I进行更新
    如果M_t.I不是阶段相关的,那么M_t.I维持不变。
    如果M_t.I是阶段相关的,而且上个阶段的H_t-1.I是Recommendation,就让M_t.I也被赋值为Recommendation
    否则的话,就让M_t.I设置成闲聊。
    2)如果一句话被检测到是闲聊,H不做更新
    3)如果当前对话的商品分类存放在上一阶段的H,则H_t完全继承H_t-1否则它会完全按照M_t来更新
    如果闲聊的次数超过一定数量,或者对话被中断的时间超过一个阈值,H会被重置,以此作为一种忘记机制。
    对话管理模块会根据当前的H来做出动作或者回复。这些动作包括:
    推荐:把链接发给用户
    对比:对多个产品进行比较
    总结:对产品情况进行总结
    回答问题:使用KB-QA的方式来回答问题
    问更多的问题:产品类目已经确定了,还需要一些属性上的约束,系统就会去问用户这些东西
    闲聊:用基于信息检索的方法跟用户进行闲聊

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,402评论 6 499
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,377评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,483评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,165评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,176评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,146评论 1 297
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,032评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,896评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,311评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,536评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,696评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,413评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,008评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,659评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,815评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,698评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,592评论 2 353

推荐阅读更多精彩内容

  • 周振璘11月份第 28 次读书打卡,我读的书是《考场满分作文全集》,今天读了第 50 页到第70页,我最喜欢的文章...
    Jolin08阅读 191评论 0 0
  • 2017年7月23日 倒计时153天 7点坐在书桌前看昨天英语阅读里陌生的单词,6点起床后把窗户打开,窗外的蝉鸣声...
    桃子酱呀阅读 215评论 0 0
  • 突然想起高三时候的我,那个时候会因为看了某一本小说而喜欢上某个地方,憧憬着大学会去繁华而美丽的大城市,想去上海,那...
    生活如火如荼阅读 183评论 0 1
  • 现在是互联网时代,越来越多的企业改变了以往的传统模式,变成了线上与线下相结合的模式。这么多的网络营销案例中,有成功...
    真的可以去阅读 334评论 0 0