2015年的论文，多轮对话

摘要
在对话处理中，attention 和 intention 非常重要。本文提出了一种基于神经网络的方法，对 attention 和 intention 过程进行建模。它主要由三个 RNN 组成：

编码器网络是一个词级模型，表示 source side sentences。
意图网络是对 intention 过程动态建模。
解码器网络对源端的输入产生回复。

在预测回复中的符号时，该模型依赖于 intention 并具有 attention 机制，可以关注特定的 source side words。无需标签数据即可 end-to-end 地训练模型。实验表明，该模型会生成对用户输入的自然回复。

1 Introduction

对话的特点
对话是通过言语交流思想的过程。它可以被认为是强调目的和过程在话语中作用的结构性过程[7]。本质上，话语结构与两种非语言概念密切联系，即意图和注意力：

在处理话语时，注意力会使话语的处理变得复杂，例如，注意句子中的特定单词。
另一方面，意图比注意力更高层次，它具有解释话语结构和连贯性的作用。

显然，由于两个层次的结构，对话过程天生就很复杂。

模型进展
用 seq2seq 处理对话过程，seq2seq 可以解决如机器翻译、实体命名等问题。对话和这些问题的不同之处在于对话需要考虑 multiple turns。
基于神经网络的方法被成功应用到解决 seq2seq 问题上。其中 Encoder-Decoder 模型可以 将人从打标签的工作中解放出来。

基于规则 VS 基于数据驱动
会话模型通常被设计为具有特定领域的知识，例如规则[3，18]。最近的方法[15]在某种程度上放松了这种要求，但是其子组件也需要手动标签来训练整个系统。手动标签容易出错且代价高昂。因此，在没有手动标签的情况下端到端地训练系统很有吸引力。 [10，12，14]中的最新工作就是采用这种方法。
但是，总的来说，使用知识会有所帮助。例如，源端和目标端之间的对齐信息对于音素到音素的转换至关重要[17]，要优于使用n-gram模型[2]的强基线。在基于神经网络的机器翻译系统中[6]，对齐信息用于优于基于短语的强基线[5]。

[3] D. Bohus and A. I. Rudnicky. The ravenclaw dialog management framework: architecture and systems. Computer, Speech and Language, 23:332–361, 2009.
[18] S. Young, M. Gasic, B. Thomson, and J. D. Williams. POMDP-based statistical spoken dialog systems: A review. Proceedings of the IEEE, 101:1160–1179, 2013.
[15] T.-H. Wen, M. Gasic, D. Kim, N. Mrksic, P.-H. Su, D. Vandyke, and S. Young. Stochastic language generation in dialogue using recurrent neural networks with convolutional sentence reranking. Technical report, May 2015.
[17] K. Yao and G. Zweig. Sequence-to-sequence neural net models for grapheme-to-phoneme conversion. In INTERSPEECH, 2015.

本文方法
在对话过程建模的上下文中，可以利用对话过程的结构信息来建立神经网络模型。特别地，网络可以包含 intention 和 attention 的概念。为了测试这一点，我们开发了一个包含三个RNN的模型：

编码器网络对源端输入进行编码。
解码器网络在预测符号对源端的响应时使用注意机制来关注源端中的特定单词。
目标侧的注意力取决于意图RNN的输出。

该模型具有会话过程的结构知识，是在没有标签的情况下进行端到端训练的。我们对该模型进行了试验，观察到该模型会自然响应用户输入。

2 Background

[7]指出话语结构由三个独立但相关的成分组成：

第一个是语言学结构，它是话语序列的结构。语言学结构由话语的各个部分组成，话语自然地聚集在其中。
第二种结构是意图结构，它捕获了与论述相关的目的，这些目的在每个语言段以及它们之间的关系中表达。
第三个是注意力状态，它是动态的，并记录了话语各点上的值得关注的对象，属性和关系。

在我们观察到的许多示例中，通常只有一个包含所有话语的语言部分。因此，在下文中，我们考虑具有两种结构的话语：intention & attention。

在 Table 1 展示的对话中有明显的意图。用户陈述问题，目的是将问题传达给 agent。 agent 接收单词，对其进行处理，然后与用户通信。用户随后对 agent 进行响应。因此，整个会话过程由三个意图依次处理组成：

首先是沟通问题的意图。
第二个是解决问题的意图。
第三是感谢的意图。

在处理每个意图时，用户和 agent 关注特定的单词。例如，在解决问题时，agent 会注意诸如“病毒”之类的词。

Figure 1

图1：The attention with intention model(AWI)。该模型被展开为3 turns。在每个 turn 中都有用于编码器网络和解码器网络的RNN。每个会话都由固定维向量表示，该向量是意图RNN网络的隐藏状态。

3 The model

3.1 The attention with intention model（AWI）

编码器网络具有来自当前源端的输入。由于当前轮次中的源端也取决于前一轮次，因此源端编码器网络与前一目标端的输出链接在一起。编码器网络创建当前轮次中源端的表示。
意图网络依赖于其过去的状态，因此它可以存储意图的历史，因此它是一个循环网络，以当前轮次表示源端并更新其隐藏状态。
解码器是用于语言建模的循环网络，每次都输出符号。该输出取决于意图网络中的当前意图。它还关注源端的特定单词。

3.2 Encoder network
读入输入 $x^{(s)}$ ，将其转变为定长或变长的源端序列。本文使用RNN对其编码：
$h_t^{(s)} = f(x_t^{(s)}, h_{t-1}^{(s)})$
其中 f 是RNN， $h_t^{(s)}$ 是源端 t 时刻的隐层状态。每个句子的Encoder RNN的初始化状态都是前面一个Decoder RNN的最后一个隐层状态。

Encoder 的一种输出形式是最后一个隐层状态： $c_t^{(s)} = h_t^{(s)}$ 。这是当前turn的源端表示，被用以输入 intention 网络。
Encoder 的一种输出形式是变长的表示，在3.4节中的 attention model 中进行描述。表示如下：
$c_t = q({h_t^{(s)}, ∀ t = 0,...,T})$
其中 q 可以是线性或非线性网络。

3.3 Intention network
当前的 intention 依赖于先前的 intention，这个特性使其可以用 Markov 建模，但我们选择使用RNN。
有趣的是，RNN的隐层状态在某种程度上可以视为意图的分布式表示。与训练单词的分布式表示[9]的常规过程不同，意图的分布表示以先前的回合作为其上下文进行训练。我们使用一阶RNN模型，其中隐层状态显式依赖于其先前状态。因此，AWI中的意图模型为RNN，如下所示：
$h^{(i,k)}=f(c^{(s)}_T, h^{(i,k-1)}, h^{(i,k)}_T)$
其中 k 代表当前轮次的 index， $c_T^{(s)}$ 代表Encoder最后一个隐层状态， $h^{(i,k-1)}$ 代表Intention network的前一个隐层状态， $h^{(i,k)}_T$ 代表Decoder 前一个轮次 k-1 的隐层结果。

3.4 Decoder network
Decoder的初始化（turn）为 Intention 的输出。

4 Evaluation

数据集和实验结果： subset of IT-helpdesk, consits：96913 turns，vocabsize=9085 share one-vocab。sentence-level SGD without momentum, lr=0.1, ppl 上升的时候 lr 减半。

2层LSTM，hidden=50， PPL=30.8 and hidden=200, PPL=22.1

5 Related work

我们的工作与[10，12，14]中的最新工作有关，这些工作使用encoder-decoder框架对会话进行建模。 [10]中的工作是单回合对话的模型。文献[14]中的工作是一种简单的encoder-decoder方法，使用了源端的固定尺寸表示。文献[12]中的工作还使用了源方的固定维度表示，但是具有额外的RNN来建模对话上下文。这个附加的RNN与AWI模型中的意图RNN相似。

但是，AWI模型与[12]的不同之处在于，它基于[7]中的理论将注意力和意图的概念纳入其中。因此，注意机制对于AWI是必不可少的。 [12]中的模型没有注意力模型。

由于尚不清楚使用哪种客观指标来比较不同的模型，因此很难断言这些模型的优越性。我们认为AWI模型可以替代[12，14]中的模型。

[7] B. J. Grosz and C. L. Sidner. Attention, intentions, and the structure of discourse. Computational Linguistics, 12:175–204, 1986.
[10] L. Shang, Z. Lu, and H. Li. Neural responding machine for short-text conversation. In ACL,2015.
[12] A. Sordoni, M. Galley, M. Auli, C. Brockett, Y. Ji, M. Mitchell, J.-Y. Nie, J. Gao, and B. Dolan.A neural network approach to context-sensitive generation of conversation responses. In NAACL, 2015.
[14] O. Vinyals and Q. V. Le. A nerual converstion model. In ICML Deep Learning Workshop,2015.

《Attention with Intention for a Neural Network Conversation Model》论文阅读