论文-BERT for Joint Intent Classification and Slot Filling

1. 简称

论文《BERT for Joint Intent Classification and Slot Filling》，作者Qian Chen(Speech Lab, DAMO Academy, Alibaba Group)，经典的NLU论文（Semantic Frame）。

2. 摘要

意图分类和空位填充是自然语言理解的两个基本任务。他们经常遭受小规模的人工标签训练数据的折磨，导致泛化能力差，尤其是对于稀有单词。

最近，一种新的语言表示模型BERT（来自变压器的双向编码器表示）有助于在大型未标记的语料库上进行预训练深层的双向表示，并为广泛的语言模型创建了最新的模型。经过简单的微调，可以完成各种自然语言处理任务。但是，在探索BERT以获得自然语言理解方面并没有付出太多努力。

在这项工作中，我们提出了一种基于BERT的联合意图分类和广告位填充模型。实验结果表明，与基于注意力的递归神经网络模型和基于槽门控方法相比，我们提出的模型在多个公共基准数据集上的意图分类精度，时隙填充F1和句子级语义框架精度均取得了显着提高。

3. 引言

近年来，已经部署了各种智能扬声器并取得了巨大的成功，例如Google Home，Amazon Echo，Tmall Genie，它们促进了面向目标的对话并帮助用户通过语音交互来完成任务。自然语言理解（NLU）对于面向目标的口语对话系统的性能至关重要。 NLU通常包括意图分类和时段填充任务，旨在为用户话语形成语义解析。意图分类侧重于预测查询的意图，而槽位填充则提取语义概念。表1给出了用于用户查询“Find me a movie by Steven Spielberg”的意图分类和槽位填充的示例。

意向分类是一个预测意向标签yi的分类问题，槽位填充是一个序列标签任务，该标签将输入单词序列 $x =（x_1，x_2，···，x_T）$ 标记为槽标签序列 $y^s =（y_1^s，y_2^s，···， y_T^s）$ 。基于递归神经网络（RNN）的方法，尤其是门控递归单元（GRU）和长短期记忆（LSTM）模型，已经实现了意图分类和时隙填充的最新性能。最近，提出了几种用于意图分类和槽位填充的联合学习方法，以利用和建模两个任务之间的依赖关系，并提高独立模型的性能。先前的工作表明，注意力机制可帮助RNN处理长期依赖关系。因此，提出了基于注意力的联合学习方法，并实现了联合意图分类和空缺填充的最新性能。

缺少用于NLU和其他自然语言处理（NLP）任务的人类标记数据会导致泛化能力较差。为了解决数据稀疏性挑战，提出了多种技术，可使用大量未注释的文本来训练通用语言表示模型，例如ELMo（Peters等人，2018）和Generative Pre-trained Transformer（GPT）（Radford等人，2018）。可以针对NLP任务对预训练的模型进行微调，并且与在NLP上进行训练相比已经取得了显着改进特定于任务的注释数据。最近，有人提出了一种预训练技术，即来自Transformer（BERT）的双向编码器表示法（Devlin等人，2018年），并为各种NLP任务创建了最先进的模型，包括问题解答（SQuAD v1.1），自然语言推论等。

但是，在将BERT用于NLU方面并没有付出太多努力。这项工作的技术贡献有两个方面：1）我们探索了BERT预训练模型来解决NLU泛化能力差的问题； 2）我们提出了一种基于BERT的联合意图分类和空位填充模型，并证明了与相比，该模型在多个公共基准数据集上的意图分类准确性，槽位填充F1和句子级语义框架准确性上有了显着提高比基于注意力的RNN模型和时隙门模型。

4. 核心

4.1 BERT

BERT的模型架构是基于原始Transformer模型的多层双向Transformer编码器（Vaswani et al. 2017）。输入表示是WordPiece嵌入（Wu et al. 2016），位置嵌入和段嵌入的串联。特别是，对于单句分类和标记任务，句段嵌入没有区别。插入特殊分类嵌入（[CLS]）作为第一个标记，并添加特殊标记（[SEP]）作为最终标记。给定输入令牌序列 $x =(x_1，...，x_T)$ ，BERT的输出为 $H =(h_1，...，h_T)$ 。

BERT模型已针对大型未标记文本采用两种策略进行了预训练，即屏蔽语言模型和下一句预测。预训练的BERT模型提供了功能强大的上下文相关语句表示，并且可以通过微调过程用于各种目标任务，即意图分类和槽位填充，类似于其用于其他NLP任务的方式。

4.2 Joint Intent Classification and Slot Filling

BERT可以轻松扩展到联合意图分类和插槽填充模型。根据第一个特殊令牌（[CLS]）的隐藏状态（表示为 $h_1$ ），可将意图预测为：

$y^i=softmax(W^ih_1+b^i)\tag{1}$

对于槽填充，我们将其他令牌的最终隐藏状态 $h_2,...,h_T$ 馈送到Softmax层以在槽填充标签上进行分类。为了使此过程与WordPiess标记化兼容，我们将每个标记化的输入字提供给WordPiess标记器，并使用与第一子标记器相对应的隐藏状态作为SoftMax分类器的输入。

$y_n^s=softmax(W^sh_n+b^s),n \in 1 ... N\tag{2}$

其中 $h_n$ 是与单词 $x_n$ 相对应的隐藏状态的第一个子标记。

为了联合建模意图分类和广告位填充，目标制定为：

$p(y^i,y^s|x)=p(y^i|x)\prod_{n=1}^Np(y_n^s|x)\tag{3}$

学习目标是使条件概率$p(y^i，ys | x)最大化。通过最小化交叉熵损失来对模型进行端到端微调。

4.3 Conditional Random Field

插槽标签预测取决于周围单词的预测。已经表明，结构化预测模型可以改善时隙填充性能，例如条件随机字段（CRF）。通过为BiLSTM编码器添加CRF层来改善语义角色标记。在这里，我们研究了在联合BERT模型的基础上添加CRF来建模插槽标签依赖性的功效。

5. 实验

我们在两个公共基准数据集（ATIS和Snips）上评估了提出的模型。

5.1 Data

ATIS数据集（Tür等人，2010）被广泛用于NLU研究，其中包括预订航班的人的录音。我们使用与Gooet al. (2018) 相同的数据划分方法，训练集，开发集和测试集分别包含4,478、500和893种话语。有120个插槽标签和21种意图类型用于训练集。我们还使用Snips（Coucke et al. 2018），该软件是从Snips个人语音助手收集的。训练集，开发集和测试集分别包含13,084、700和700种话语。训练集有72个插槽标签和7种意图类型。

5.2 Training Details

我们使用英语无大小写的BERT-Base模型，该模型具有12层，768个隐藏状态和12个头。 BERT在BooksCorpus（8亿字）（Zhu等人，2015）和English Wikipedia（25亿字）上接受了预训练。为了进行微调，所有超参数都在开发集上进行了微调。最大长度为50。批量大小为128。Adam（Kingma和Ba，2014）用于优化，初始学习率为5e-5。辍学概率为0.1。最大轮数选自[1、5、10、20、30、40]。

5.3 Results

表2显示了Snips和ATIS数据集的模型性能，如槽位填充F1，意图分类精度和句子级语义框架精度。

第一组模型是基线，它由最新的联合意图分类和空位填充模型组成：使用BiLSTM的基于序列的联合模型（Hakkani-Tür et al. 2016），基于注意力的（Liu and Lane，2016）和槽门控模型（Goo et al. 2018）。

第二组模型包括提出的联合BERT模型。从表2中可以看出，联合BERT模型在两个数据集上的性能均明显优于基线模型。在Snips上，联合BERT的意图分类准确度达到98.6％（原为97.0％），插槽填充F1为97.0％（原为88.8％）和句子级语义框架准确度为92.8％（原为75.5％）。在ATIS上，联合BERT的意图分类准确度达到了97.5％（原为94.1％），槽位填充F1为96.1％（原为95.2％）以及句子级语义帧准确度为88.2％（原为82.6％）。联合BERT + CRF用CRF取代了softmax分类器，它的性能与BERT相当，这可能是由于Translator中的自注意机制所致，该机制可能已经对标签结构进行了充分建模。

与ATIS相比，Snips包含多个域，并且词汇量更大。对于更复杂的Snips数据集，联合BERT在句子级语义框架准确性上获得了很大的提高，从75.5％到92.8％（相对值为22.9％）。这表明联合BERT模型具有很强的泛化能力，考虑到它是对来自不匹配的域和类型（书籍和维基百科）的大规模文本进行预训练的。在ATIS上，联合BERT的句子级语义框架准确性也得到了显着提高，从82.6％提高到88.2％（相对为6.8％）。

5.4 Ablation Analysis and Case Study`(消融分析与案例研究)`

我们对Snip进行了消融分析，如表3所示，在没有联合学习的情况下，意图分类的准确率从98.6%下降到98.0%，缝隙填充F1下降到95.8%(从97.0%)。我们还比较了不同微调时期的联合BERT模型。仅用1个轮次微调的联合BERT模型已经胜过表2中的第一组模型。

我们进一步从Snips中选择一个案例，如表4所示，该案例通过利用BERT的语言表示能力来提高泛化能力，显示联合BERT如何胜过时隙门控模型（Goo et al. 2018）。在这种情况下，时隙门控模型错误地预测了“mother joan of the angels”作为对象名称，并且意图也是错误的。但是，联合BERT可以正确预测插槽标签和意图，因为“mother joan of the angels”是维基百科中的电影条目。 BERT模型已在Wikipedia上进行了部分训练，并且有可能通过此稀有短语学习了此信息。

未来的工作包括对其他大规模和更复杂的NLU数据集上所提出的方法进行评估，并探索将外部知识与BERT结合的功效。

6. 重点论文

Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: pre-training of deep bidirectional transformers for language under- standing. CoRR, abs/1810.04805.
Chih-Wen Goo, Guang Gao, Yun-Kai Hsu, Chih-Li Huo, Tsung-Chieh Chen, Keng-Wei Hsu, and Yun- Nung Chen. 2018. Slot-gated modeling for joint slot filling and intent prediction. In NAACL-HLT, New Orleans, Louisiana, USA, June 1-6, 2018, Volume 2 (Short Papers), pages 753–757.
Daniel Guo, Go ̈khan Tu ̈r, Wen-tau Yih, and Geoffrey Zweig. 2014. Joint semantic utterance classification and slot filling with recursive neural networks. In 2014 IEEE Spoken Language Technology Workshop, SLT 2014, South Lake Tahoe, NV, USA, December 7- 10, 2014, pages 554–559.
Dilek Hakkani-Tu ̈r, Go ̈khan Tu ̈r, Asli C ̧elikyilmaz, Yun-Nung Chen, Jianfeng Gao, Li Deng, and Ye- Yi Wang. 2016. Multi-domain joint semantic frame parsing using bi-directional RNN-LSTM. In Inter- speech 2016, San Francisco, CA, USA, September 8-12, 2016, pages 715–719.
Lin Zhao and Zhe Feng. 2018. Improving slot filling in spoken language understanding with joint pointer and attention. In ACL 2018, Melbourne, Australia, July 15-20, 2018, Volume 2: Short Papers, pages 426–431.
Zhiwei Zhao and Youzheng Wu. 2016. Attention- based convolutional neural networks for sentence classification. In Interspeech 2016, San Francisco, CA, USA, September 8-12, 2016, pages 705–709. ISCA.

7. 代码编写

# 后续追加代码分析

参考文献

Chen, Q., Zhuo, Z., & Wang, W. (2019, February 28). BERT for Joint Intent Classification and Slot Filling. arXiv.org.