文章名称
【ACL-2020】【Intel AI】Few-Shot NLG with Pre-Trained Language Model
核心要点
文章旨在小样本的场景下(200个驯良样本)实现自然语言生成。作者把整个结构分为两部分,1)内容选择;2)生成语句通顺的句子。其中,第二个部分利用了预训练的语言模型(主要是借鉴其中的先验知识)。作者主要研究的领域是从表格数据中生成自然语言描述。
方法细节
问题引入
人类可以快速的从源数据(特别是结构化数据)中筛选内容,组织语言进行表达。这项能力在现有的NLP场景中可以服务于之智能问答。近年来,基于神经网络的模型取得了比较大的成果,相比于原有基于槽位的模型,省去了很多人工特征工程的工作,并且生成的文本更加流畅和具有多样性。然而,这些方法需要大量的训练数据,使得基于神经网络的NLG系统难以广泛的应用到实际场景中。
因此,作者提出了few-shot natural language generation(for structure data)。该问题的训练样本数量一般只有50-200个,并且要求生成满足指标要求的文本,例如BELU > 20。
作者认为要完成这项任务需要两个技能,1)从源数据中提取有用的信息;2)生成通顺流畅的文字表达。利用预训练的语言模型可以充分利用模型学习到的语言知识,保证生成语句通顺,句意合理,并且可以快速的从小样本中学习学习核心内容。
值得注意的是,因为样本量比较少,作者采用的是比较简单的模型模型,以此来防止过拟合,期望可以得到比较好的泛化能力。
具体做法
首先,形式化定义一下问题,
- 样本数据为少量的结构化(表格)数据,(可以理解为KV数据),其中分别表示表格属性和具体取值。
- 表格值被表示为一系列文字或数字。
- 目标,利用上述少量数据,生成通顺合理的文本描述。
作者提出的简单的模型架构可以被分为3部分,将摘要生成拆分为两个阶段,整体流程示意如下图所示。
- 表格数据转换(encoder)。作者采用[1]中使用的field-gated dual attention模型,来提取结构数据中的信息。
- 转换和复制机制(copying/switching)。图中”The swicth policy“表示文本描述生成过程中需要利用的复制和转换机制,作者收到[2]的启发,利用复制概率来控制是从词表中自动生成,还是从原始数据中直接copy。其中,,而表示encoder的hidden state,分别表示解码器在第步的输入,hidden state以及注意力权重(这里感觉notation有一点混乱,比如是每一步的hidden state?)。这里作者强调,由于是小样本学习,很多内容是在原始表格数据中可以找到的,但是样本里没有训练到,造成OOV。所以,需要显示的训练模型哪里需要生成,哪里需要copy。作者在样本中加入了哪里是copy的标签(groudtruth中词的index)来作为监督信号显示监督模型学习copy机制,其损失函数如下图所示,其中,表示对齐的属性,表示被copy的词。**值得注意的是,作者把匹配的属性和位置信息,以及decoder的上一步结果一起作为输入,传入decoder中。
- 文本生成器(generator)。作者利用预训练的GPT-2[3]作为文本生成器,这部分没有什么特别。**为了保证模型继承了之前的语言能力,作者固定词表不变。此外,由于这部分是与预训练的,而其他复制机制和注意力机制是从头训练的,因此加大了copy的超参数来提升copy部分的损失,促进显示学习。
心得体会
组合
个人感觉,本文属于组合了多种现有模型和结构,并准确具体问题,强调了某部分的能力,比如copy机制和预训练的词表。主要的核心是贡献是提出了few shot NLG的问题,并且给出了一个简单可行的办法。
文章引用
[1] Tianyu Liu, Kexiang Wang, Lei Sha, Baobao Chang, and Zhifang Sui. 2018. Table-to-text generation by structure-aware seq2seq learning. In Proceed- ings of the Thirty-Second AAAI Conference on Ar- tificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pages 4881– 4888.
[2] Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get to the point: Summarization with pointer- generator networks. In Proceedings of the 55th An- nual Meeting of the Association for Computational Linguistics, ACL 2017, Vancouver, Canada, July 30 - August 4, Volume 1: Long Papers, pages 1073–1083.
[3] Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. Language models are unsupervised multitask learners.