自然语言生成工具箱 - Few-Shot NLG

文章名称

【ACL-2020】【Intel AI】Few-Shot NLG with Pre-Trained Language Model

核心要点

文章旨在小样本的场景下(200个驯良样本)实现自然语言生成。作者把整个结构分为两部分,1)内容选择;2)生成语句通顺的句子。其中,第二个部分利用了预训练的语言模型(主要是借鉴其中的先验知识)。作者主要研究的领域是从表格数据中生成自然语言描述。

方法细节

问题引入

人类可以快速的从源数据(特别是结构化数据)中筛选内容,组织语言进行表达。这项能力在现有的NLP场景中可以服务于之智能问答。近年来,基于神经网络的模型取得了比较大的成果,相比于原有基于槽位的模型,省去了很多人工特征工程的工作,并且生成的文本更加流畅和具有多样性。然而,这些方法需要大量的训练数据,使得基于神经网络的NLG系统难以广泛的应用到实际场景中。

因此,作者提出了few-shot natural language generation(for structure data)。该问题的训练样本数量一般只有50-200个,并且要求生成满足指标要求的文本,例如BELU > 20。

作者认为要完成这项任务需要两个技能,1)从源数据中提取有用的信息;2)生成通顺流畅的文字表达。利用预训练的语言模型可以充分利用模型学习到的语言知识,保证生成语句通顺,句意合理,并且可以快速的从小样本中学习学习核心内容。

值得注意的是,因为样本量比较少,作者采用的是比较简单的模型模型,以此来防止过拟合,期望可以得到比较好的泛化能力

具体做法

首先,形式化定义一下问题,

  • 样本数据为少量的结构化(表格)数据,\{ R_i : V_i \}_{i=1}^{n}(可以理解为KV数据),其中R_i, V_i分别表示表格属性和具体取值。
  • V_i表格值被表示为一系列文字或数字V_i = \{ v_j \}_{j=1}^{m}
  • 目标,利用上述少量数据,生成通顺合理的文本描述。

作者提出的简单的模型架构可以被分为3部分,将摘要生成拆分为两个阶段,整体流程示意如下图所示。


Framework
  • 表格数据转换(encoder)。作者采用[1]中使用的field-gated dual attention模型,来提取结构数据中的信息。
  • 转换和复制机制(copying/switching)。图中”The swicth policy“表示文本描述生成过程中需要利用的复制和转换机制,作者收到[2]的启发,利用复制概率p_{copy} = sigmoid(W_c c_t + W_ss_t + W_xx_t + b)来控制是从词表中自动生成,还是从原始数据中直接copy。其中,c_t = \sum_{i}a^i_th_i,而\{ h_i\}表示encoder的hidden state,x_t, s_t, a_t分别表示解码器在第t步的输入,hidden state以及注意力权重(这里感觉notation有一点混乱,比如h_i是每一步的hidden state?)。这里作者强调,由于是小样本学习,很多内容是在原始表格数据中可以找到的,但是样本里没有训练到,造成OOV。所以,需要显示的训练模型哪里需要生成,哪里需要copy。作者在样本中加入了哪里是copy的标签j(groudtruth中词的index)来作为监督信号显示监督模型学习copy机制,其损失函数如下图所示,其中,m表示对齐的属性,w_j表示被copy的词。**值得注意的是,作者把匹配的属性和位置信息,以及decoder的上一步结果一起作为输入,传入decoder中。
    loss function
  • 文本生成器(generator)。作者利用预训练的GPT-2[3]作为文本生成器,这部分没有什么特别。**为了保证模型继承了之前的语言能力,作者固定词表不变。此外,由于这部分是与预训练的,而其他复制机制和注意力机制是从头训练的,因此加大了copy的超参数\lambda来提升copy部分的损失,促进显示学习。

心得体会

组合

个人感觉,本文属于组合了多种现有模型和结构,并准确具体问题,强调了某部分的能力,比如copy机制和预训练的词表。主要的核心是贡献是提出了few shot NLG的问题,并且给出了一个简单可行的办法。

文章引用

[1] Tianyu Liu, Kexiang Wang, Lei Sha, Baobao Chang, and Zhifang Sui. 2018. Table-to-text generation by structure-aware seq2seq learning. In Proceed- ings of the Thirty-Second AAAI Conference on Ar- tificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pages 4881– 4888.

[2] Abigail See, Peter J. Liu, and Christopher D. Manning. 2017. Get to the point: Summarization with pointer- generator networks. In Proceedings of the 55th An- nual Meeting of the Association for Computational Linguistics, ACL 2017, Vancouver, Canada, July 30 - August 4, Volume 1: Long Papers, pages 1073–1083.

[3] Alec Radford, Jeff Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. 2019. Language models are unsupervised multitask learners.

©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容