Keyphrase Generation

Deep Keyphrase Generation

  • 第一篇做keyphrase generation的文章,之前的做法都是采用抽取式。抽取式的问题在于,1)只能从原文中抽取,并且不能有一点顺序和同义词上的变化;2)keyphrase排序,通常采用TF-IDF或者PageRank,然而该算法都是采用统计信息,缺少了对document完整的理解。
  • 任务定义
    • 数据标注:输入document,输出keyphrase集合
    • 为了适配Encoder-Decoder模型,将数据重新组织为document-keyphrase的pair对(同一个document对应多个keyphrase)
  • 模型
    • 采用标准的Encoder-Decoder模型,然后通过Copying Mechanism缓解OOV的问题。

Neural Keyphrase Generation via Reinforcement Learning with Adaptive Rewards

  • 模型输入document,输出为keyphrase集合,本文将keyphrase通过特殊分隔符组合为一个输出,因此一个document和一个组合的keyphrase形成了模型输入和输出。
  • 基础的模型设计较为普通,采用Encoder-Decoder的方式进行建模,其中Encoder为BI-GRU,Decoder为单层的GRU。
  • 为了缓解OOV的问题,作者也采用了Pointer-generator network
  • 模型的损失函数为最大似然估计
  • 本文的亮点在于最后作者采用Reinforcement Learning解决生成keyphrase过多或者过少的问题
    • 当生成keyphrase不足时,采用recall作为reward,希望模型生成更多的keyphrase
    • 当生成keyphrase充足时,采用F1值作为reward,希望模型生成精度更高

Semi-Supervised Learning for Neural Keyphrase Generation

先前的keyphrase generation任务,大都建立在有大量监督数据的前提下。然而获得充足的监督数据是一项非常奢侈的事情,实际应用中如何更好的利用未标注数据提升模型的性能是本文主要考虑解决的问题。

  • 任务定义
    • 不同于document-keyphrase pair的数据构造方式,这里将所有的keyphrase通过分隔符拼接到一起。因此document-keyphrase set只会有一条训练数据。
  • 模型
    • 采用标准的Encoder-Decoder模型,然后通过Pointer-generator Network缓解OOV的问题。

    • 损失函数为标准的最大似然函数

    • 在beam search之后,再对生成的keyphrase进行ranking,得到最终的keyphrase

    • Semi-Supervised Learning
      为了更充分利用无标注数据,采用标注数据与无标注数据混合,使得Encoder见过更多的document,同时也让Decoder见过更多的上文信息。

      • Unsupervised Learning Methods
        • 采用TF-IDF和TextRank对未标注document进行keyphrase抽取,然后去重。
        • 对抽取的keyphrase进行排序,然后取top的keyphrase作为训练数据
      • Self-learning Algorithm
        • 采用另一个baseline模型在标注数据上进行训练,然后对未标注document进行生成,最后取top-1的keyphrase作为训练数据
      • 模型训练
        • 现在标注数据和伪标注数据混合之后的数据上训练,然后在标注数据上进行finetune
      • Multi-task Learning with Auxiliary Task
        • 为了充分利用未标注数据,作者这里通过document和title构造了一个辅助任务,两个任务共享Encoder,Decoder分别适配不同的任务。

Title-Guided Encoding for Keyphrase Generation

针对title和document,先前的建模不加区分的同等对待,因此忽略了title的重要地位。为了解决该问题,本文对title和document采用不同的encoder进行编码,然后进行融合以进行decoder。

  • 问题定义
    • 数据格式:title、document、keyphrase set
    • 与传统pair不同,这里采用三元组的方式进行建模<title、document、keyphrase>,一个keyphrase会拆分成多个三元组。
  • 模型
    • Title-Guided Encoder Module

      • Sequence Encoding Layer
        这里采用BI-GRU对title和document进行编码

      • Matching Layer
        在获得title和document的编码信息之后,接下来就是融合title和document特征的阶段。本文采用attention机制进行特征融合(1:title-to-title部分;2:title-to-document部分)

      • Merging Layer
        keyphrase的核心内容仍然来自于document,前面的融合特征更多的是为了更好的利用title特征,因此接下来需要将document特征和融合之后的特征进行合并

    • Decoder Module
      Decoder采用了较为常见的GRU+Pointer-generator network

    • Training

      • 负对数似然损失函数

Topic-Aware Neural Keyphrase Generation for Social Media Language

[图片上传失败...(image-513f96-1595847363294)]
为了缓解社交媒体信息中数据稀疏、普通的模型难以捕捉文章核心内容的问题,本文采用主题模型结合seq2seq对keyphrase generation进行建模。然后作者通过实验对构思进行验证,本文模型取得了state-of-art的结果。

  • 模型
    • Neural Topic Model

      • BoW Encoder
        利用神经网络估计先验变量\mu\delta
      • BoW Decoder
        与LDA类似,其假设存在个主题存在,其中每一个主题都表示有一个topic-word的分布,而其中的每一个document都有一个Topic Mixed Distribution。在神经网络模型之中使用Gaussian Softmax的方式产生\theta
    • Sequence Encoder
      采用标准的BI-GRU模型对input进行特征编码

    • Topic-Aware Sequence Decoder

      • decoder的输入除了上一时刻的状态之外,还包括了主题模型信息\theta和sequence encoder状态h
      • 通过attention计算document的核心词,然后结合当前时刻的状态进行单词预测
      • 为了缓解OOV问题,本文采用Pointer-generator network
    • 损失函数

      • 针对keyphrase generation,损失函数为交叉熵损失
      • 针对神经主题模型(NTM),损失函数为KL散度损失

One Size Does Not Fit All: Generating and Evaluating Variable Number of Keyphrases

本文主要解决keyphrase generation的两个问题,1)生成结果是否具有多样性;2)生成结果的评估方式。首先,目前的keyphrase generation方法,大都采用比较大的beam search,然后取top的keyphrase作为最终的生成结果,但是不同的source text应该有不同数量的keyphrase;同时,并行的beam search不能建模keyphrase之间的关系,导致生成结果的多样性降低。其次,评估效果时大都采用生成结果的top keyphrase(个数固定)与ground truth(个数不确定)进行比较。

  • 问题定义
    • 输入:source text
    • 输出:通过分割符对keyphrase进行分割,然后拼接为一个输出字符串,例如:keyphrase-1 <sep> keyphrase-2
  • 模型
    • Mechanisms for Diverse Generation
      • Semantic Coverage
        本文设计了Semantic Coverage让生成的keyphrase与source text关系更紧密。通过另一个uni-gru将decoder-generated进行编码,然后将编码的特征作为下一次decoder输入的一部分来影响模型。最后作者设计Semantic Coverage loss,将source text的encoder特征与decoder-generated encoder特征计算classification loss(随机采样N-1个负样本)。
      • Orthogonal Regularization
    • Training Loss
      因此,训练损失包含3部分,生成损失、coverage loss、归一化loss。
    • Decoding Strategies
      • Exhaustive Decoding
        将beam search的大小设置为150或者200,然后再进行排序筛选top的keyphrase。时间复杂度非常高。
      • Self-terminating Decoding
        将所有的keyphrase用分割符拼接到一个字符串
    • Evaluating Keyphrase Generation
      主要是将固定的top-k改为动态的k(随ground-truth变化)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351