论文笔记 --《Matching Article Pairs with Graphical Decomposition and Convolutions》

标签: Jd_Paperweekly
来源: ACL 2019
关键词:文本匹配,GCN, BERT


1.背景及问题描述

本文目标主要是为了解决长文本匹配的问题,与短文本匹配不同,长文本匹配涉及到关键词、实体和句子之间更复杂的交互。所以本文提出了一种“分而治之”的思路,首先将文本构造成一个图,然后使用图卷积网络来抽取特征来进行文本匹配。在自己构造的长文本数据集上,取得了非常好的效果。

2.已有的解决方案

作者主要与传统的文本匹配算法做比较。
使用TF-IDF,BM25,LDA等算法来比较两个文本的相似度,这些算法在信息检索和搜索领域应用广泛。近年来出现大量的深度神经网络模型,比如RNN和CNN等,来对文本进行编码,可以很好的获取语义相关性,特别是序列相关性。但是这些方法都是为了匹配一对句子(sentence-pair)而设计的,而长文本涉及到关键词、实体和句子之间更复杂的交互,再使用这些模型就很难取得很好的结果。

3.解决方案概述

结构图

上图是本文提出方法的结构图,是pipe-line的结构,首先对文档构建CIG,然后使用GCN提取特征,再使用分类器进行分类。主要步骤有构造CIG,使用GCN来聚合特征,最后的分类层,下面我们逐一讨论:

  1. 概念交互图(CIG,Concept Interaction Graph)
CIG例子

上面是对左边这篇文档构造CIG的例子。CIG是一个无向带权图,没一个节点称为一个concept,它是这个文档中的关键词或者是高度关联的关键词组,文档中的每个句子被唯一的关联到与它最相关的一个节点上,所以各节点关联的句子集合是互斥的。边的权重的含义是两个concept的相关度,计算方式有很多种。
下面我们详细介绍构造CIG的过程:

简单版本的实现:

  1. 使用TextRank算法抽取实体和关键词(keyword)
  2. 把关键词看作节点,在关键词上构建图(KeyGraph)。边的定义是,如果两个keyword同时在一个句子中出现。

作者继续介绍了使用concept来构造图的方法。

  1. 概念检测(Concept Detection)
    使用社区发现算法(community detection algorithms)将多个关键词合并为concept,每个关键词可以出现在不同的concept中。这一步不是必要的,只是为了减少图中节点的个数来减少计算量。
  2. 句子链接(Sentence Attachment)
    计算文档中每个句子与每个concept的余弦相似度,其中句子与concept的向量用TF_IDF表示,这样把每个句子与最相关的concept链接起来,没有匹配到任何concept的句子链接到一个伪节点(dummy vertex)上。
  3. 构造边
    将与每个节点附属的句子拼接起来,节点之间的相关性就是直接计算拼接句子的TF_IDF值。
    如果需要构造一对文档,只需要在节点上将两个CIG对齐,来自不同文档中的句子也直接拼接在一起。
  1. GNN聚合文章对
  1. Encoding Local Matching Vectors
    在得到合并的CIG G_{AB}之后,对于图中每个节点(concept),我们定义来自的文档A和B的句子集合分别为S_A(v)S_B(v)。首先需要学习每个节点的匹配向量(matching vector),这个向量是用来表示S_A(v)S_B(v)相似度的。
    这样,就可以把两篇文章的匹配问题转移到每个节点的两个句子集合匹配问题上了。
    作者使用了两种方法:
    Siamese Encoder: 使用挛生网络分别对S_A(v)S_B(v)中句子编码。这里作者应该是将句子集合拼看成一个句子来处理的。然后使用一个聚合层,得到一个匹配向量:m_{AB}(v)
    Term-based Similarities: 直接计算S_A(v)S_B(v)之间的词语相似度,作者使用了五种方法:TF-IDF相似度,TF余弦相似度,BM25,1-gram的Jaccard还有Ochiai相似度,最后将这五个得分拼接在一起,得到另一个匹配向量:m^{'}_{AB}(v)

  2. Matching Aggregation via GCN
    模型的目标是要利用这个图和每个节点的匹配向量得到一个匹配分数,来表示两个文档的相似度。作者使用GCN在这个图上来提取特征。
    首先定义输入:
    已知图G=(V,E),有N个节点v_i\in{V},边为e_{ij}=(v_i,v_j)\in{E},没条边对应的权重表示为 w_{ij}
    另外每个节点的节点特征矩阵为 X={(x_i)}^{N}_{i=1},其中x_i就是将上面计算得到的匹配向量(matching vector)拼接得到:x_i=[m_{AB}(v),m^{'}_{AB}(v)]
    然后使用GCN在此基础上编码提取特征,在最后一层将所有隐向量取平均得到最终的向量m_{AB}(graphically merged matching vector),然后最后一层使用MLP在此向量上做分类。
    作者还尝试在分类层加入其他特征向量,比如使用BERT编码两个文档、直接计算两个文档的Term-based Similarities,实验证明都没有提升。

4.结果分析

实验结果

结论:

  1. 对比其他一些常规的文本匹配模型,在这个数据集上,本文提出的方法确实提升很多。而在常规的方法上,用BERT微调后的模型表现已经很好了,好于本文方法的几个对比模型。但是加入CIG后确实有大幅度提升。
  2. 使用社区发现算法来merge节点,可以将图的平均节点数从30降到13,降低55%的训练和测试时间。当然,实验表示,结果没有使用全部keyword做节点表现好。这也是可以理解的,毕竟更多节点可以提供更多的信息。

5.创新点或贡献

  1. 提出了概念交互图(CIG)来表示一篇文档,用关键词或者概念作为节点,文档中每个句子唯一的链接到一个节点上,节点附属的句子集合相似度作为权重。得到的CIG不仅可以很好的刻画文档的语义特征,还可以在此基础上进行基于节点的文档比较方法。
  2. 提出了一种基于CIG和GCN的“分而治之”的框架来做文档匹配。
  3. 提供了一个长文档匹配的数据集。

6.个人思考

  1. 图卷积模型的应用。
  2. 将文档构造成CIG的方法,实现的细节比较常规,有很多优化点。
  3. 以CIG为基础来编码证明可以很好提取长文档的特征。

[参考:]

paper
code

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容