一种解决bert长文本匹配的方法

引言

bert[1]提出来后打开了迁移学习的大门,首先通过无监督的语料训练通用的语言模型,然后基于自己的语料微调(finetune)模型来达到不同的业务需求。我们知道bert可以支持的最大token长度为512,如果最大长度超过512,该怎么样处理呢?下面这边论文提供一种简单有效的解决思路。

Simple Applications of BERT for Ad Hoc Document Retrieval

201903发表

1. 摘要

bert大招很好用,但是其最大长度为512以及其性能这两个缺点给我们的线上部署提出了挑战。我们在做document级别的召回的时候,其文本长度远超bert可以处理的长度,本文提出了一种简单并且有效的解决思路。将长的document分解成多个短的句子,每个句子在bert上独立推断,然后将这些句子的得分聚合得到document的得分。

2. 论文细节以及实验结果

2.1 长文本匹配解决思路

作者先以短文本匹配任务-社交媒体的帖子来做召回实验,通过query来召回相关的帖子,一般帖子的长度是较短的文本,在bert可以处理的范围内。实验的评价指标为两个平均召回(AP)top30的召回率(P30),下表是最近的深度模型在这个数据集上的结果。

微博短文本匹配方法性能

我觉得上述实验数据主要说一点:

bert在短文本匹配类型的任务上效果很好,性能SOTA

长文本的docment匹配一般解决方法:

  • 直接截断,取top长度,丢失了后面的数据;
  • 片段级递归机制,解决长文本依赖,如Transformer-XL[2],一定程度上可以解决长依赖问题(看递归长度),但模型稍复杂;
  • 基于抽取模型,抽取长文本docment的关键句子作为doc的摘要,然后基于此摘要进行匹配模型训练,这样只考虑了摘要,没有考虑其他句子,比较片面;
  • 将长文本划分为多个短句子,选择匹配度最高的来做匹配,同样没有考虑其他句子。

本文的方法

针对新闻语料的长文本召回问题,本文首先利用NLTK工具将长文本分为短的句子,不同于考虑最匹配的句子,本文考虑top n个句子。最终长文本docment的匹配得分计算公司如下:
Score_d=a*S_{doc} + (1-a)*\sum_{i=1}^nw_i*S_i
其中Sdoc是原始的长文本得分(文本得分),例如BM25得分,Si表示第i个top的基于bert句子的匹配得分(语义得分),其中参数a的参数范围[0,1],w1的值为1,wi参数范围[0,1],基于gridsearch去调参,获得一个比较好的性能。

2.2 实验结果

finetune的数据

我们的原始的微调数据是查询query和长文本document的关系,而我们将长文本拆分为n个短句子后,不是所有的句子和当前的query是强相关的(正样本),因此我们不能简单依赖现在的长文本数据了。本论文的解决方法是基于外部语料,基于QA或者Microblog数据,首先bert基于通用的无监督语料学习到了词语以及句子的表征,所以基于少量的数据微调也可以获得较好的效果,因此本文选择外部相关的语料进行微调。具体效果如下表,我们发现长文本的匹配基于本文的方法可以取得比较好的效果。


本文方法的性能

3. 总结与问题

总结

  • 本文提出一种加权的短句子得分方法来解决长文本匹配得分问题;
  • 该方法在该论文实验数据集上可以取得SOTA的效果,方法简单有效;

思考

  • 论文中微调的数据使用外部数据,微调的模型没有很好拟合当前的数据,是不是可以从分割的短句子中进行正负样本的采样,这样微调的数据也是从长文本中得出;
  • 论文中如果选取的top n,如果n过大的话,调参有点复杂,n过大感觉可以取top3调参,然后后面平均。

参考文献

Simple Applications of BERT for Ad Hoc Document Retrieval


  1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

  2. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351

推荐阅读更多精彩内容

  • 假之以便,唆之使前,断其援应,陷之死地。遇毒,位不当也。 理解:上屋抽梯是一套组合战术,前后呼应,互相配合。 生活...
    一花一世界滕老师阅读 735评论 1 0
  • 今天看《今日说法》,被案例里十一岁的小女孩震撼到。 因为父母离异,她和爸爸一起生活,爸爸对她不是打就是骂。她的心事...
    温吞吞拿鱼阅读 265评论 0 0
  • 最近发现自己要做的事太多了,我得好好想想如何安排自己的时间了。每天要坚持跑步、瑜伽、读书、写作的,现在是自己又给自...
    小叶pink阅读 300评论 0 3
  • 如果是可切分的背包问题,那没什么难度。基本上就是选择一个性价比最高的物品先放进去,放完发现没有了,然后放性价比第二...
    大桥酱阅读 377评论 0 2
  • 检查有没有某项权限 权限申请回调 弹窗提示用户去设置权限 权限大全 http://www.cnblogs.com/...
    我是你森哥哥阅读 791评论 0 2