Sentence-BERT 详解

本文为转载,原文链接:https://wmathor.com/index.php/archives/1496/

BERT 和 RoBERTa 在文本语义相似度(Semantic Textual Similarity)等句子对的回归任务上,已经达到了 SOTA 的结果。但是,它们都需要把两个句子同时送入网络,这样会导致巨大的计算开销:从 10000 个句子中找出最相似的句子对,大概需要 5000 万 (C_{10000}^2=49,995,000) 个推理计算,在 V100GPU 上耗时约 65 个小时。这种结构使得 BERT 不适合语义相似度搜索,同样也不适合无监督任务,例如聚类

解决聚类和语义搜索的一种常见方法是将每个句子映射到一个向量空间,使得语义相似的句子很接近。通常获得句子向量的方法有两种

  1. 计算所有 Token 输出向量的平均值
  2. 使用 [CLS] 位置输出的向量

然而,UKP 的研究员实验发现,在文本相似度(STS)任务上,使用上述两种方法得到的效果却并不好,即使是 Glove 向量也明显优于朴素的 BERT 句子 embeddings(见下图前三行)

Sentence-BERT(SBERT) 的作者对预训练的 BERT 进行修改:使用 Siamese and Triplet Network(孪生网络和三胞胎网络)生成具有语义的句子 Embedding 向量。语义相近的句子,其 Embedding 向量距离就比较近,从而可以使用余弦相似度、曼哈顿距离、欧氏距离等找出语义相似的句子。SBERT 在保证准确性的同时,可将上述提到 BERT/RoBERTa 的 65 小时降低到 5 秒(计算余弦相似度大概 0.01 秒)。这样 SBERT 可以完成某些新的特定任务,比如聚类、基于语义的信息检索等

模型介绍

Pooling 策略

SBERT 在 BERT/RoBERTa 的输出结果上增加了一个 Pooling 操作,从而生成一个固定维度的句子 Embedding。实验中采取了三种 Pooling 策略做对比:

  1. CLS:直接用 CLS 位置的输出向量作为整个句子向量
  2. MEAN:计算所有 Token 输出向量的平均值作为整个句子向量
  3. MAX:取出所有 Token 输出向量各个维度的最大值作为整个句子向量

三种策略的实验对比效果如下



由结果可见,MEAN 的效果是最好的,所以后面实验默认采用的也是 MEAN 策略

模型结构

为了能够 fine-tune BERT/RoBERTa,文章采用了孪生网络三胞胎网络来更新参数,以达到生成的句子向量更具语义信息。该网络结构取决于具体的训练数据,文中实验了下面几种机构和目标函数

Classification Objective Function

这里将embedding向量u和v以及它们之间的差向量拼接在一起,组成一个新的向量,乘以权重参数W_t\in \mathbb {R}^{3n\times k},n表示向量的维度,k是分类标签数量。
o = softmax(W_t[u;v;|u-v|])
损失函数为CrossEntropyLoss

Regression Objective Function

两个句子 embedding 向量 u,v 的余弦相似度计算结构如下所示,损失函数为 MSE(mean squared error)

Triplet Objective Function

更多关于 Triplet Network 的内容可以看我的这篇 Siamese Network & Triplet NetWork。给定一个主句 a,一个正面句子 p 和一个负面句子 n,三元组损失调整网络,使ap 之间的距离尽可能小an 之间的距离尽可能大。数学上,我们期望最小化以下损失函数:
max(||s_a-s_p||-||s_a-s_n||+\epsilon, 0)

模型训练细节

作者训练时结合了 SNLI(Stanford Natural Language Inference)和 Multi-Genre NLI 两种数据集。SNLI 有 570,000 个人工标注的句子对,标签分别为矛盾,蕴含(eintailment),中立三种;MultiNLI 是 SNLI 的升级版,格式和标签都一样,有 430,000 个句子对,主要是一系列口语和书面语文本

蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提(Premise),另一个文本作为假设(Hypothesis),如果根据前提能够推理得出假设,那么就说前提蕴含假设。参考样例如下:


实验时,作者使用类别为 3 的 softmax 分类目标函数对 SBERT 进行 fine-tune,batch_size=16,Adam 优化器,learning_rate=2e-5

消融研究

为了对 SBERT 的不同方面进行消融研究,以便更好地了解它们的相对重要性,我们在 SNLI 和 Multi-NLI 数据集上构建了分类模型,在 STS benchmark 数据集上构建了回归模型。在 pooling 策略上,对比了 MEAN、MAX、CLS 三种策略;在分类目标函数中,对比了不同的向量组合方式。结果如下

结果表明,Pooling 策略影响较小,向量组合策略影响较大,并且 [u;v;|u-v|]效果最好

Reference

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354

推荐阅读更多精彩内容