Text Clustering & BERT - Self-supervised Document Clustering Based on BERT with Data Augmentation

emmm..这个系列可能会有好几篇文章吧,用来弥补对黑色九月的无知..

Shi H, Wang C. Self-supervised document clustering based on bert with data augment[J]. arXiv preprint arXiv:2011.08523, 2020.

摘要导读

作者指出对比学习作为一种效果很好且并不复杂的模型设计,很容易与深度模型进行结合。在本文中,基于BERT,分别提出了自监督对比学习(SCL)和使用无监督数据增强(UDA)的小样本(few-shot)对比学习(FCL)用于文本聚类。对短文本和长文本的聚类中,SCL实现了无监督方法中的SOTA;FCL的性能则接近于有监督方法。

主要贡献点
  1. 针对SCL,设计了multi-language back translation(BT,多语言回译)以及random mask(RM,随机掩码)来生成正例样本。
  2. 针对FCL,提出了无监督数据增强(UDA)。
模型框架

用于FCL和SCL的学习框架如下所示。

在每个mini-batch的学习中,(1)会选取产生m个文本对,每个文本对内被当作是正例样本,而文本对间则互为负例样本。(2)BERT将移除停用词的文本对作为输入,并将其转换为转换为隐含表示。笔者比较疑惑的一点是,在以字为输入的BERT中,其实停用词对于整个句子的embedding的影响不大。论文中这种直接去停用词的方式,是否会造成上下文语义的断层还有待考证。(3)BERT由基于隐含表示的对比学习损失进行回调。在完成了学习的迭代之后,将数据集中的所有样本输入微调好的编码器中获取对应的样本隐含表示,并使用k-means得到聚类结果。
首先给出笔者对该框架学习的伪代码理解:

given dataset, total_epochs and batch_size
for epoch in range(total_epochs):
    for batch in batches:
        training 
        # for scl & for fcl
obtain the fune-tuned Encoder
get the clustering results though the k-means
  • Mini-batch Construction
    这一部分的构建分为两种情况:
    (1)针对SCL,数据集中的所有数据都用于模型的调整:
    首先从数据集中随机的选取m个样本,且并不要求这些样本来自不同的类簇。对于选定的文本x_i, i=1,2,...,mx_i^{'}x_i^{''}分别是由BT和RM产生的文本。在进行batch的构建中,原始文本被排除在外,因此batch_size=2m
    (2)针对FCL,BERT则由m对带有标签的少量文本进行调整,batch_size也是2m。具体来说,每个样本对x_{c_i,i}x_{c_i,j}来自同一类簇c_i,其他不同的文本对则来自n个不同的类簇。为了对不同类簇中的文本进行完整的对比,这里建议m \ge n但是这种方法使得在选取负例样本时,存在一定的概率选到来自相同类簇的样本。至于这种偏差会带来多大的性能影响还未知。
  • Contrastive Loss
    前一部分是批训练中正负例样本的构建,这一部分是对比损失的计算。
    其中对于一个pair loss,给定l(i,j),给定当前文本对的序列p-th,其中i=2p-1, j=2p
  • Unsupervised Data Augmentation
    UDA原始用于二分类任务。针对FCL,数据集D中的文本被BT为D'。BERT将给定的x_iD'中的三个文本x_{i,q}(q=1,2,3)作为输入,并且将输出喂给UDA以得到其对应的分布p_\theta(y|x_i)p_\theta(y|x^{'}_{i,q}),由此构造
  • Total Loss

    至此,总体损失为:

我的疑虑:
未进行消融实验,不能直接说明性能的提升来自哪个部分。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容