关于数据增强中如何合成高质量样本

1 前言

在NLP领域中,数据增强(data augmentation)已成为解决样本不平衡( data imbalance)或训练数据不足等问题一种有效技术。尽管通过数据增强手段,可以产生更多训练数据,但同时也会带来噪声影响,甚至可能导致模型性能变差。如何通过数据增强方法,产生高质量的样本,便成为该方法重点要考虑的问题。当前已有不少相关的研究,如经典的Synthetic Minority Oversampling Technique (SMOTE)方法,以及最近的Resampling MixUp (ReMix),都是为了提高少类样本重复采样的质量。本次分享两种数据增强的方法,两种方法都比较新,且思路简单,可快速应用到项目中。第一种方法聚焦在构建难负样本(hard negative samples),第二种方法核心是从一个类型样本生成另一个类型样本。

2 Data Augmentation

下面详细介绍这两种方法:

方法1:Hard Negative Mixing

该方法来自2020年NeurIPS会议一篇论文,论文题目为<Hard Negative Mixing for Contrastive Learning>,是解决当前特别火的对比学习( contrastive learning)中构造对比样的问题。文中指出,尽管有实验证明在一个batch-size下,构造更多的负样本,对对比学习的效果有利,但同时也存在这样的问题:那些与正样本差异度已经很高的负样本,在训练中对对比损失没什么影响,相反,模型应该聚焦学习在那些跟正样本很近的负样本,这样能促使模型能学到更稳健的差异性特征。为此,作者提出了一种hard negative mixing strategies来生成更多难负样本,提高对比学习效果。见下图所示,红色框代表正样本,蓝色三角代表是合成的负样本,这些负样本都是离正样本很近。该方法具有普适性,可作为一种数据增强的方法。

具体来说:对于mini batch中的一个正样本X_i来说,通过表征模型Encoder得到它的表征向量H_i 和 排序好后的负样本表征向量集合 P=\{H_1^-,H_2^-,...,H_M^-\} ,排序按照与正样本的相似度来计算,即: sim(H_i,H_1^-) > sim(H_i,H_2^-), 其中 sim(u,v)=u^Tv/(||u||_2||v||_2) 代表两个样本的余弦相似度计算。

接着,从集合中P中选择top K 样本组成难负样本集合P^K,即 K < M items;然后利用线性组合的方式生成s个新的难负样本,实现让模型学习更多hard negative samples目的。如 G =\{G_1^-,G_2^-,...,G_s^- \} 为新合成的难负样本集合,对于其中一个合成样本G_k \in G来说,其计算方式如下:

G_k= \frac{\hat{G_k}}{||\hat{G_k}||_2}
\hat{G_k}=\alpha_kH_i^- + (1 - \alpha_k)H_j^-

其中 H_i^-, H_j^- \in P^K是随机从集合P^K选择的两个样本,\alpha_k \in (0, 1)是平衡两个样本的计算系数 。论文中参数\alpha_k作者是随机确定的,比如取0.5。

总体来说,Hard Negative Mixing是从原有的hard negative samples集合中,通过线性组合合成更多的samples,新生成的样本具体原来集合中hard特征,这样让模型有更多高质量样本去学习。作者在实验中显示,该方法可以有1%的提升的效果。

方法2:good-enough example extrapolation

该方法来自今年Google Research一篇论文,论文题目为:<Good-Enough Example Extrapolation>,论文已投了2021EMNLP会议。其借用这样一个直觉:同类样本在表征后,在高维空间上有相同的分布,而其中单独样本成随机状态;不同类样本呈现不同分布,分布之间的距离可表示为不同类之间的差距与关系。为此,文中提出好的样本外推的方式生成新样本的方法——good-enough example extrapolation(GE3),以此来产生更多高质量样本,解决样本不平衡问题。如下图所以,GE3方法将类别Travel分布中一个样本,推向Health分布中,形成一个新的Health样本。

该方法计算简单,不需要额外的参数,计算方式如下:

对于一个有k个类别的分类任务\{c_j\}_{j=1}^k来说,n_c为c类别的样本数量,X_c^i为c类第i个样本的表征向量,则对于每个类别c来说:
\mu(c)=\frac{1}{n}\sum_i^{n_c}X_c^i

接着,GE3方法将样本在高维空间中从源类c_s外推到的目标类c_t来生成增强示例。对于源类中的空间表示为x_{c_s}^i的一个样本,则对应在目标类中生成了一个相应的增强示例\hat{x}_{c_t}:

\hat{x}_{c_t}=x_{c_s}^i - \mu(c_s) + \mu(c_t)

这样,可以按一定比例将不同类别的样本外推到少类别中,进而产生更多样本,缓解数据集中不平衡问题。可以看出来,该方法十分简单,也很好理解。作者在实验中验证,该数据增强方法在不平衡性文本分类任务上可带来平均5%的提升。

3 结语

本次分享两个简单且落地容易的数据增强方法,可在实践项目中尝试运用。当然,数据增强有很多方法,本次分享的方法可作为一个辅助的技术点应用到自己的项目或者研究中,是否真正有效,还需在自己数据环境中进一步验证~

更多文章可关注笔者公众号:自然语言处理算法与实践

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容