论文阅读笔记:Conditional Augmentation for Aspect Term Extraction via Masked Sequence-to-Sequence Genera...

pdf:https://www.aclweb.org/anthology/2020.acl-main.631.pdf

概述:

- 有监督的方面术语抽取任务面临的最大的挑战是没有足够多标注好的训练数据。这篇论文提出用数据增强的方法来生成新的训练数据。为了保证生成的新数据的质量,作者提出了条件生成方法,生成与原句子具有相同序列标签的句子。

- 提出蒙版序列到序列方法(a masked sequence-to-sequence method)进行条件下文本生成。

方法:

- 碎片掩蔽策略(Fragment Masking Strategy):(1)遮蔽连续续词序列,从下标u到v;(2)只遮蔽标签为O的词;(3)遮蔽碎片的长度由r来控制,r是遮蔽概率。

- 采样策略(Sampling Strategy):按照概率p随机抽取一个样本;决定掩蔽碎片的起始位置;按照掩蔽策略来掩蔽序列。

- 训练目标:根据遮蔽过的样本\hat{X}和标签序列L来重新构建(reconstruct)原本的碎片序列Y

     >  编码器:H=Enc(\hat{X},L) 

     >  解码器:P(Y|X,L) = \prod_{t=1}^m P(y_t|y_{1:t-1},l_t,H)

                      P(y_t|y_{1:t-1},l_t,H)=softmax(Ws_t+b)

                        s_t=z_t+Emb_l(l_t)

                                                 z_t=Dec(x_{t-1},l+{t-1})

- 数据增强:避免每次从从一个位置开始遮蔽,手动的选择起始位置,用beam search来生成。系统会按照不同的起始位置,重复跑很多次,以让每个样本都能实现数据增强。

实验:

实验结果
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容