pdf:https://www.aclweb.org/anthology/2020.acl-main.631.pdf
概述:
- 有监督的方面术语抽取任务面临的最大的挑战是没有足够多标注好的训练数据。这篇论文提出用数据增强的方法来生成新的训练数据。为了保证生成的新数据的质量,作者提出了条件生成方法,生成与原句子具有相同序列标签的句子。
- 提出蒙版序列到序列方法(a masked sequence-to-sequence method)进行条件下文本生成。
方法:
- 碎片掩蔽策略(Fragment Masking Strategy):(1)遮蔽连续续词序列,从下标u到v;(2)只遮蔽标签为O的词;(3)遮蔽碎片的长度由r来控制,r是遮蔽概率。
- 采样策略(Sampling Strategy):按照概率p随机抽取一个样本;决定掩蔽碎片的起始位置;按照掩蔽策略来掩蔽序列。
- 训练目标:根据遮蔽过的样本和标签序列来重新构建(reconstruct)原本的碎片序列。
> 编码器:
> 解码器:
- 数据增强:避免每次从从一个位置开始遮蔽,手动的选择起始位置,用beam search来生成。系统会按照不同的起始位置,重复跑很多次,以让每个样本都能实现数据增强。