Gao, Tianyu, et al. “Hybrid Attention-Based Prototypical Networks for Noisy Few-Shot Relation Classification.” AAAI 2019 : Thirty-Third AAAIConference on Artificial Intelligence, vol. 33, no. 1, 2019, pp. 6407–6414.
一、论文发表信息:
二、论文主要思想:
这篇文章的一个出发点是解决few-shot learning 中易受噪声实例影响和特征稀疏的问题。提出了一种混合attention的原型网络。基本的做法就是设计两种attention机制,分别是基于实例级别和特征级别的:
(1)利用实例attention来选择support集中最有价值的样本,来缓解噪声样本对模型的影响。
(2)利用特征attention来突出特征空间中重要的特征维度,来缓解特征稀疏问题。
这是作者提出的网络框架。
用了由实例级attention和特征级attention组成的混合关注。实例级attention模块能够在支持集中选择信息更多的实例,并在训练过程中对那些有噪声的实例进行去噪。特征级attention模块可以突出特征空间中的重要维度,并为不同的关系建立特定的距离函数,这使得模型能够缓解特征稀疏性的问题。
首先是实例编码器的部分编码器分为两个部分,首先是嵌入层的部分。Embedding Layer 将每个单词的word embedding和position embedding拼接起来作为最后的input embedding。Encoding Layer 对于input embedding该模型利用CNN去提取特征,生成最后的instance特征向量x;
原始的原形网络计算类原形是通过加权平均的方法,即认为每个实例的地位都是相同的。但由于任务的背景是在few-shot学习中,用来计算类原形的样本数量往往很少。如果出现错误实例或者是和常规句子语义偏差较大的正确实例的话,对于类原形的影响是非常的巨大,故该模型通过实例级别的attention机制来缓解这一问题:
计算每类的原型ci:
对于关系 i,其样本数量为ni,其原型的特征向量为ci,j 表示第i 个关系中第 j 个样本(1 ≤ j ≤ ni),αj表示第 j 个样本的权重,xij表示第i个关系中第j个样本经过编码后得到的特征向量。
αj由Softmax函数得到(ej作为相应的参数);x 为 query 样本的特征向量,g(·) 表示对xij和 x 进行线性变换,再进行点乘操作,σ(·) 为激活函数,这里选用tanh,将点乘结果映射到 [-1, 1] 之间,将αj作为实例的权重,从而缓解噪声样本对原型的影响。
对样本的特征向量进行 3 次卷积操作,得到zi,在 Euclidean 距离的基础上,乘以一个值zi,得到一个新的距离度量,这样就完成了特征选择的过程,缓解了特征稀疏的问题。
三、总结
这篇文章的切入点较好,是从问题本身出发:在处理语义关系分类时,遇到了噪声影响原型计算以及特征稀疏的问题。针对这两个问题,作者提出了实例级的attention机制,用来缓解噪声样本带来的影响。采用特征级别的attention机制来解决特征稀疏的问题。