<Paper Reading Series>
本文基于2016 TACL的文章:Adversarial Deep Averaging Networks for Cross-Lingual Sentiment Classification
- 研究背景
- 前人的解决方式
- 模型核心思想
- 具体实现细节
- 实验结果
- 结论
研究背景
TODO
前人的解决方式
- Machine Translation system
模型核心思想
提出了一个ADAN(Adversarial Deep Averaging Network)模型,即基于对抗训练的DAN网络模型。
模型提出的假设是:跨语言迁移模型的最理想状态是这个模型可以学习到在源语言和目标语言中都能达到好的预测效果的特征,也就是源语言和目标语言共有的一些特征,即specify features invariant with respect to the shift in language。
ADAN的结构大体分为2条branches,3个main components:
- 联合特征提取器F
- 情感分析分类器P
- 用于对抗训练的语言辨别器Q
特征提取器F的目标是学习到输入语料的特征,用来帮助分类器P进行情感分析的分类,同时阻止语言辨别器Q辨别出这个特征是来自源语言还是目标语言。
ADAN has a joint feature extractor F which aims to learn features that aid prediction of the sentiment classifier P, and hamper the language dis- criminator Q, whose goal is to identify whether an input text is from SOURCE or TARGET.
这样做基于的假设是:如果语言辨别器Q接收特征提取器F提取出的某个特征f1作为输入进行语言的判断,但是无法判断出这是来自哪种语言,那么这个特征可以看作是两种语言共有的,即language-invariant。
基于此,Q的作用就是努力去辨识接收到的features是来自哪种语言,如果最后辨别不出来了,说明特征提取器F提取出的features已经都是language-invariant的了。其中的思想和GAN的生成器/鉴别器很像。
具体实现细节
-
Word Embedding层
baseline:将输入的句子表示为词的序列,每个词再由其词向量来表示。
improved method:pre-trained bilingual word embeddings,但是需要有平行语料进行预训练。 -
Feature Extractor层F
DAN(Deep Averaging Network)/ CNN / Bi-LSTM with dot attention mechanism -
Sentiment Classifier层P
普通的前馈神经网络 -
Language Discriminator层Q
使用梯度反转层(Gradient Reversal Layer),Q作为一个二分类器,输出的前一层为一个sigmoid层,输出0-1之间的值,作为输入的特征是来自源语言的概率,因此训练完成后,Q层的输出应该都趋向于0.5。
但是标准的GRL层有一个缺点,就是F和Q层的训练并不完全同步,通过观察,F的训练速度是快于Q的,这样对整体的拟合速度和准确性有一定损害。因此作者提出了一个优化方法,即设置一个超参数k,每对Q训练k个iterations,才训练一次F,通过这样的方式使F和Q的训练速度达到同步。
实验结果
TODO
结论
TODO