1. 原文:TransferLearning via Feature Isomorphism Discovery
作者来自港科大和上交大
关键词:迁移学习;跨语种;子图同构
1.1 引言
迁移学习主要解决将已标注空间学到的模型用于目标空间的训练的问题。然而在实际中,已标注样例很少能得出到达总体特征空间的分布的映射方程。在词嵌入等技术的应用中,不同空间的特征可能相关性低,但不同的特征空间可能有相似的特征结构,尽管它们的特征分布不同。受此启发,我们带来了基于特征同构发现的迁移学习TLFid,包括原空间和特征空间的特征提取,基于相同特征结构训练映射方程,训练出有效的分类器,最终该分类器在跨语种分类任务上表现良好。
1.2 相关工作
同构迁移学习假设不同域的特征有相同的分布,异构迁移学习主要解决不同的特征分布。其中heterogeneous domain Adaptation with Manifold Alignment (DAMA)使用标注信息和域的对应来对齐不同域到潜在空间,然而dama假设特征对应与否是二项分布。我们对特征对应做出同构化改进,使迁移工作能更好适应对应噪声和标签缺失。
1.3 问题方程
我们有原始域S={(x_i^s,y_i^s ) }_(i=1)^ls和未标注的目标域T={(x_i^t }_(i=1)^lt。我们的目标是发现在各自域有相似性的特征,同时特征的配对可逆。比如“马上”有两个意思,可能直接映射到“immediate”或者“horseback”,但是在相同的特征空间内,如果已知和“急忙”正相关,或者“horseback”更经常出现在古汉语词库内,则很容易消除歧义(噪声)。TLFid基于f范数,通过该方程学习配对关系,并使用置换矩阵保留之。
1.4 通过特征同构发现的迁移学习
直接使用枚举法计算特征置换矩阵的复杂度是O(n!),TLFid使用子图同构来减少计算量并尽可能利用已标注数据。
1.4.1 提取特征相关矩阵
尽可能地从源域到目标域迁移迁移信息是特征相关矩阵的训练目标。嵌入发不经适用于词向量,也适用高可变的序列数据。这里使用余弦距离衡量相关性。由于正负相关本身不足以表述相关性,这里使用矩阵的Frobenius范数作为loss。
1.4.2 特征同构发现
这里使用图同构来学习置换矩阵。一个特征图共有4个元组空间。
同时根据如下条件构建子图
并约束同构条件
为避免仅根据标签来构建特征映射的局限性,这里更关心高效的子图同构搜索。到此为止,作者将优化问题换为子图同构问题。
1.4.3 基于特征映射的知识转化。
基于如下目标方程,我们将非共有特征结构纳入到映射矩阵中,以避免丢失特征子图之外的特征所包括的有效信息。该约束方程尽可能多地保留原始域的相似结构,并将低映射到目标域的过程所带来的损失。
关键步骤如下
1.5 实验
以下共两个实验。第一个考察TLFid的收敛性。第二个对比了TFLid和其它迁移学习方法的性能。
1.5.1 数据描述
源域是英法日德四种语言的商品评论,包括书,音乐,视频三种商品。每种语言共2000条训练集,2000条测试集,以及10000多条未标注评论。目标域由中文RenCECps数据集构成。
1.5.2 数据处理和实验设置
首先使用TfIdf从RenCECps提取关键词并使用cbow构建词向量。基于pos标注特征同构,并设置群阈值kappa。最后鉴于部分表示特征没有包括在最大特征同构内,基于前述方法构建补充特征。
1.5.3 基线方法
在使用词嵌入表示每个特征之后,每个评论都被表示成源域和目标域的二维数组量化。在稀疏学习的条件下,我们使用LSTM LIBSVM DAMA HFA SSMC DCI作为稀疏学习的基线,同时使用DAMA
SSMC Hemap HHTL作为无监督基线。
1.5.4 主要结果
显然TLFid在不同阈值下拥有最好的鲁棒性,最优阈值kappa3=(0.5, 0.3, 0.1):
在kappa3条件下,稀疏学习中DAMA和HFA显著优于LSTM和LIBSVM,然而他们均弱于TLFid:
在所有无监督任务中,依赖强映射的HeMap最弱,同时TFlid在所有任务中最强:
1.6 结论
TLFid基于特征同构和外部特征来解决异构特征学习的问题,在跨语种学习上取得优异表现。未来将在自动化kappa设定和共现外部数据(不限于外部标注数据)上做出进一步研究。