KDD2018精选(2)TFLid:基于特征子图同构的迁移学习

1.    原文:TransferLearning via Feature Isomorphism Discovery

作者来自港科大和上交大

关键词:迁移学习;跨语种;子图同构

1.1  引言

迁移学习主要解决将已标注空间学到的模型用于目标空间的训练的问题。然而在实际中,已标注样例很少能得出到达总体特征空间的分布的映射方程。在词嵌入等技术的应用中,不同空间的特征可能相关性低,但不同的特征空间可能有相似的特征结构,尽管它们的特征分布不同。受此启发,我们带来了基于特征同构发现的迁移学习TLFid,包括原空间和特征空间的特征提取,基于相同特征结构训练映射方程,训练出有效的分类器,最终该分类器在跨语种分类任务上表现良好。

1.2  相关工作

同构迁移学习假设不同域的特征有相同的分布,异构迁移学习主要解决不同的特征分布。其中heterogeneous domain Adaptation with Manifold Alignment (DAMA)使用标注信息和域的对应来对齐不同域到潜在空间,然而dama假设特征对应与否是二项分布。我们对特征对应做出同构化改进,使迁移工作能更好适应对应噪声和标签缺失。

1.3  问题方程

我们有原始域S={(x_i^s,y_i^s ) }_(i=1)^ls和未标注的目标域T={(x_i^t }_(i=1)^lt。我们的目标是发现在各自域有相似性的特征,同时特征的配对可逆。比如“马上”有两个意思,可能直接映射到“immediate”或者“horseback”,但是在相同的特征空间内,如果已知和“急忙”正相关,或者“horseback”更经常出现在古汉语词库内,则很容易消除歧义(噪声)。TLFid基于f范数,通过该方程学习配对关系,并使用置换矩阵保留之。


1.4  通过特征同构发现的迁移学习

直接使用枚举法计算特征置换矩阵的复杂度是O(n!),TLFid使用子图同构来减少计算量并尽可能利用已标注数据。

1.4.1     提取特征相关矩阵

尽可能地从源域到目标域迁移迁移信息是特征相关矩阵的训练目标。嵌入发不经适用于词向量,也适用高可变的序列数据。这里使用余弦距离衡量相关性。由于正负相关本身不足以表述相关性,这里使用矩阵的Frobenius范数作为loss。


1.4.2     特征同构发现

这里使用图同构来学习置换矩阵。一个特征图共有4个元组空间。


同时根据如下条件构建子图


并约束同构条件


为避免仅根据标签来构建特征映射的局限性,这里更关心高效的子图同构搜索。到此为止,作者将优化问题换为子图同构问题。

1.4.3     基于特征映射的知识转化。

基于如下目标方程,我们将非共有特征结构纳入到映射矩阵中,以避免丢失特征子图之外的特征所包括的有效信息。该约束方程尽可能多地保留原始域的相似结构,并将低映射到目标域的过程所带来的损失。


关键步骤如下


1.5  实验

以下共两个实验。第一个考察TLFid的收敛性。第二个对比了TFLid和其它迁移学习方法的性能。

1.5.1     数据描述

源域是英法日德四种语言的商品评论,包括书,音乐,视频三种商品。每种语言共2000条训练集,2000条测试集,以及10000多条未标注评论。目标域由中文RenCECps数据集构成。

1.5.2     数据处理和实验设置

首先使用TfIdf从RenCECps提取关键词并使用cbow构建词向量。基于pos标注特征同构,并设置群阈值kappa。最后鉴于部分表示特征没有包括在最大特征同构内,基于前述方法构建补充特征。

1.5.3     基线方法

在使用词嵌入表示每个特征之后,每个评论都被表示成源域和目标域的二维数组量化。在稀疏学习的条件下,我们使用LSTM LIBSVM DAMA HFA SSMC DCI作为稀疏学习的基线,同时使用DAMA

SSMC Hemap HHTL作为无监督基线。

1.5.4     主要结果

显然TLFid在不同阈值下拥有最好的鲁棒性,最优阈值kappa3=(0.5, 0.3, 0.1):


在kappa3条件下,稀疏学习中DAMA和HFA显著优于LSTM和LIBSVM,然而他们均弱于TLFid:


在所有无监督任务中,依赖强映射的HeMap最弱,同时TFlid在所有任务中最强:


1.6  结论

TLFid基于特征同构和外部特征来解决异构特征学习的问题,在跨语种学习上取得优异表现。未来将在自动化kappa设定和共现外部数据(不限于外部标注数据)上做出进一步研究。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容

  • 【转载】线性代数基础知识 原文地址:http://blog.csdn.net/longxinchen_ml/art...
    刘卡卡爱吃烤土豆阅读 1,221评论 0 0
  • 今天数学做了试卷和一课一练,语文学了反义词词做了试卷,音乐学了坐姿
    你笑就好_c889阅读 77评论 0 0
  • 无眠的夜 当我静下心来聆听 过去的那些歌儿 或悲或喜 其实风可轻云可淡 满腹经纶岂可乱 再见了,我的朋友们 明天的...
    只取一瓢饮兮阅读 150评论 5 0
  • 原书2000年出版2002引进出版,部分内容有点不适用现在,看看书评就好! 1//理解流行 三大法则:个别人物法则...
    多宝渔阅读 543评论 0 2