原文地址:https://arxiv.org/pdf/1906.08042v1.pdf
目录
- Motivation:论文想要解决的问题
- Methodology:本文提出的方法
- experiment:实验结果
Motivation
减少Entity resolution (ER)的标注成本
Methodology
- 迁移学习(Transfer Learning):使用现有的标注数据(Source)训练好模型参数,对待预测数据集(Target)进行预测。
- 主动学习(Active Learning):每轮迭代选择K个数据对标注。
architecture
解释:
1)针对每个attribute训练出一个RNN,编码出vector,两个tuple对应的attribute的vector计算similarity,再对所有similarity求和,作为总的similarity vector。后面再接上MLP网络做分类任务。
2)Gradient Reversal 的目的是训练模型的句子编码能力,使得similarity vector不是针对某个特定数据集训练出的。
【具体训练过程可以看原始论文,此处仅讲解大致框架】
experiment
1)先来看Transfer Learning的实验效果
从DBLP-Scholar和Cora可以看出来,直接用Source训练出来的分类器时,效果不好【第一行】;在Adaptation的作用下,Transfer Learning效果有提升,但效果还是不好【第二行】。注意:此时为0标注,Target数据集无训练集。
【第三行】是用Target数据集的Train来训练模型了,标注量是|Train|。
2)思考
Q:【第三行】的标注太多了,如何才能在少量标注的情况下,尽量达到【第三行】的效果呢?
A:Active Learning。
Active Learning
- 此处依据Entropy来选择需要标注的K个数据。(代码很好看懂,Entropy的介绍已经有很多,可自行百度。简单理解为Entropy值越大,预测结果越不确定;Entropy值越小,预测结果越确定。我们需要标注的就是Entropy大的部分)
Result
- 个人认为Active Learning起的作用比Transfer Learning明显。
- 原论文中还有其他细节实验,此处仅展示可以阐述Idea有关的部分。
——————————————————————————————————————————————————