阅读笔记2:(DTAL)Low-resource Deep Entity Resolution with Transfer and Active Learning

原文地址:https://arxiv.org/pdf/1906.08042v1.pdf

目录

    - Motivation:论文想要解决的问题

    - Methodology:本文提出的方法

    - experiment:实验结果

Motivation

减少Entity resolution (ER)的标注成本

Methodology

- 迁移学习(Transfer Learning):使用现有的标注数据(Source)训练好模型参数,对待预测数据集(Target)进行预测。

- 主动学习(Active Learning):每轮迭代选择K个数据对标注。

architecture

解释:

1)针对每个attribute训练出一个RNN,编码出vector,两个tuple对应的attribute的vector计算similarity,再对所有similarity求和,作为总的similarity vector。后面再接上MLP网络做分类任务。

2)Gradient Reversal 的目的是训练模型的句子编码能力,使得similarity vector不是针对某个特定数据集训练出的。

【具体训练过程可以看原始论文,此处仅讲解大致框架】

experiment

1)先来看Transfer Learning的实验效果

从DBLP-Scholar和Cora可以看出来,直接用Source训练出来的分类器时,效果不好【第一行】;在Adaptation的作用下,Transfer Learning效果有提升,但效果还是不好【第二行】。注意:此时为0标注,Target数据集无训练集。

【第三行】是用Target数据集的Train来训练模型了,标注量是|Train|。

2)思考

Q:【第三行】的标注太多了,如何才能在少量标注的情况下,尽量达到【第三行】的效果呢?

A:Active Learning。

Active Learning

- 此处依据Entropy来选择需要标注的K个数据。(代码很好看懂,Entropy的介绍已经有很多,可自行百度。简单理解为Entropy值越大,预测结果越不确定;Entropy值越小,预测结果越确定。我们需要标注的就是Entropy大的部分)


Result

- 个人认为Active Learning起的作用比Transfer Learning明显。

- 原论文中还有其他细节实验,此处仅展示可以阐述Idea有关的部分。

——————————————————————————————————————————————————

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。