Analyzing the Effect of Multi-task Learning for Biomedical Named Entity Recognition
- 贡献:
1.分析生物医学实体数据集之间的可转移性,并找到一些有用的特性和方法来预测这些数据集之间的可转移性,减少了今后寻找辅助数据集的工作量
2.将迁移学习和多任务学习结合起来,提高BioNER系统的性能 - 分析数据集之间的可转移性:
为了了解多任务学习在哪种条件下能带来更大的增益,作者总共使用了12个数据集度量。
1.共享词汇(有向):在辅助数据集词汇表中找到目标数据集词汇的比率
2.主题分布相似度(无向):用LDA主体建模方法得到一个n维向量,用该向量去表示一个数据集的主题分布,用余弦相似度计算两个数据集主题嵌入之间的相似度
3.嵌入相似度(bert)(无向):先计算一个数据集中所有句子的bert嵌入表示,取平均,用余弦相似度计算两个数据集嵌入之间的相似度
4.共现实体比(有向):在辅助数据集中找到并标记目标数据集实体的比率 - 评估指标
为了评估每种方法(上面所列举的4种特征和它们的两两组合)的有用性,作者使用了3种不同的评估指标
1.归一化折现累积增益(NDGG)
2.最佳辅助数据集的平均排名
3.最佳辅助预测的平均排名 -
实验结果:
- 结论与分析:
1.除了BC5CDR数据集,其他6个数据集多任务学习相比单任务学习对目标任务都有正向加成
2.JNLPBA和BC2GM都包含基因/蛋白质的实体标注,所以当使用BC2GM作为辅助数据集,JNLPBA作为目标数据集时,超过了SOTA的性能,但反过来,BC2GM作为目标数据集,而JNLPBA作为辅助数据集时,性能却最差
-
数据集大小和数据集中entity/token的比率与MTL增益的相关性:
结论和分析:
1.辅助数据集大小与MTL增益成负相关
2.目标数据集entity/token的比率与MTL增益成负相关,而辅助数据集成正相关,说明目标数据集中实体标注稀疏而辅助数据集中实体标注丰富更有可能对MTL增益起作用 -
衡量所有相似度度量的goodness
结论和分析:
1.cooccur相似度度量的NDGG得分最高
2.topic相似度度量的最佳辅助数据集排名最高,而且它与其他相似度度量的结合占据了最佳辅助数据集排名的前4位。这表明,基于主题相似度信息对寻找最佳辅助数据集是非常有用的,LDA模型获得的基于主题的相似性分数是MTL增益一个很好的预测器