- pytorch中NLLLoss函数和CrossEntropyLoss函数的区别:
https://www.cnblogs.com/jiading/p/11979391.html
Biomedical Named Entity Recognition and Linking Datasets: Survey and Our Recent Development
- task1: 命名实体识别(NER)
task 2: 命名实体规范化(NEN)
task 3: 蛋白质-蛋白质关系抽取(PPIE) - 贡献:
1.介绍了常见的BioNER数据集及其潜在的标注问题,如:不一致性和低可移植性
2.介绍了JNLPBA数据集的修订版本,并使用最先进的BioNER系统来评估其对各种生物医学文献(蛋白质-蛋白质关系抽取和生物事件)的可移植性
3.介绍了集成的生物医学实体数据集(EBED),它扩展了经过修订的JNLPBA数据集,其中包含了PubMed Central 全文摘要和图标题和专利摘要 -
内容:
1.对生物医学数据集的介绍:包括常见的命名实体识别的数据集和下游应用相关的生物医学数据集
2.对BioNER系统的介绍
3.JNLPBA数据集存在的问题以及修改的方法:
1)一般实体问题
如上例所示,在第一个句子中,“SKW 6.4、IL 6、c-fos”在一些大型的公开数据库上都可以被找到,但第二个句子中的“consensus sequence”一致的序列并未突出DNA类型的主要特征,因此将其标注删除
2)冗余前缀
如上例所示,对于”MAPKK-1”这个实体来说,前面的修饰词“dominant negative"是多余的
3)实体类型混淆
4)忽略的相邻上下文信息
如上例所示,如果不考虑”genes"、“nucleotide"基因和蛋白质两个近端关键词的话,IL-16将会被错误的标注为蛋白质类型
5)缺少标注
4.EBED数据集的形成
1.数据的收集
2.数据的标注:
1)自动实体预标注
PubTator 和TaggerOne
2)手工修正
3.数据的统计
5.实验
1.注释间协定分析(IAA)
针对不一致的实体标注进行分析,最终对EBED数据集中的实体标注、规范化和属性链接达成一致性的结果
2.评价指标
1)对于NER任务,P,R,F1值仍然作为它的评价指标
2)对于NEN任务,F1值仍然是它的评价指标,但由于将每个实体都映射到数据库中的ID是非常困难的,因此简化了任务:
- 不需要返回每个实体的ID,只需要返回所在文档在Entrez/MeSH/ChEBI这些数据库中的ID
- Entrez数据库中包含许多同源基因,我们提供一个同源词典,允许提交的ID是标准ID的同源ID
- 对于化合物实体来说,允许返回在ChEBI数据库中标准ID所对应的父ID或子ID
3)对于属性链接任务: - 由于一种疾病实体可能链接到多个器官ID,将其视为不同的链接关系
- 同一疾病/化合物实体在不同的句子中会链接到不同的器官/疾病实体,将其视为不同的链接关系
3.实验结果
1)修订后的JNLPBA数据集在NER任务和PPIE任务上的实验都提升了原有方法的性能
2)对于EBED数据集,回顾了人工智能杯生物医学论文分析的比赛
具体的实验结果见原论文