生物医学命名实体识别的进展:
https://github.com/lingluodlut/BioNER-Progress
- 数据集的介绍
- Disease NER
- NCBI-Disease
NCBI这个数据集包含793篇PubMed(PubMed文献数据库包含超过240万生物医学文献)摘要,它包含了总共6892个疾病实体提及
- NCBI-Disease
- Gene/Protein NER
- BC2GM
基因提到标记任务是生物创新II挑战的一部分,它涉及到基因命名实体的提取,以及在文本中提到的基因产品。BC2GM语料库中共有24583个基因实体被提及。 - JNLPBA
JNLPBA语料库包含从MEDLINE中提取的2404个摘要,使用“人”、“血细胞”、“转录因子”这3个MeSH本体,即蛋白质、DNA、RNA、细胞系、细胞类型。该语料库用于BioNLP/NLPBA 2004 中的生物实体识别任务,提供2000份摘要供培训,其余404份用于测试。
- BC2GM
- Species NER
- LINNAEUS
一组文本格式的开放访问文档,用于物种提及标记的手动注释。它包含了100个来自PMC OA文档的全文文档,其中包含了总共4259个物种实体提及
- LINNAEUS
2.BioBERT论文阅读
问题:由于BERT在NLP领域的成功,使得很多学者想将其迁移到生物医学,但存在领域适应的问题,于是催生了BioBERT预训练语言模型的发展,BioBERT是在大量生物医学文献上进行预训练得到的一个语言模型,事实证明,它在生物医学领域的很多项任务(NER、RE、QA)上都取得了比bert更好的性能。
模型:
- 为了提高计算效率,作者先用在通用领域上预训练的BERT模型的权重去初始化BioBERT
数据集:
在NER任务上的结果: