融合实体词典的命名实体识别

硕士论文:基于生物医学词典的实体表示及其应用研究

问题:生物医学领域的命名实体普遍具有模糊性,主要表现在:
1.多样性:也叫同义词或者同一实体多种变体
2.歧义性:也叫一词多义或者不同实体同名
多样性和歧义性的广泛存在使得生物医学实体识别和链接成为具有挑战性的任务。生物医学领域存在丰富的词典,这些词典中包含了大量的实体名信息实体ID描述文本以及实体结构信息等先验知识,有助于解决实体识别和链接所面临的问题。

基于生物医学词典的实体识别系统

  • 数据预处理阶段:对语料进行噪音过滤(将所有字母转换为小写,并用空格替换特殊符号)、细粒度分词以及标签标注、对数据进行词元分析(即基于词典进行的标准化,还原出每个词的原型)
  • 特征抽取阶段:通过生物医学词典抽取了两种词典特征,用于增加实体的提示信息,这两种词典特征分别是:分布式特征n元特征
  • 分布式词典特征:给定句子,若当前匹配子序列出现在词典中,且匹配结构仅是一个词,我们就标记其为“B”;若匹配结果包含多个词,则将匹配结果的第一个词标记为“B”,后面的词标记为“I”;对于S中剩余的未匹配单词,统一标记为“O”。最后,将这些BIO标记通过随机初始化的方式映射为低维的向量表示,获得分布式词典特征表示。
  • n元词典特征

    具体来说:就是根据词w的上下文构造7个文本片段。对于每个文本片段,我们可以生成一个二进制值以指示该文本片段是否在生物医学词典中,最终可以获得一个长度为7的二值特征向量。

模型最终的架构图如下:


基于实体描述文本的生物医学实体链接

  • 候选ID生成和候选ID排序:

  • 候选ID生成主要有两种方法,分别是词典匹配和API查询。词典匹配就是将实体提及与词典实体进行字符串匹配,得到实体与候选ID的映射列表。API查询是指利用词典提供的API接口对实体提及进行基于关键字的搜索。

  • 候选ID排序的核心是相关度得分的计算


    基于实体结构信息的生物医学实体链接

  • 与前一节基本相同,区别在于候选ID表示的学习方法不同。首先从生物医学词典中抽取实体的结构信息,包括同一实体多种变体和不同实体同名。然后,将其作为向量空间上的约束,采用自动编码机对其进行学习,获得候选ID表示。


  • 提出两种基于transformer改进的实体消歧模型,从两方面探究实体ID表示嵌入到神经网络模型的方法。


  • 右图将候选ID表示S作为查询Q的输入,K和V仍为上下文词向量序列保持不变。这样做的目的是希望通过计算Q和K的相似性,获得对输入文本其他部分的关注权重,根据这些权重对序列自身V进行加权求和,建模序列内部联系,从而实现候选ID和上下文表示的融合。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容