UMLS学习笔记

小结：超级叙词表的组织方式如上图，先将不同来源的词汇分配一个id，即AUI（注意，同一源词汇表中若收录了两次相同的概念，则分配两个AUI）；相同的AUI会连接到单个字符串标识符（SUI）；每个字符串会通过词法变体，如单复数来连接到同一个公共术语标识符（LUI）；同样意义的LUI会连接到同一个CUI。会选择一个词作为优选词，其他为同义词。

相同的LUI可能有不同的CUI，因为LUI只是根据词形来划分在一起的。（找例子？）

https://zhuanlan.zhihu.com/p/359377333

UMLS 的元数据词典是以概念为核心，依据概念（Concept, C）组织起来的。概念结构的设计方法是将同一概念的各种名称（同义词）和变种形式（单复数、形容词等词性变体）联系在一起。一般来说，表达同一概念可以有多个术语（即同义词），而每一个术语又有不同的词串表达方式，在超级叙词表中，多个术语体现为同义词，不同的词串表达方式体现为词性变体。

概念结构: CUI-LUI-SUI-AUI

（1）概念和概念标识符：每个概念被指定一个概念识别码（Concept Identifier, CUI），并给出了概念类别和概念的描述文本。相同 CUI 代表概念的同义词集合。

（2）概念名称和字符串标识符：概念名称是指概念的术语表示形式；SUI

（3）来源术语和标识符：来源术语（Atom Identifier, AUI），相同的字符串AUI被连接到一个SUI

（4）原形化术语和标识符：（Lexical Identifier, LUI）每个字符串都要进行词汇的原形化处理，如复数转单数等，其目的是将同一术语的各种词汇变体形式连接到一起。注意：很多词语中后面会跟上NOS，NOS表示没有另外说明的话，NOS是可以删除的。uninflect表示去变体。

http://www.omaha.org.cn/data/upload/portal/20171227/5a433253d7969.pdf

总结一下：CUI是概念的唯一标识符，LUI是概念的同义词，SUI是不同术语（LUI）所拥有的不同的英语表达形式（单复数/过去式/...）,AUI是原词

这四个表识符的关系是，AUI原词会有不同来源，但是相同字符串的AUI会被连接上同一个SUI；不同的SUI会由于单复数/时态问题有多种表达形式，但这些SUI都表示同一种东西，则会被连接到同一个LUI；不同表达形式的LUI会选出一个优选词赋予CUI

问题：不同的AUI是相同的字符串？？？？因为写法相同

Metathesaurus数据文件 Metathesaurus 有40多个元数据和索引数据文件

超级叙词表来源于超过200个词表的收录情况，如图展示了前十个

超级叙词表中包含了关系，除了收录来源词表中的概念，超级叙词表也继承和发展了源词表中的关系。这些关系大多来源于来源词汇表，或者NLM构建时添加的一些，或者来源于用户提供的。关系大多是AUI与AUI之间以及AUI和CUI之间的关系，因为这些关系大多是来源于来源词表的。关系文件不包含概念名称。

Metathesaurus中大约四分之一的关系还带有一个附加标签（RELA），该标签是从源词汇表获得的，可以更准确地解释关系的性质，例如is_a，branch_of，component_of。

语义网络

语义网络由两部分组成:语义类型(Semantic Types)和语义关系(Semantic Relationships)。

语义类型是概念的范畴分类,超级叙词表中每一个概念至少要被分配一个语义类型,语义关系则是语义类型之间的关系[ 12]。目前的语义类型有135个,可分为实体(Entity)和事件(Event)两大类[ 13]。实体指物理对象,如生物、解剖结构、物质、制品等;事件是社会活动,如行为、活动、研究过程等。

语义类型是分层次的,因此具有等级关系即is-a,除此之外,语义类型之间还存在各种相关关系,如:物理上相关(Physically-related-to),空间上相关(Spatially-related-to),功能上相关(Functionally-related-to),时间上相关(Temporally-related-to)和概念上相关(Conceptually-related-to)。

UMLS定义了包括is-a在内的共54种语义关系,语义类型可以看成是有层次结构的“节点”,而语义关系将这些节点连成网络。

语义网络提供了概念的一致性分类，即语义类型，以及更加详细的概念之间的语义关系，其中语义类型具有树形层次等级结构特点，UMLS 以语义类型为点，语义类型之间的语义关系为链构成了语义网络

1、127种语义类型以及54种语义关系

2、每个语义类型和语义关系都有唯一的语义标识符(TUI)

3、语义类型采用了构思新颖的树形等级结构，语义类型的最高层为实体（Entity）和事件（Event）两大类

https://www.nlm.nih.gov/research/umls/META3_current_semantic_types.html

http://www.omaha.org.cn/data/upload/portal/20171227/5a433253d7969.pdf

4、语义类型是网状结构中的节点，而语义关系则是将这些节点连接到一起的链

5、分为两大类：等级关系和相关关系

6、UMLS 语义网络中最常用的语义关系是 isa，它不仅确立了语义类型之间的等级关系，而且也能被用来决定超级叙词表中的每个概念对应的具体语义类型的分配。

小结：语义关系和语义类型构成了语义网络；语义类型就是标签，也就是个各种实体分了类，比如药物统一有一类叫做“临床药物”("clinical drug")。语义关系是用来连接语义类型，详见官网https://www.nlm.nih.gov/research/umls/META3_current_relations.html。

语义类型的分配是基于源词汇表中的概念的含义来进行的，怎么把超级叙词表中的词语分配语义类型？是经历了四个过程：首先，用算法给每个词语分配一个建议的语义类型；其次，由主题专家审查或分配不同的类型；再次，由承包商人员进行审查；最后，所有任务都有一个小团队进行使用并修改。