1 OMIM数据库基础介绍
1.1 基础介绍
OMIM数据库,OMIM 为“0nline Mendelian Inheritance in Man”的简称,人类在线孟德尔遗传数据库,由约翰斯·霍普金斯大学医学院负责编撰与维护。
属性 | 值 |
---|---|
官网 | https://www.omim.org/ |
使命 | 通过对新的病症分类并命名、收录表型和相关病因基因的关系来收录人类孟德尔疾病信息。 |
收录内容 | 包括所有已知的遗传病、遗传决定的性状及其基因,除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外,还提供已知有关致病基因的连锁关系、染色体定位、组成结构和功能、动物模型等资料,并附有经缜密筛选的相关参考文献。 |
数据库覆盖 | 截至2021年8月13日,OMIM数据库共收录了16541项基因描述条目,收录了分子基础已知的表型描述共6160条,图中所有条目共计26010条。 |
更新频率 | 基本每日都有信息更新 |
与其他数据库的差异
- OMIM侧重于疾病表型与其致病基因之间的关联;
- 不是以序列为核心的数据库结构,不包含EST、假基因和遗传标记,而且所有的cDNA序列存在对应的功能注释;
1.2 数据库结构介绍
OMIM数据库组成结构主要包括:
- gene entry基因条目;
- allelic variations 等位基因变异;
- gene map 基因图谱;
- phenotypic series 表型系列;
- phenotype entry 表型条目;
- clinical synopsis 临床提要;
- external links 外部链接 。
各个模块的相互关联如下:
各个模块的相互关联
OMIM数据库的条目最小单元:MIM,记录基因的信息或表型等信息,详细类别及其数据库占比情况如下:
- 详细类别
类别 | MIM起始符 | 信息描述 | 示例 |
---|---|---|---|
gene description | “*” | 记录基因的相关信息 | * 600770 |
gene and phenotype,combine | “+” | 描述了基因和表型之间的关联 | |
phenotype description,molecular basis known | “#” | 描述了分子机制清晰的表型信息 | # 613658 |
phenotype description or locus,molecular basis unknown | “%” | 描述分子机制不清楚的表型信息,通常由多种遗传因素控制的疾病,相关突变位点描述较多 | % 265300 |
Other, caret | “^” | 该条目已不存在,因为它已从数据库中删除或移动到另一个条目 |
- 数据库占比
MIM Number Prefix | Autosomal | X Linked | Y Linked | Mitochondrial | Totals |
---|---|---|---|---|---|
Gene description * | 15,819 | 748 | 51 | 37 | 16,655 |
Gene and phenotype, combined + | 27 | 0 | 0 | 0 | 27 |
Phenotype description, molecular basis known # | 5,884 | 358 | 5 | 34 | 6,281 |
Phenotype description or locus, molecular basis unknown % | 1,405 | 112 | 4 | 0 | 1,521 |
Other, mainly phenotypes with suspected mendelian basis | 1,653 | 102 | 3 | 0 | 1,758 |
Totals | 24,788 | 1,320 | 63 | 71 | 26,242 |
1.3 信息组成规律介绍
OMIM数据库,每个数据库记录条目都有一个唯一的ID,称为MIM,由6位数字构成,规律如下:
起始数字 | 染色体类型描述 |
---|---|
数字1和2开头 | 代表常染色体上的相关位点和表型(1995年之前创建的) |
数字3开头 | 代表X染色体上的相关位点和表型 |
数字4开头 | 代表Y染色体上的相关位点和表型 |
数字5开头 | 代表线粒体上的相关位点和表型 |
数字6开头 | 代表常染色体上的相关位点和表型(1995年之后创建的) |
2 数据库使用方法介绍
2.1 适用场景
OMIM的使用场景
2.2 页面信息检索
OMIM 首页的检索页面如下:
检索栏中的搜索关键字和字符说明如下:
搜索方式 | 说明 | 示例 |
---|---|---|
基本搜索 | 简单输入词目 | duchenne muscular dystrophy |
加号运算符做前缀(+) | 确保结果包含输入的搜索条目 | +duchenne |
减号运算符做前缀(-) | 搜索结果不包含搜索条目 | -duchenne |
短语搜索 | 只返回包含该短语的搜索结果 | "duchenne muscular dystrophy" |
通配符搜索(*?) | 作为搜索条目的通配符,*表示搜索条目接多个字符,?表示搜索条目接单个字符 | dystroph* dystrophi? dystro??i? |
搜索域搜索(title:) | 指定搜索该搜索域的内容 | title: Duchenne title:duchenne title:muscular |
布尔运算符 | 支持布尔运算符的功能 | AND NOT OR 等同于加减号前缀和或者 |
染色体位置搜索 | 指定包含的起始区域 | 1p36-p32 |
基因组坐标搜索 | 指定基因组的起始位置 | 1:12,000,000-48,000,000 |
2.3 表型和基因关系的获取
-
通过Gene查与表型关联的信息
- step1:通过基因查找对应的MIM number
# MIM Number MIM Entry Type Entrez Gene ID (NCBI) Approved Gene Symbol (HGNC) Ensembl Gene ID (Ensembl) 100640 gene 216 ALDH1A1 ENSG00000165092 100670 gene 219 ALDH1B1 ENSG00000137124 100675 predominantly phenotypes 100680 moved/removed - step2: 查找数据库中MIM对应的表型信息
根据指定的指定的疾病表型查找基因/根据基因分析疾病类型
Location | Phenotype | Phenotype | Inheritance | Phenotype | Gene/Locus | Gene/Locus |
---|---|---|---|---|---|---|
MIM number | mapping key | MIM number | ||||
10q22.3 | Interstitial lung disease 2 | 178500 | AD | 3 | SFTPA2 | 178642 |
11p15.5 | {Pulmonary fibrosis, idiopathic, susceptibility to} | 178500 | AD | 3 | MUC5B | 600770 |
- Gene与表型的关联
上图中,表头的信息解释如下:- location代表相关基因在染色体中的位置;
- phenotype代表基因相关的表型;
- phenotype MIM number代表表型的MIM编号;
- inheritance代表遗传,是指该基因的遗传类型,如AD是指常染色体显性遗传,SMu是指体细胞突变;
- phenotype mapping key代表表型映射关键,3代表该疾病的分子基础是已知的;
- Gene/Locus代表对应的基因或位点;
- Gene/Locus MIM number代表对应的基因或基因座MIM编号。
其中,phenotype的特殊字符表示着不同的涵义,对照表如下:
类型 | 说明 |
---|---|
中括号 [] | 非疾病,主要的遗传变异会导致异常的研究检测值 |
大括号 {} | 突变怀疑导致了多因素的病症或感染 |
问号 ? | 表明表型和基因型之间的关联是暂时的,更详细的关联信息提供在详情中 |
病症后括号内的数字 1/2/3/4 | (1)病症对应到了野生型基因;(2)疾病本身被比对到了基因;(3)病症的分子基础已知;(4)病症是由于染色体的缺失或复制 |
其中,phenotype mapping key的不同数字表示着疾病对应基因在分子层面上的致病机制,数字对应关系如下:
关键数字 | 说明 |
---|---|
1 | 该病症的位置的确定是由于它与基因的关系,但是潜在的缺陷未知 |
2 | 该病症的位置比确认是通过统计的方式 |
3 | 该病症的分子基础已知 |
4 | 该病症是由连续的基因复制或删除,由多基因所涉及 |
- Gene与表型的关联 – 可视化
查看参考示例
Gene与表型的关联
3 数据库下载与更新
基因和疾病表型的关系在网页上查询是免费且不需要身份验证的,但下载完整的数据库是需要获取OMIM维护组织的认证,认证方式请自行查找。
3.1 数据下载 – 授权
官方授权的方式为,提供APIkey,使用对应接口获取完整的OMIM数据库数据,其中添加APIkey的方式有如下三种:
当然我们也可以写代码,下载完整的或指定MIM列表的数据库信息,代码参考利用perl下载OMIM数据,核心代码如下:
3.2 数据下载 – 非授权
- 技术路线:python – scrapy →微软bingbot /谷歌 googlebot → 存储数据
- 实现方式:根据指定的MIM number下载整个网页的数据并解析
- 备注:非授权情况下,IP可能被封印
- 示例参考: Scrapy爬虫简介
3.3 其他
OMIM数据库的应用缺陷
- MIM的OMIM数据库模式( database schema)和数据模型data mode)不透明,无法实现复杂的信息信息查询;
- 包含的内容显然没有座位专一数据库( locus- specific database)那样丰富:突变数据没有完全收集,缺乏引物设计的信息,基因表达谱等。
OMIM数据库与ACMG的关系
- ACMG的本质是一个评价体系,一种方法论;
- OMIM 提供ACMG 致病性判断的数据支持。
OMIM数据库对临床医生的实践指导
- 增加信心,结合使用生物信息学数据库的结构化方法有可能使学生适应新的临床情况和患者。
文献参考
[1] 甄一松, 谢攀, 史海波,等. 在线人类孟德尔遗传数据库(OMIM)[J]. 中国分子心脏病学杂志, 2001, 1(1):3.
[2] Jasmine L B , Violet K , Harold L , et al. Bioinformatics for medical students: a 5-year experience using OMIM in medical student education[J]. Genetics in Medicine, 2018.
[3] 利用perl下载OMIM数据
[4] Scrapy爬虫简介