各基因库基因编号的命名规则

转自:各基因库基因编号的命名规则 - 知乎 (zhihu.com)

1. NCBI RefSeq

编号样例:NM_025011, NR_130915.1, NR_130915
1. "NM_", "XM_" : 编号的首字母常为 N 或者 X ,N 表示该数据是通过实验验证的,X 表示的是该数据是未经实验证实,通过生物信息学方法计算预测出的。

2. "NR_", "NP_", "NM_":编号的第二各字母常为 R,P,M 表示该数据的类型。含义见下表

第二个字母 分子类型 含义
C Gene 完整的基因组分子序列。如完整的质粒,完整的染色体等等
G Gene 不完整的基因组区域。 如某个单独的基因。
M mRNA mRNA, 成熟的转录本序列
P Protein 蛋白产物,氨基酸序列
R RNA 非编码的转录子序列,
T,W,Z Gene 未完全注释的测序序列

3. "NR_130915.1", "XG_130915.2": 编号小点后的数字代表的是版本信息。1为第一版的编号,2第二版编号。

2. Ensemble

编号样例:ENSMUST00000102830, ENSMUSG00000102830 Ense的编号一般为 ENS + [物种信息] + [数据分类]

  1. 物种信息: 因为物种比较多,这里只具常见的人类基因 ENS 和小鼠基因 ENSMUS

  2. 数据分类:见下表

字母 含义
G Gene
T Transcript
P Protein
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容