如何有效使用CMDB基因频率数据库

我想不少读者朋友已经知道在今年十月初,我们在Cell主刊上发表了第一个大规模中国人基因组学研究文章

CMDB是这篇文章中唯一一个提供出来大规模中国人群体变异频率数据库,大约包含了9M个高质量的变异位点(约占人类基因组总长的0.003)。它是一个缩写,全称是Chinese Millionome Database,很意外的是这个缩写名字竟然与IT领域的配置管理数据库相同,这是当初起名时所不知道的。

这个数据库网站的第一版是去年末我参考ExAC做的,使用的底层框架是常见的Nginx+Flask+MongoDB,一开始很简陋,没有注册管理,也没有后台运维,仅仅只提供了网页端的查询和检索这些核心功能,在文章发表前知道的人也极少。但如今我们已经有一个专门的小组在维护和开发了,并且陆续增加了不少新功能,这其中就包括Genome API,访问量也稳步上升,不过CMDB中的数据不能够被下载是铁定的。

这个问题其实让不少同行朋友深感苦恼——或者说是恼火。因为在实际应用中常常有成千上万(或者上百万)的位点需要注释,怎么可能只是通过网页端一个一个手动地查!这实在让人抓狂——如果想用爬虫——对不起——会被封号,曾经有几个国内高校的实验室尝试这么做的时候就被封过,虽然无奈,但也是不得不做啊。

然而作为科学工作者,看到这样的情况未免觉得难受,我们也不希望CMDB会由于其易用性不足的原因慢慢“枯萎”,而无法发挥它应有的价值——那样未免太可惜了。所以我们小组不断改善它的使用模式,比如不久前新增的Genome API,这是一个可以比较好地处理这个问题的方法。但要有效使用API,就绕不开编程写程序这一关,这恐怕又是一个门槛。

再加上现在CMDB的访问量在日益增多,许多注册和访问的同行并不一定都懂得如何使用这个API,所以为了进一步解决这个问题,上个月末我抽空写了一个小工具,名字是cmdbtools(https://github.com/ShujiaHuang/cmdbtools)。

https://github.com/ShujiaHuang/cmdbtools

这是一个基于Python的命令行工具,只要你申请获得了CMDB的API权限,那么就可以直接用这个工具来查询变异信息或者为你的VCF数据注释上CMDB的频率信息,用起来十分方便!有了cmdbtools,你就可以不必理会该如何在程序中使用CMDB API了,直接安装cmdbtools即可,基本上可以满足你99%的需求,唯一的要求就是熟悉Linux或者MacOS的命令行工作环境。

另外,由于这是Python编写的,安装起来十分简单,直接pip install cmdbtools即可,不过由于目前还是开发版更新可能会比较频繁。成功之后,你就可以直接在命令行里使用 cmdbtools 了,在命令行中运行--help就可以查看cmdbtools的功能和用法,如下:

$ cmdbtools --help
usage: cmdbtools [-h]
                {login,logout,print-access-token,annotate,query-variant} ...

Manage authentication for CMDB API and do querying from command line.

optional arguments:
 -h, --help            show this help message and exit

Commands:
 {login,logout,print-access-token,annotate,query-variant}
   login               Authorize access to CMDB API.
   logout              Logout CMDB.
   print-access-token  Display access token for CMDB API.
   annotate            Annotate input VCF.
   query-variant       Query variant by variant identifier or by chromosome
                       name and chromosomal position.

如果你想直接使用最新的开发版,也可以通过github链接来安装:

$ pip install git+git://github.com/ShujiaHuang/cmdbtools.git#egg=cmdbtools

目前提供了两个实用的基础功能:

1)变异频率信息的查询,query-varaint 功能。这个函数既可以查询单个位点的CMDB信息,也可以同时查询一系列位点的情况。我这里举两个例子来展示其用法:

$ cmdbtools query-variant -c chr17 -p 41234470 > ch17_41234470.vcf

或者:

$ cmdbtools query-variant -l positions.list > result.vcf

其中positions.list是目标位点,如果这些位点可以在CMDB中找到频率信息,则输出到result.vcf这个文件中,如果找不到则丢弃,最后结果为标准VCF格式,如:

##fileformat=VCFv4.2
##FILTER=<ID=LowQual,Description="Low quality">
##INFO=<ID=CMDB_AN,Number=1,Type=Integer,Description="Number of Alleles in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AC,Number=A,Type=Integer,Description="Alternate Allele Counts in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AF,Number=A,Type=Float,Description="Alternate Allele Frequencies from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_FILTER,Number=A,Type=Float,Description="Filter from CMDB_hg19_v1.0">
#CHROM  POS  ID  REF  ALT  QUAL  FILTER  INFO
17  41234470  rs1060915&CD086610&COSM4416375  A  G  74.38  PASS  CMDB_AF=0.361763,CMDB_AC=4625,CMDB_AN=12757

2)注释本地VCF文件,annotate功能。我想这对很多研究者来说应该是最实用的一个功能,有了这个就不需要反复在网页端查询了,在本地电脑上运行就行了,而且VCF文件可以同时是gz压缩或者非压缩的文本形式。例子如下:

$ cmdbtools annotate -i multiple_samples.vcf.gz > multiple_samples_CMDB.vcf

你可以的到如下的结果:

##fileformat=VCFv4.2
##ALT=<ID=NON_REF,Description="Represents any possible alternative allele at this location">
##FILTER=<ID=LowQual,Description="Low quality">
##INFO=<ID=AC,Number=A,Type=Integer,Description="Allele count in genotypes, for each ALT allele, in the same order as listed">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency, for each ALT allele, in the same order as listed">
##INFO=<ID=AN,Number=1,Type=Integer,Description="Total number of alleles in called genotypes">
##INFO=<ID=BaseQRankSum,Number=1,Type=Float,Description="Z-score from Wilcoxon rank sum test of Alt Vs. Ref base qualities">
##reference=file:///home/tools/hg19_reference/ucsc.hg19.fasta
##INFO=<ID=CMDB_AN,Number=1,Type=Integer,Description="Number of Alleles in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AC,Number=A,Type=Integer,Description="Alternate Allele Counts in Samples with Coverage from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_AF,Number=A,Type=Float,Description="Alternate Allele Frequencies from CMDB_hg19_v1.0">
##INFO=<ID=CMDB_FILTER,Number=A,Type=Float,Description="Filter from CMDB_hg19_v1.0">
#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO
chr21   9413612 .       C       T       6906.62 .       AC=25;AF=0.313;AN=80;BaseQRankSum=0.425;CMDB_AC=2459;CMDB_AF=0.207525;CMDB_AN=11834;CMDB_FILTER=PASS
chr21   9413629 .       C       T       8028.88 .       AC=30;AF=0.375;AN=80;BaseQRankSum=-1.200e+00;CMDB_AC=6906;CMDB_AF=0.305445;CMDB_AN=22406;CMDB_FILTER=PASS
chr21   9413700 .       G       A       7723.82 .       AC=30;AF=0.375;AN=80;BaseQRankSum=-9.000e-02
chr21   9413735 .       C       A       10121.72        .       AC=35;AF=0.438;AN=80;BaseQRankSum=0.977;CMDB_AC=2385;CMDB_AF=0.283965;CMDB_AN=8382;CMDB_FILTER=PASS
chr21   9413839 .       C       T       8192.08 .       AC=28;AF=0.350;AN=80;BaseQRankSum=-5.200e-02
chr21   9413840 .       C       A       11514.35        .       AC=38;AF=0.475;AN=80;BaseQRankSum=0.253
chr21   9413870 .       T       C       7390.60 .       AC=26;AF=0.325;AN=80;BaseQRankSum=-4.270e-01
chr21   9413880 .       T       A       146.96  .       AC=1;AF=0.013;AN=80;BaseQRankSum=2.12;ClippingRankSum=0.00
chr21   9413909 .       G       A       1131.78 .       AC=10;AF=0.125;AN=80;BaseQRankSum=0.549;CMDB_AC=209;CMDB_AF=0.01507;CMDB_AN=13683;CMDB_FILTER=PASS
chr21   9413913 .       C       T       8120.65 .       AC=28;AF=0.350;AN=80;BaseQRankSum=-4.390e-01;CMDB_AC=2870;CMDB_AF=0.205597;CMDB_AN=13955;CMDB_FILTER=PASS
chr21   9413945 .       T       C       43787.68        .       AC=71;AF=0.888;AN=80;BaseQRankSum=0.089
chr21   9413995 .       C       T       9632.44 .       AC=29;AF=0.363;AN=80;BaseQRankSum=0.747
chr21   9413996 .       A       G       41996.48        .       AC=71;AF=0.888;AN=80;BaseQRankSum=-1.242e+00;CMDB_AC=3308;CMDB_AF=0.688533;CMDB_AN=4790;CMDB_FILTER=PASS
chr21   9414003 .       T       C       4256.54 .       AC=19;AF=0.238;AN=80;BaseQRankSum=-6.030e-01

在这个注释结果中将对所有能够在CMDB中查询到的位点注释上4个信息,分别是:

  • CMDB_AF: CMDB数据库中的突变频率信息;

  • CMDB_AN: 该位点在CMDB数据库中总的群体覆盖深度;

  • CMDB_AC: 该位点在CMDB数据库中支持该变异的群体覆盖深度;

  • CMDB_FILTER:质控标记,一般是PASS

不过和query-variant的功能一样,如果你感兴趣的位点不在CMDB的这些高质量变异之中,则同样不会有注释信息,cmdbtools将按照你原来的样子输出返回,不会添加上述这四个CMDB信息,所以如果最后你发现自己的数据完全没有CMDB的注释信息,请不要惊讶,或许只是因为这些位点在CMDB这个大人群中没发现高质量的变异而已。

那Annotate的速度如何呢?

4千来个变异位点大约需要3分钟。

其它方面的信息我在github中也有比较具体的帮助文档(近期也将同步更新到CMDB网站中),因此这里就不再赘述了,你可以到github里面看到。

https://github.com/ShujiaHuang/cmdbtools

希望这些一点一点的努力可以对有需要的同行朋友们有所帮助,同时也非常欢迎大家多提意见,cmdbtools可能会逐步改进成为官方工具,所以我们希望可以结合大家更多的意见来进一步完善其后续功能。

最后,我还是多强调一句,不要试图借助cmdbtools取巧,按照你的需求去完成自己的分析即可,如果CMDB后台判定使用者不是在正常地使用这个工具,比如大批量异常查询数据等情况,那么还是会被封号。

祝科学研究者们2019年更好。


如果喜欢更多的生物信息和组学文章,搜索并关注我的微信公众号“碱基矿工”(ID: helixminer)

碱基矿工

你还可以读

这是知识星球:『达尔文星球』(原名:解螺旋技术交流圈),是一个我与读者朋友们的私人朋友圈。我有9年前沿而完整的生物信息学、NGS领域的科研经历,在该领域发有多篇Nature、Cell级别的科学文章,我希望借助这个知识星球把自己的一些微薄经验分享给更多对组学感兴趣的伙伴们。

这是知识星球上第一个与基因组学和生物信息学强相关的圈子,也是官方评定的优秀星球。希望能够借此营造一个高质量的组学知识圈和人脉圈,通过提问、彼此分享、交流经验、心得等,促进彼此****更好地学习生信知识,提升基因组数据分析和解读的能力

在这里你可以结识到全国优秀的基因组学和生物信息学专家,同时可以分享你的经验、见解和思考,有问题也可以向我提问和星球里的星友们提问。

知识星球:达尔文星球
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容