transvar变异坐标转换 - Linux篇

坐标转换困境

一些公开发表的论文中及很多数据库中经常提到变异,一般变异的表现形式有三种:1)基因组坐标:2)cDNA 坐标;3)蛋白氨基酸坐标。举个例子TP53上的某个变异的基因组坐标是g.chr17:74026C>A,cDNA坐标是c.1001G>T,蛋白氨基酸坐标是p.G334V。在数据分析的过程中经常会遇到这三种坐标相关转换的情况,例如你从文献或者某个数据库中收集到了几百个肿瘤靶向药的用药位点,而你在你样本中检测到了很多变异,想知道你的样本中包含多少收集到的已知的用药位点。但通常文献或者数据库会以第二种或者第三种形式表示变异,而我们自己检测的变异通常会以vcf格式存储,这样就无法直接匹配。当然可以对vcf格式的变异进行ANNOVAR注释,然后对cDNA或者蛋白氨基酸坐标形式的变异进行比较,但尝试过的人都表示特别痛苦:需要考虑的规则太多!尝试两次,还是放弃了:一是匹配规则不通用;二是总担心有没有考虑到过的情况。所以急需一个能完成这种坐标转换的工具。15年发表在NATURE METHODS上的题为:TransVar: a multilevel variant annotator for precision genomics的文章中推出了一款名为TransVar的软件成了解决不同层面变异坐标转换的神器。下面小编就介绍一下这款软件(Linux版),没有Linux基础的也不用担心,后续会写一篇基于Web版TransVar进行注释(坐标转换)的文章。

TransVar软件简介

Transvar 是一款多种方向的突变/坐标转换工具,它支持基因组坐标、cDNA 坐标以及蛋白氨基酸坐标之间的转换。


image.png

如上图所示,该软件的功能可细分为下面3种:
1)正向注释:对于基因组坐标的变异进行mRNA(cDNA)和蛋白注释,这款工具会提供所有的可能结果;
2)反向注释:将mRNA(cDNA)坐标和蛋白坐标的变异转换成所有可能基因组坐标形式的变异;
3)等价注释:对于某一给定的蛋白坐标的变异,搜索所有可能的与其为相同基因组坐标,但在不同转录本上的蛋白坐标变异。

软件下载和安装:

软件下载地址:
1,旧版(最近没有在更新):https://bitbucket.org/wanding/transvar/src/master/
2,新版(一直在更新):https://github.com/zwdzwd/transvar
按照方法如下:

sudo pip install transvar ## 全局安装,需要root权限
或者:
pip install --user transvar ##用户安装,没有root权限的用此方法
软件更新:
pip install -U transvar

这款软件在安装后要自己配置数据库操作起来也比较简单:

# set up databases
transvar config --download_anno --refversion hg19 #默认的hg19的 dbSNP 数据库是2016年的,部分数据库如dbSNP新版数据库收录内容有很大变化(主要是数量的提升),所以建议自行重新下载

# in case you don't have a reference
transvar config --download_ref --refversion hg19

# in case you do have a reference to link
transvar config -k reference -v [path_to_hg19.fa] --refversion hg19

需要注意的是直接使用Transvar的命令下载数据库容易因网络问题出错,导致下载的数据库是不完整的(不报错的,是个深坑!)可以到http://transvar.info/transvar_user/annotations/直接下载后进行配置。

软件的使用

这款软件即可以单点注释,也可以批量处理,下面分别介绍一下:
单点注释用 -i传入待注释位点,包括3种:

# 基因组正向注释
transvar ganno --ccds -i 'chr3:g.178936091G>A' 
 # cDNA反向注释
transvar canno --ccds -i 'PIK3CA:c.1633G>A'
# 氨基酸反向注释
transvar panno -i 'PIK3CA:p.E545K' --ensembl 
# 其中--ccds、--ensembl为使用不同的数据库,如网页版,可以同时多选,\
# 如 --ccds --ensembl --refseq --ucsc 来进行多选

批量注释:

/*/software/anaconda3/bin/transvar canno -l mutiation.canno.list  -m 1 -o 2  --refseq --longestcoding --gseq 
###
canno:指cDNA反向注释,备选包括panno( 蛋白氨基酸反向注释)和ganno(基因组正向注释)
-l:输入文件,变异与canno、panno、ganno对应。格式示例如下:
![image.png](https://upload-images.jianshu.io/upload_images/22041438-ba466242c2050f60.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
-m:-l指定的输入文件可以有多列,通过-m指定哪列是待注释列,不加-m参数默认是第一列
-o:同时可以通过-o来指定-l中的那一列作为输出文件的首列,不加-o,默认是第一列
--refseq:使用哪个数据库的转录本进行注释,还有其他数据库可选如 ensembl/gencode/ucsc/ccds/aceview等。
--longestcoding: 有多个转录本时,仅选择最长的转录本。如果不加这个参数会把涉及到的所有转录本都输出出来,这时候你就要自己制定标准进行筛选了
--gseq :在输出文件中增加类似VCF格式的变异信息,包括染色体,起始位置,终止位置,参考基因组序列,突变后的序列。

软件官方教程

官网:https://transvar.readthedocs.io/en/latest/
这里有对软件详细的介绍,这里就不赘述了,想深入研究的可以去官网看看。

image.png

说在最后的

transvar 在转换时总会有很多损失,个人经验损失主要来自于两部分:
1,输出结果中没有该变异,直接被丢掉了;
2,输出结果中有该变异,但在你选择的数据库中没有这个转录本,提示“no_valid_transcript_found”。
为了尽量提高成功转换的比例可以做如下尝试:
1,用所有能用的库去注释,不过还是建议以一个库的结果为准,把其它库包含但该库不包含的变异加上;
2,对于longestcoding没有成功去掉该参数后再尝试,然后自行选一个靠谱的转录本,如果不知道该怎么选就随机选一个;
3,如果你拿到的变异信息有对应的转录本,选取与所提供的转录本一致的数据库,分析时不加--longestcoding,然后根据转录本信息对转换结果进行匹配,这种是准确性最高的。

原创文字,如果觉得对你有帮助留下你的赞哦~

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352