本文是“transvar变异坐标转换 - Linux篇”https://www.jianshu.com/p/0aa5cb6eefe2的姊妹篇,专门写给不熟悉Linux软件的童鞋~
坐标转换困境
一些公开发表的论文中及很多数据库中经常提到变异,一般变异的表现形式有三种:1)基因组坐标:2)cDNA 坐标;3)蛋白氨基酸坐标。举个例子TP53上的某个变异的基因组坐标是g.chr17:74026C>A,cDNA坐标是c.1001G>T,蛋白氨基酸坐标是p.G334V。在数据分析的过程中经常会遇到这三种坐标相关转换的情况,例如你从文献或者某个数据库中收集到了几百个肿瘤靶向药的用药位点,而你在你样本中检测到了很多变异,想知道你的样本中包含多少收集到的已知的用药位点。但通常文献或者数据库会以第二种或者第三种形式表示变异,而我们自己检测的变异通常会以vcf格式存储,这样就无法直接匹配。当然可以对vcf格式的变异进行ANNOVAR注释,然后对cDNA或者蛋白氨基酸坐标形式的变异进行比较,但尝试过的人都表示特别痛苦:需要考虑的规则太多!尝试两次,还是放弃了:一是匹配规则不通用;二是总担心有没有考虑到过的情况。所以急需一个能完成这种坐标转换的工具。15年发表在NATURE METHODS上的题为:TransVar: a multilevel variant annotator for precision genomics的文章中推出了一款名为TransVar的软件成了解决不同层面变异坐标转换的神器。下面小编就介绍一下这款软件(Linux版),没有Linux基础的也不用担心,后续会写一篇基于Web版TransVar进行注释(坐标转换)的文章。
TransVar软件简介
Transvar 是一款多种方向的突变/坐标转换工具,它支持基因组坐标、cDNA 坐标以及蛋白氨基酸坐标之间的转换。
如上图所示,该软件的功能可细分为下面3种:
1)正向注释:对于基因组坐标的变异进行mRNA(cDNA)和蛋白注释,这款工具会提供所有的可能结果;
2)反向注释:将mRNA(cDNA)坐标和蛋白坐标的变异转换成所有可能基因组坐标形式的变异;
3)等价注释:对于某一给定的蛋白坐标的变异,搜索所有可能的与其为相同基因组坐标,但在不同转录本上的蛋白坐标变异。
网址
https://bioinformatics.mdanderson.org/transvar/
首页如下:
使用介绍
1.正向注释
所谓的“正向”就是将基因组坐标形式的变异作为检索词进行检索,我们以chr7:55259515T>G为例:
简单介绍一下,1区域选择哪种注释方式;2区域选择参考基因组版本;3区域选择转录本注释数据库,可以选单个或者多个;4区如果需要批量注释把检索词放到文件里,一行一个变异,然后上传;5区如果单个或少量位点进行检索,就在该区域直接书写;6都写好了点submit提交。
如果不清检索词格式,可以下拉主页面,会有检索词示例:
检索结果如下:
其中第一列为输入的检索词;第2列为转录本名;第3列基因名;第4列表上该转录本是在正链还是负链;第5列就是具体的突变信息,有基因坐标的,cDNA坐标的以及蛋白氨基酸坐标的,可以看出基因坐标和我们检索词一致;第6列表示该变异在基因上的位置;第7列展示了其他信息,其中最后一个字段source=XXX对应检索页面的数据库;
2.反向注释
反向注释包括以cDNA坐标为检索词和以蛋白氨基酸坐标为检索词两种:
数据库等其他选择与正向一致,在这里就不赘述了。需要强调的一点是检索词的格式,cDNA的示例如下:
蛋白的示例如下:
3.等价注释
等价注释就是这里的codon search:
检索词还是要蛋白格式的,示例如下:
例如我们以“CDKN2A:p.R87P”为检索词,结果如下: