使用transanno制作不同基因组版本坐标映射的chain 文件?

不同基因组版本的位置(坐标)对应关系,在数据分析环节经常用到。

位置对应关系通常通过比对来获取,而信息一般存储在chain文件中

对于人类、小鼠等模式生物而言,UCSC已经提供了不同版本的chain文件

对于非模式生物,往往需要先自己制作chian文件,再通过ncbi的remap,UCSC的lifeover和crossmap等工具进行坐标转换。

UCSC官网也提供了制作chain文件的方法。但需要parasol集群环境(需要root)。这一步的设置往往难倒了不少人,尤其是ssh localhost。

最近找了一个新工具transanno,结合minimap2比对,30分钟内就能创建一个新的chain文件,使用起来也非常简单。感谢开源,感谢李恒。

# minimap2比对
minimap2 -cx asm5 --cs QUERY_FASTA.fa REFERENCE_FASTA.fa > PAF_FILE.paf

# transanno创建chain文件
transanno minimap2chain PAF_FILE.paf --output CHAINFILE.chain

后续选择相应工具即可进行坐标转换,也可以继续用transanno,转换vcf、bed、gff/gtf(仅限genecode/Ensembl格式)等格式文件。

操作失败的教程:
https://www.dazhuanlan.com/hokit/topics/1370056
https://www.jianshu.com/p/825993c9b03a

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容