工作需要,用DNA数据直接跑融合基因,网上的介绍大多是用RNA转录数据。
终于发现一款genefuse软件可以做到!在GitHub,anaconda都有源代码包
#软件原网址:
https://github.com/OpenGene/genefuse
genefuse直接基于fastq文件分析,所以你只要准备好fastq.gz文件就可以。
安装
conda install -c bioconda genefuse
使用
genefuse --ref /biodata/pipeline/TUMOR/database/hg19/hg19.nonhap.fa
参考基因组,这里使用hg19也就是Grh37
--fusion /biodata/pipeline/TUMOR/yln-test/genefuse/GeneFuse/genes/druggable.hg19.csv \
#druggable.hg19.csv是软件自带的基于hg19基因组的全部可用药靶点的文件,
此外,还有cancer.hg19.csv,是整理了来自COSMIC数据库的全部已经实验验证的与癌症相关的基因融合,良心!
druggable.hg19.csv比cancer.hg19.csv包含的基因数目小,所以跑起来更快,速度大概相差5倍
--read1 NG19-GXH0818-FFPE_S3_R1_001.fastq.gz \ # 双端测序的序列1
--read2 NG19-GXH0818-FFPE_S3_R2_001.fastq.gz \ # 双端测序的序列2
--html {sample_id}.html #输出结果,可以选择html,json两种格式
当然,也可以针对自己感兴趣的基因配置fusion file,使用软件自带的脚本:gen_fusion_file.jl
需要提供:自己感兴趣基因列表(使用空格或者换行符分隔,注意linux,windows换行符不一样)
julia scripts/gen_fusion_file.jl -r hg19 -g genes.txt -f fusion.csv