作者:大行山
审稿:童蒙
编辑:angelica
三代测序在检测基因组结构变异方面有着很大的优势,但是由于数据分析算法、软件还处于不断开发更新中,当前还没有公认推荐的软件。这里为大家推荐一款国人开发的,可以同时兼顾PacBio和ONT平台数据的SV检测软件cuteSV。
一、背景
基因组结构变异(Structure variants, SV)在人类疾病,特别是罕见病中扮演了重要角色。当前,三代测序凭借其超长读长(一般超过了10 Kb)的优势,受到越来越多遗传病诊断人员的青睐。目前,关于三代数据SV的检测算法、软件还处于起步阶段,相比二代数据要少(如下图1),所以在这一块还有很大的开发空间。
今天我们推荐一个由国人开发的针对三代数据SV检测的软件—cuteSV。该软件同时支持目前三代测序领域的两大平台PacBio和ONT的数据,此外,还兼顾了PacBio测序平台的两种测序模式:CLR模式和CCS模式。最重要的是用户体验很好,速度快,性价比高。
二、软件简介
cuteSV的输入文件为排过序的比对bam文件。 其分析过程为:首先根据输入的比对结果分别检测5种SV类型的主要特征,然后根据特征结果对比对结果进行两轮聚类优化,最后进行SV鉴定和基因型检测。
作者比较了目前支持PacBio平台数据的几款软件,发现cuteSV在不同测序深度下,对CLR和CCS的数据表现都很好。
三、软件安装
软件可以直接从GitHub上下载安装,非常方便。
$ pip install cuteSV
#or
$ conda install -c bioconda cutesv
#or
$ git clone https://github.com/tjiangHIT/cuteSV.git && cd cuteSV/ && python setup.py install
注意,该软件是用Python3版本编写的,内部调用了一些常用软件,提前安装好即可,特别以下几款软件是必须的:1. python3;2. pysam;3. Biopython;4. cigar;5. numpy;6. pyvcf。
四、软件使用
该软件同时支持3种类型的数据,不同类型数据使用了不同固定参数,一般选择默认即可。这里我们主要介绍第一种CLR类型的数据分析。
> For PacBio CLR data:
--max_cluster_bias_INS 100
--diff_ratio_merging_INS 0.3
--max_cluster_bias_DEL 200
--diff_ratio_merging_DEL 0.5
> For PacBio CCS(HIFI) data:
--max_cluster_bias_INS 1000
--diff_ratio_merging_INS 0.9
--max_cluster_bias_DEL 1000
--diff_ratio_merging_DEL 0.5
> For ONT data:
--max_cluster_bias_INS 100
--diff_ratio_merging_INS 0.3
--max_cluster_bias_DEL 100
--diff_ratio_merging_DEL 0.3
软件输入数据为比对好的bam文件,参考基因组的fa文件,输出SV文件,分析目录(该目录主要用于保存中间文件)。
cuteSV <sorted.bam> <reference.fa> <output.vcf> <work_dir>
其他参数说明如下,这里作者不仅给出了参数说明,还非常友好指出了每个参数的默认参数,对于一般分析人员而言,使用默认参数即可。
五、软件实测
为了检测软件的性能,我们使用了30X的CLR数据进行测试。
运行命令如下:
bin/cuteSV \
--max_cluster_bias_INS 100
--diff_ratio_merging_INS 0.3
--max_cluster_bias_DEL 200
--diff_ratio_merging_DEL 0.5 \ #固定默认参数
--threads 8
--sample test
--retain_work_dir
--report_readid
--min_support 10
--min_size 50\ #自定义参数
test.sorted.bam test.SV.vcf tmp_dir #输入输出文件定义
分析结果如下,INS和DEL类型的SV同样占主要比例,与其他软件结果类似。
六、其他注意事项
- 该软件目前只支持5种基本类型的SV,包括INS、DEL、INV、DUP、BND,对于复杂类型的SV暂时不支持。
- 软件cuteSV检测到的SV同样包含IMPRECISE标签的SV,为了保证SV的准确性,减轻后期分析压力,可以考虑只保留PRECISE标签的SV。
七、参考资料
- Kosugi, S. et al. Comprehensive evaluation of structural variation detection algorithms for whole genome sequencing. Genome Biol. 20, 8–11 (2019).
- Jiang, T. et al. Long-read-based human genomic structural variation detection with cuteSV. Genome Biol. 21, 1–24 (2020).
- 3.软件GitHub地址: https://github.com/tjiangHIT/cuteSV