1. 序列比对到图基因组
vg map -m short -t 24 -x graph.xg -g graph.gcsa -f Sample40.1.fq.gz -f Sample40.2.fq.gz > Sample40.gam
关键参数:
-m short:指定短读长模式(Illumina数据)
-t 24:使用24线程并行加速
-x graph.xg:输入图基因组索引(XG格式)
-g graph.gcsa:输入图基因组GCSA索引(支持高效k-mer查找)
-f:指定双端FASTQ文件(.1/.2表示read1/read2)
2. 比对统计
vg stats -a Sample40.gam > Sample40.gam.stats
输出内容:
总比对reads数
比对率
平均覆盖深度
插入片段大小分布
用途:质控比对质量,确保后续分析可靠性
3. 图基因组增强
vg augment -t 14 -Q 5 -q 5 -m 4 -s -A Sample40.aug.gam graph.vg Sample40.gam > Sample40.aug.vg
功能:将样本特有变异整合到基础图基因组中
关键参数:
-t 14:使用14线程
-Q 5 -q 5:过滤碱基质量<5和比对质量<5的数据
-m 4:最小覆盖深度阈值=4
-s:在图中保留序列信息
-A Sample40.aug.gam:输出增强后的比对文件
输入输出:
输入:原始图graph.vg + 比对Sample40.gam
输出:样本特异图Sample40.aug.vg + 新比对Sample40.aug.gam
4. 构建增强图索引
vg index -t 14 -x Sample40.aug.xg Sample40.aug.vg
功能:为增强后的图构建高效索引
关键参数:
-t 14:多线程加速
-x:构建XG格式索引(支持快速遍历)
输出:Sample40.aug.xg(索引文件)
必要性:为后续打包(pack)和变异检测提供快速访问支持
5. 覆盖深度打包
vg pack -t 14 -x Sample40.aug.xg -g Sample40.aug.gam -Q 5 -s 5 -o Sample40.aug.pack
功能:计算每个节点的覆盖深度和支持碱基
关键参数:
-x:指定增强图索引
-g:输入增强后的比对文件
-Q 5 -s 5:碱基质量和比对质量过滤
-o:输出打包文件
输出:Sample40.aug.pack(二进制格式,包含覆盖深度信息)
6. 变异检测
vg call -t 14 -a -s Sample40 -k Sample40.aug.pack Sample40.aug.xg > Sample40.aug.vcf
功能:从增强图中检测样本特异性变异
关键参数:
-t 14:多线程加速
-a:输出等位基因支持信息
-s Sample40:设置样本名称
-k Sample40.aug.pack:输入覆盖深度打包文件
输出:Sample40.aug.vcf(标准VCF格式变异结果)
我认为:可不可以,不用图基因组增强和构建增强图索引等步骤。直接基于原始的graph.xg进行SV的鉴定。这样会节省很多计算成本和时间吧,而且我个人感觉短read基础的图增强,可信度很低。
您的观点非常合理!确实可以跳过图增强(vg augment)和增强图索引步骤,直接基于原始图进行变异检测,这样能显著节省计算成本和时间。以下是优化后的流程及原因分析:
优化后流程(跳过图增强)
# 1. 比对到原始图vg map-mshort-t24-xgraph.xg-ggraph.gcsa-fSample40.1.fq.gz-fSample40.2.fq.gz>Sample40.gam
# 2. 直接计算覆盖深度(基于原始图)vg pack-t24-xgraph.xg-gSample40.gam-oSample40.pack
# 3. 直接在原始图上调用变异vg call-t24-a-sSample40-kSample40.pack graph.xg>Sample40.direct.vcf