NGS分析手把手教学:全基因组分析GATK4管道教程详解(有完整代码)

⚠️不想充值付费的小伙伴可以点赞,会随机挑选幸运观众赠送全文。

目录

前言
1.分析环境的配置
2.数据准备
3.QC处理
4.Index和Mapping
5.Variant Calling
-- 5.1 去重复
-- 5.2 read可视化(可选)
-- 5.3 BQSR处理
--- 5.3.1 Variant已知的情况
--- 5.3.2 Variant未知的情况
-- 5.4 对比BQSR的效果(可选)
-- 5.5 最终Variant Calling
全剧终

前言

GATK历史悠久,2020年更新到了版本4,所有代码都变成了完全开源,童叟无欺。想写教程已经很久了,拖延癌一直到了现在。所有管道流程已经设置好,只需要复制黏贴代码。从此SNPs, Indels分析再也不需要花钱找平台了,本地硬盘够大的话自己的电脑也可以操作,没有服务器也不是问题。省下来的经费可以买排骨吃。
平台是linux或者Mac最好,windows学生党用户的话也没有问题。可以参考Windows10下挂Linux子系统做生信分析
本文参考了纽约大学的GATK4 Best Practices Workflows 官方指南,但是官方指南只能一个样本一个样本的操作,生产力低下。所以特此加以改编,可以把所有的样本都最后归纳到一个VCF文件里。至于后续对VCF文件的分析可以参考我的专题vcf数据分析,有花篇幅介绍过。

1.分析环境的配置

整个分析流程可以细分成很多步骤,比方说下机序列数据fastq的质量检验,Mapping, 最后的Variant Calling。途中会生成很多文件,为了不造成混乱,可以提前为每一步设置好文件夹。

PROJECT_PATH=/home/Jason/gatk4

mkdir -p ${PROJECT_PATH}
cd ${PROJECT_PATH}

pwd
## /home/Jason/gatk4

mkdir genome
mkdir fastq
mkdir cleaned_fastq
mkdir bam
mkdir bqsr
mkdir vcf
  • genome:参照序列
  • fastq:下机序列
  • cleaned_fastq:QC处理以后的数据
  • bam: mapping以后的bam文件
  • bqsr: 经过bqsr校准过以后的bam文件
  • vcf:最后的vcf格式的结果

2.数据准备

还有 84% 的精彩内容
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
禁止转载,如需转载请通过简信或评论联系作者。
支付 ¥6.00 继续阅读

相关阅读更多精彩内容

友情链接更多精彩内容