使用MutMap快速定位突变基因:流程篇

在上一篇文章《使用MutMap快速定位突变基因:原理篇》中,我对MutMap的原理进行的简单的介绍。在本篇教程中,我会对MutMap分析的流程及分析过程中使用到的软件及其参数的设置进行逐一的分解,以求对MutMap的分析流程有更深入的理解。


1.对重测序数据进行质控,挑出高质量的reads

(1)使用软件:FASTX-Toolkit

① fastq_quality_filter:过滤掉低质量的reads

使用说明:

fastq_quality_filter [-h] [-v] [-q N] [-p N] [-z] [-i INFILE] [-o OUTFILE]过滤低质量序列

[-q N]       = 最小的需要留下的质量值

[-p N]       = 每个reads中最少有百分之多少的碱基需要有-q的质量值

[-z]         =压缩输出

[-v]       =详细-报告序列编号,如果使用了-o则报告会直接在STDOUT,如果没有则输入到STDERR

在MutMap中,使用q30p90对数据进行质控。

【特别说明】:对于 Illumina 1.8+ Phred+33规则进行质量打分的测序数据,需要添加-Q33选项,否则程序不能识别打分字符,会报错。

② fastx_quality_stats:序列的基本信息,如GC含量等

使用说明:

fastx_quality_stats [-h] [-N] [-i INFILE] [-o OUTFILE]

[-h] = 获得帮助信息

[-i] = FASTA/Q格式的输入文件

[-o] = 输出路径,如果不设置会直接输出到屏幕

(2)结果输出

① 过滤后的高质量reads

结果输出到每个样本下的q30p90/sep_pair/*1.RnFq30p90.1或2.gz,这些reads为质控后的高质量的reads,用于构建参考基因组和后续的比对分析。

② 过滤后reads的统计信息

统计结果输出到每个样本下的q30p90/sep_pair/*1.RnFq30p90.1或2.gz_stats.txt,这些txt格式的文件中存储着过滤后的reads的统计信息。

2.构建亲本参考基因组

(1)为要分析的数据创建链接

运行程序./Bat_make_symbolic_link_of_qualified_fastq.sh,在2.make_consensus文件夹中,为该步骤中要处理的数据创建链接,链接到1.qualify_read文件夹下的q30p90/sep_pair/*1.RnFq30p90.1或2.gz数据,这些数据为第一步质控过的高质量数据。

(2)将过滤后的亲本reads比对到基因组上

① 为参考基因组建立index

使用软件:BWA

使用命令:bwa index -p 输出文件名 -a reference.fa

② 寻找SA coordinates

确定reads在参考基因组上的坐标。

使用软件:BWA

使用命令: bwa aln

bwa aln -n 0.04 -o 1 -k 2 -t 20 reference.fa  leftRead.fastq > leftRead.sai

bwa aln -n 0.04 -o 1 -k 2 -t 20 reference.fa  rightRead.fastq > rightRead.sai

参数说明:

-n  :NUM    Maximum edit distance if the value is INT, or the fraction of missing alignments given 2% uniform base error rate if FLOAT. In the latter case, the maximum edit distance is automatically chosen for different read lengths. [0.04]

-o:Maximum number of gap opens

-k:Maximum edit distance in the seed

-t:Number of threads (multi-threading mode)

③ 将SA coordinates输出文件转换为sam格式

将上一步的SA coordinates输出的fai格式的文件转换为sam格式的文件。

使用软件:BWA

使用命令:bwa sample

bwa sample -a 1000 -n 3 -N 10 reference.fa leftRead.sai leftRead.fastq  > leftRead.sam

bwa sample -a 1000 -n 3 -N 10 reference.fa  rightRead.sai  rightread.fastq > rightRead.sam

参数说明:

-a:Maximum insert size for a read pair to be considered being mapped properly. Since 0.4.5, this option is only used when there are not enough good alignment to infer the distribution of insert sizes.

-n:Maximum number of alignments to output in the XA tag for reads paired properly. If a read has more than INT hits, the XA tag will not be written.

-N:Maximum number of alignments to output in the XA tag for disconcordant read pairs (excluding singletons). If a read has more than INT hits, the XA tag will not be written.

④ 将sam文件转换为bam文件

使用软件:samtools

使用命令:samtools view

samtools view -Sb leftRead.sam > leftRead.bam

samtools view -Sb rightRead.sam > rightRead.bam

参数说明:

-S: input is SAM

默认下输入是 BAM 文件,若是输入是 SAM 文件,则最好加该参数,否则有时候会报错。

-b: output BAM

默认下输出是 SAM 格式文件,该参数设置输出 BAM 格式

⑤ 将leftRead.bam和rightRead.bam合并

使用软件:samtools

使用命令:samtools merge

samtools merge left_and_right.bam leftRead.bam rightRead.bam

⑥ 对merge后的bam文件排序

使用软件:samtools

使用命令:samtools sort

samtools sort left_and_right.bam left_and_right_sorted.bam

⑦ 移除潜在的PCR重复

使用软件:samtools

使用命令:samtools rmdup

samtools rmdup myBAMums_sorted.bam myBAMums_MSR.bam

⑧ 对bam文件建立索引

使用软件:samtools

使用命令:samtools index

samtools index myBAMums_MSR.bam

(3)对bam文件的比对质量进行再次优化

使用软件:coval refine

将Indel附近有错配的reads重新排列,直到错配碱基数最少

去除错配数目超过设置值的reads

去除含有3个以上Indel、1个Indel和一个soft-clipped end、或者2个soft-clipped end的reads。

文件输出:2.make_consensus\20.coval_refine文件夹下

(4) variant calling

使用软件:coval call

寻找亲本重测序reads和Nip之间的snp位点和Indel,用于下一步构建亲本参考基因组。

文件输出:2.make_consensus\30.coval_call文件夹下

(5)将找到的变异位点替换Nip,构建亲本参考基因组

使用脚本:

/Bat_RYKMSWBDHV_to_ACGT.pl.sh

/Bat_make_consensus.sh

文件输出:2.make_consensus\50.make_consensus文件夹下

(6) 将野生型亲本的reads重新比对到新构建的野生型参考基因组上

找由于错配导致的变异位点,用于后续的排除和过滤

使用软件:bwa、cover refine、cover call

文件输出: 2.make_consensus\90.align_to_this_fasta\30.coval_call文件夹下

3. 将突变体混池测序数据比对到亲本参考基因组上,寻找变异位点、计算SNP-index并作图

分析步骤:

将混池reds比对到亲本参考基因组上

使用coval refine对比对结果进行过滤

使用coval call检测变异位点

排除由于错配导致的snp位点

计算将找到的可信的snp位点的深度和snp-index

计算snp的置信区间

画SNP-index的slidingwindow图

4.结果输出:

可信的变异位点位于文件夹:3.analysis\70.awk_custom

SNP-index图位于文件夹3.analysis\90.slidingwindow

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容