1 原理
详细信息参见2013年的QTL-seq 文献,这里只做简单介绍。
1.1 群体构建
QTL-seq 将 BSA(bulked-segregant analysis)及全基因组测序进行结合,识别与目标性状相关联的 QTLs。要达到这一目的,我们首先需要构建一个包含极端目标表型的定位群体。根据性状的不同,可以采取不同的群体构建方法:
重组自交系(recombinant inbred lines, RILs)和同质双单倍体(doubled haploids, DH)具有较高的纯合性,每个 line 中的个体都具有表型的可重复性,可用于检测具有较小效应的 QTLs。
两个品系 A 和 B 杂交后自交所得的F2群体也可以用于进行 QTL-seq 分析,优点是获得群体所需时间短,但是由于基因型的不可重复性,因此适合于检测效应较大的 QTLs。
1.2 测序分析
如图a所示,我们拟分析与水稻株高相关的 QTL。如果有多个 QTL 影响株高,不同株高的频数分布图将近似于正态分布。将具有极端表型的个体组成两个极端群(highest bulk及lowest bulk),每个极端群中的个体均取等量 DNA 组成混池 DNA,对混池的 DNA 样品进行全基因组重测序,以识别在其中起主要作用的 QTL。与此同时,我们还需对其中一个亲本群体进行测序,以获得参考亲本基因组的信息。
由于两个极端群体只在“株高”这一个表型上有差异,理论上,我们可以认为基因组上的绝大区域,在两个群体之间并没有区别,均等量来源于两个亲本基因组。而只有与“株高”相关的 QTL 所在区域在两个极端群中存在区别。我们的任务,就是把这些区域找出来。
1.3 SNP-index
在这里,引入一个指标 SNP-index 来表示子代群体与亲本之间的序列差异程度。SNP-index 指的是在特定位点上,携带有不同于参考亲本的 SNP 的 reads 数占比对到同一位点的所有 reads 总数的比值(图b)。
SNP-index 为0,说明比对到这一位点的所有 reads 都来源于参考亲本;SNP-index 为1,说明这些 reads 都来源于非参考亲本;而 SNP-index 为0.5说明这一位点的信息等量来源于两个亲本。如果某一 SNP 在两个极端群中的 SNP-index 均小于0.3,可认为这样的SNPs是由于测序或比对错误所致,建议舍弃。
1.4 Delta(SNP-index)
将两个极端群的 SNP-index 相减,所得的 Delta(SNP-index) 可以更直观地显示两个极端群在基因组上的差异情况。Delta(SNP-index) 为1或-1说明相对应的 SNP 来源于其中一个亲本,这一位点及其周边很有可能是参与株高性状形成的区域。
2 QTL-seq 分析流程
操作系统:Red Hat Enterprise Linux 7
QTL-seq 的分析流程可以从开发者的网站直接下载,参照其中的说明文档进行操作。
作者的说明文档讲述比较清晰,这里只补充几点需要特别注意的点:
2.1 所需软件
开发者建议的版本 | 实际分析时使用的版本或说明 |
---|---|
Perl (v5.8.8) | Perl v5.26.2 |
Perl module Math::Random::MT::Auto 6.14 | 安装失败。后将ibrc_scripts/1./reduce_read.pl 中的 "use Math::Random::MT::Auto 'rand';" 设为注释,直接使用 Perl 自带的 rand() 函数 |
R (version 2.15.0) | R v3.4.1 |
BWA (version 0.5.9-r16) | BWA v0.7.16a-r1181 |
SAMtools (0.1.8 or before) | 建议使用 SAMtools v 0.1.8,因为新版本中部分命令有变动,流程中的代码修改起来比较麻烦 |
FASTX-Toolkit | fastx_toolkit v0.0.14 |
2.2 主要操作流程(按照说明文档进行即可)
2.2.0 设置配置文件(参考说明文档,根据实际情况进行修改)
注意:如果 reads 为phred 33,在config.txt 文件中进行设置:
Key1_Score_type_for_my_cultivar="sanger"