在硕士就读期间,就已经做过 GWAS 相关的分析。当时标记量非常少, windows 系统分析就足够了,作图方面涉及的脚本也基本是蔡师兄帮写的。后来,随着高通量测序成本的降低,标记数量越来越多,不得不进入 linux 和 脚本操作的时代,因此我也陆陆续续的学习了 R 和 Python等编程语言,但是在编程的世界里,只是一个小菜鸟,大部分的脚本都是“借来的”。
而此次 GWAS方面的相关内容基本取材于百迈客云课堂。
1、基本概念
全基因组关联分析(Genome wide association study,GWAS)是对多个个体在全基因组范围的遗传变异(标记)多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因。
相对于连锁分析的优势
• 关联定位的相对优势:
• 1)分辨率高(单碱基水平)
• 2)研究材料来源广泛,可捕获的变异丰富
• 3)节省时间
关联分析的基础-连锁不平衡(LD)
当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(linkage disequilibrium)
r2 和 D'
• r2和D’反映了LD的不同方面。r2包括了重组和突变,而D’只包括重组史。
D’能更准确地估测重组差异,但样本较小时,低频率等位基因组合可能无法
观测到,导致LD强度被高估,所以D’不适合小样本群体研究;
• LD衰减作图中通常采用r2来表示群体的LD水平;
• Haplotype Block中通常采用D’来定义Block;
• 迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素都
会引起LD的改变。
LD衰减
• LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程;
• LD的衰减距离决定关联分析时所需标记密度,也在一定程度上决定关联分析的精度。
Haplotype Block
• 单体型块,即连锁不平衡区域,是指同一条染色体上处于连锁不平衡状态的一段连续的区域
• 单体型块分析可以用于筛选 tag SNP、确定候选基因的范围等
2、材料选择与群体设计
材料选择的基本原则
基本原则
1)遗传变异和表型变异丰富
2)群体结构分化不能过于明显(如亚种以上,发生生殖隔离是不能做GWAS的)
样本量
非稀有变异中,对中等变异解释率(10%左右)的位点的检测功效要达到80%以上时,需要的样本量在400左右
位点的效应越低,需要的样本量越大
群体类型
−种质资源材料
• 遗传变异丰富,可以同时对多个性状进行分析
• 群体结构复杂,稀有变异多,遗传信息丢失明显
−人工群体
• 包括F2、半同胞家系、动物远交群体、NAM群体、MAGIC群体和ROAM等群体类型。背景单纯,检测功效高;可以放大稀有变异
• 遗传变异不够丰富,重组事件有限,定位精度可能较低
表型调查
精确的表型检测是关联分析的关键
GWAS对数量性状和质量性状都适用
• 数量性状:多基因控制,能够测量得到具体数值,符合正态分布;考虑到数量性状受环境影响大,建议将所有材料在同一环境下培育或养殖,或者用多年多点的数据分开分析后综合结果或取BLUP值作为性
状值进行关联分析。
• 质量性状:单基因控制,无法用具体数值衡量,可转换成0、1等表示,需注意每个群体选取近似的样本。
• 分级性状:表型分布类似质量性状,但实际受多基因控制(数量性状),如抗性性状,因此需要提供每一个个体精确的测量数据。
• 多指标性状:有多个指标可以同时度量时,找出代表原表型数据变异的主成分因子,作为关联分析的表型数据
标记开发与分型
• 实验室常用标记(SSR等)
• SNP芯片
• NGS开发SNP、small Indel、CNV、SV标记
纵深研究--基因克隆示例
材料:381份粳稻品种(热带和温带品种)
1、关于水稻谷粒大小的性状,GWAS定位到7号染色体,SNP峰值所在地方注释到11个基因;
2、对11个基因分别在稻穗、叶片和根系中做RT-PCR,只有第9个基因OsSPL13在稻穗中表达有差异;
3、OsSPL13基因蛋白表达的进一步验证;
4、分析OsSPL13基因在水稻大粒和小粒之间的序列差异,包括SNP位点和小的indel;
5、通过转基因找到影响OsSPL13基因表达相关的相关区域(5’UTR中的一个串联重复序列);
6、通过RNA干扰的方法将大粒品种GP579和小粒品种Dongjing中OsSPL13的表达量下调后会使水稻籽粒的长度和粒重都显著降低;
7、筛选到1个Dongjing来源的glw7突变体,粒长和粒重比野生型均明显降低;
8、通过chip-seq进行OsSPL13调节下游基因的验证(结果未示)SRS5和DEP1。