先把GWAS系列课程看一遍,后面再把不懂的东西再补充上来
一、概念和理论基础
全基因组关联分析定义
是对多个个体在全基因组范围的遗传变异(标记)多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 P 值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因。
质量性状与数量性状
质量性状指相对性状的变异呈不连续性,呈现质的中断性变化的性状。由1对或少数几对主基因控制。如鸡羽的芦花斑纹和非芦花斑纹、角的有无、毛色、血型等都属于质量性状。
数量性状指相对性状的变异呈连续性,个体之间的差异不明显,很难明确分组。受微效多基因控制,控制数量性状的基因称为数量性状位点(quantitative trait loci, QTLs).在QTLs中, 基因的效应也有大有小。其中, 效应较大的称为主效QTL, 效应较小的称为微效QTL(或微效多基因)。动植物的许多重要经济性状都是数量性状,如作物的产量、成熟期,奶牛的泌乳量,棉花的纤维长度、细度等等。
但是,生物的许多性状并不是绝对的质量性状或数量性状, 多数表型介于两者之间,同时受到主基因和数量性状位点(QTLs)的控制。水稻包穗性状就是受到主基因和数量性状位点的共同控制。
分为两类:
- 全基因组水平的关联分析
- 已知候选基因的关联分析(用的是候选基因的标记和背景基因的标记)
主要步骤就三步:
- 标记开发
- 表型考察
- 统计分析
关联分析和连锁分析
关联分析是以连锁不平衡(linkage disequilibrium, LD)为基础的。连锁不平衡是不同基因座位上等位基因的非随机组合。
1、连锁采用家系样本;关联采用散发样本
2、连锁应用LINKAGE核心IBD算法做计算;关联用卡方检验计算2组,找到相关行
3、连锁一般找到的是某个区域;关联找到的是某个点
4、连锁结果相对准确,假阳性小,但精细定位很困难,主要原因是家系问题。关联相对粗糙,假阳性很高,但可以直接定到基因位点
这里还有一个对于在人类疾病中的相关解释(https://huans.github.io/2017/12/18/QTL/)
LD :
当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(linkage disequilibrium)
LD 衰减距离相关解释(https://www.jianshu.com/p/a36bd4145ef7)
单体型块图(LD bolck)(https://www.omicshare.com/forum/thread-1201-1-1.html)
LDheatmap 是一个 R 包,挺好用