GWAS理论 1-1 全基因组关联分析基本概念和材料选择

先把GWAS系列课程看一遍，后面再把不懂的东西再补充上来

一、概念和理论基础

全基因组关联分析定义

是对多个个体在全基因组范围的遗传变异（标记）多态性进行检测，获得基因型，进而将基因型与可观测的性状，即表型，进行群体水平的统计学分析，根据统计量或显著性 P 值筛选出最有可能影响该性状的遗传变异（标记），挖掘与性状变异相关的基因。

质量性状与数量性状

质量性状指相对性状的变异呈不连续性，呈现质的中断性变化的性状。由1对或少数几对主基因控制。如鸡羽的芦花斑纹和非芦花斑纹、角的有无、毛色、血型等都属于质量性状。

数量性状指相对性状的变异呈连续性，个体之间的差异不明显，很难明确分组。受微效多基因控制，控制数量性状的基因称为数量性状位点(quantitative trait loci, QTLs).在QTLs中, 基因的效应也有大有小。其中, 效应较大的称为主效QTL, 效应较小的称为微效QTL(或微效多基因)。动植物的许多重要经济性状都是数量性状，如作物的产量、成熟期，奶牛的泌乳量，棉花的纤维长度、细度等等。

但是，生物的许多性状并不是绝对的质量性状或数量性状, 多数表型介于两者之间，同时受到主基因和数量性状位点(QTLs)的控制。水稻包穗性状就是受到主基因和数量性状位点的共同控制。

分为两类：

全基因组水平的关联分析
已知候选基因的关联分析（用的是候选基因的标记和背景基因的标记）

主要步骤就三步：

标记开发
表型考察
统计分析

关联分析与连锁分析

连锁分析与关联分析的区别

关联分析和连锁分析

关联分析是以连锁不平衡(linkage disequilibrium, LD)为基础的。连锁不平衡是不同基因座位上等位基因的非随机组合。

图示

1、连锁采用家系样本；关联采用散发样本
2、连锁应用LINKAGE核心IBD算法做计算；关联用卡方检验计算2组，找到相关行
3、连锁一般找到的是某个区域；关联找到的是某个点
4、连锁结果相对准确，假阳性小，但精细定位很困难，主要原因是家系问题。关联相对粗糙，假阳性很高，但可以直接定到基因位点
这里还有一个对于在人类疾病中的相关解释（https://huans.github.io/2017/12/18/QTL/）