全基因组关联分析(GWAS)
全基因组关联分析(Genome wide association study,GWAS)是对多个个体在全基因组范围的遗传变异(如SNP)多态性进行检测,进而将基因型与表型进行相关性分析,挖掘性状相关基因。
GWAS分析流程
- 准备样本表型数据
- 进行基因型检测
- 基因型和表型关联
- 查找候选基因组
性状数据
- 质量性状
单基因控制 - 数量性状
符合正态分布
表型数据离散时建议进行数据转换
剔除异常表型值样本
多年多点重复观测,相互验证 - 分级性状
多基因控制
效应与基因频率
突变效应:一个突变对性状的影响程度
群体结构和亲缘关系的干扰
做GWAS的一个理想群体是,群体内部的所有个体随机交配,个体间的距离一致、差异度一致,那么群体内的最大差异就是目标表型的差异。但是,我们的群体一定会存在亲缘关系或者亚群的干扰。所以,我们在分析的时候要做一些处理(加Q或者K矩阵矫正)。
常用的模型
一般线性模型GLM
该模型认为表型由遗传效应(SNP的干扰)和群体结构的干扰再加上随机误差一起生效的。
混合线性模型MLM
在一般线性模型的基础上多加了一个亲缘关系(随机效应)
GWAS曼哈顿图
阈值计算:Bonferroni test,0.05/total_SNPs,0.01/total_SNPs 或 FDR
QQ-plot
QQ-plot:quantile-quantile plot ,分位数-分位数图,主要用于检查观测到的p-value和期望的p-value一致性。进而推断GWAS使用的统计模型是否合理。
一般比较好的结果是前面重合,后面尾巴翘起。
GWAS分析常用的软件
• GWAS分析软件
– Tassel
– GAPIT
– Plink
– Emmax
• GWAS绘图软件
– qqman(R包)
– CMplot(R包)
样本和测序数量
• 推荐测序量:
– 单个样品>5X以上,大群体可以适当降低测序量
• 个体数目
– 越多越好,200个以上
• 样本间不能有明显的亚群分化