保证关联分析成功的关键
• 精确可靠的表型
• 表型重复方差最小化,尽量减少非系统测量误差;
• 表型的遗传力最大化。
• 假阳性最低化:尽可能减少位点间的非连锁相关的影响
• GWAS 实际上反应的是表型与各个座位的等位基因状态的相关性,所以位点间的非连锁相关会导致假阳性,位点间的非连锁相关的主要来源包括群体结构(材料的亚群分化)和亲缘关系(材料间的共祖关系)。
• 标记密度足够,理论上 GWAS 最低饱和标记密度=基因组大小/LD 衰减距离,实际上越密越好。
关联分析模型
• 一般线性模型 (GLM, general linear model):只有固定效应,没有随机效应。
• 混合线性模型 (MLM, mixed linear model)
• 在一般线性模型的基础上增加了随机效应;
• emma、 CMLM、 FarmCPU、 Blink、 super、 P3D、 fast-LMM 等均是混合线性模型的改进;
• 通过降维提升计算速度,同时不影响功效(power)。
两类错误与统计功效
- 假阳性:应该不显著,但检测结果显著;
- 假阴性:应该显著,但检测结果不显著;
- 统计效力(power):检测到的QTN的数目占影响某性状的总QTN数目的比例;
- 一类错误(Type I error):假阳性标记占错误总标记数的比例。
各模型评价结果
- 根据群体结构评估的情况,选用相应的模型,但在实际操作中一般使用多种模型(GLM /MLM /EMMAX /FaST-LMM) 同时分析,根据结果进行取舍;
- 选择:GLM/MLM/CMLM为基础 (TASSEL/GAPIT),与EMMAX、 Fast-LMM相互比较,其他作为补充,当性状与群体结构相关时,可以考虑使用FarmCPU;
- 显著性阈值确定(Bonferroni correction)
Bonferroni correction = 显著性水平(0.01/0.05)/检验次数(number of detected markers)
在实际情况中,当显著水平为0.01和0.05时,会检测到少量甚至没有显著位点,因此也会将显著水平提高到1,要根据实际情况进行调整。
引用转载请注明出处,如有错误敬请指出。