Yu JM, Pressoir G, Briggs WH, et al (2006) A unified mixed-model method for association mapping that accounts for multiple levels of relatedness. Nat Genet 38:203–208.
由于种群结构可能导致虚假关联,因此限制了人类和植物遗传学中关联研究的使用。然而,如果功能关联的真实信号可以与群体结构1,2产生的大量错误信号分离,则关联映射具有很大的希望。我们已经开发出一种统一的混合模型方法,可以通过随机遗传标记检测到同时考虑多个相关性水平。我们将这种新方法应用于两个样本:一个基于家庭的14个人类家庭样本,用于定量基因表达解剖,以及277个具有复杂家族关系和种群结构的不同玉米自交系样本,用于数量性状解剖。我们的方法比其他方法更好地控制了I型和II型错误率。由于这种新方法跨越了基于家系的关联样本和结构化关联样本之间的边界,因此它为当前可用的关联映射方法提供了强大的补充。
群体结构在生物体中是普遍的3,4。由于地理,自然选择或人工选择,它可以以畜群,殖民地,种族或其他类型的聚集形式自然产生。对于关联作图,给定样本可以属于由与当地适应相关的种群结构定义的五个类别之一或者来自最近的共同性的多样化选择和家族相关性(图1)。理想情况下,只要感兴趣的性状分布均匀(图1),具有最小种群结构或家族相关性(区域I)的样本就会产生最大的统计效力。然而,这些样品通常证明非常难以收集,尺寸小和/或具有窄的遗传基础。已经开发了基于家庭的样本(区域II)以避免种群结构的影响,但这些样本也受到样本大小和等位基因多样性的限制,并且难以收集,特别是对于晚发性人类疾病(图1) )。对于数量性状,定量传递不平衡检验(QTDT)是一种广泛用于与这些基于家族的样本的关联作图的方法7。物种增加的样本以及物种中更广泛的等位基因多样性通常包含种群结构(区域IV)或包括结构化种群内的家族关系(区域III;图1)。对于这些样品,结构化关联(SA)和基因组控制(GC)是人类和植物研究中常用的方法,用于控制由该种群结构引起的假阳性(I型错误)9?3。使用GC,随机标记用于估计和调整由种群结构产生的测试统计数据的膨胀,假设这种结构对所有基因座具有类似的影响。 SA分析使用随机标记来估计种群结构,然后将其纳入进一步的统计分析。然而,对于区域III中的样本,仅考虑种群结构可能导致对假阳性的控制不足或由于家族相关性导致的功率损失(图1)。在评估具有非常高水平的种群结构以及不同水平的家族相关性的样本时,哪些方法将被证明是最有用的还有待观察(区域V;图1)。
在本文中,我们提出了一种新的关联映射方法,适用于II区和III区的样本(图1)。对于基于家庭的样本,我们将我们的方法应用于来自14个中心d'Polyude du Polymorphisme Humain(CEPH)犹他州家系的永生化B细胞中基因表达水平的微阵列数据。在该研究中,六种基因表达表型被认为是绘制表达数量性状基因座(eQTL)的表型性状。对于含有复杂家族关系和种群结构的样本,我们检测了277种不同玉米自交系的三种数量性状,代表了世界公共育种计划中存在的多样性15。由于玉米是一种高度近交的物种,我们样本中主要亚群的种群分化(Fst)范围从0.047(SSR)到0.073(SNP),类似于最近的人类研究11(中国日本和Fst的Fst?0.013?大陆之间的比例为0.145)。当我们包括一个次要的瓶颈亚组时,总体Fst上升到0.106(SSR)和0.118(SNP)。
我们的关联作图方法整合了基因组工具,以发现种群结构和家族关系,这种传统的混合模型框架长期以来被动物遗传学家使用16?8。将混合模型方法应用于一些驯养动物物种之外的一个明显障碍是谱系记录通常是未知的或不准确的。基因组工具现在允许我们检测样本中的种群结构(Q)和相对亲缘关系(K)。基于标记的相对亲缘关系估计证明对不同人群的定量遗传研究有用19,20。该K估计通过调整两个个体之间的状态的同一性概率来通过下降来近似同一性,其中随机个体之间的状态具有平均身份概率。对于CEPH样本,我们用K矩阵替换传统混合模型中基于谱系的共同矩阵(G),以定义个体间遗传协方差的程度。没有检测到种群结构,并且Q不包括在混合模型分析中。对于玉米样本,我们将Q和K都放入混合模型中以考虑多个相关性水平。