我们经常使用多性状模型探索多个性状之间的遗传相关性。但是如果我们想知道几个性状之间的因果关系,就需要使用递归模型(也称为结构方程)来探索。如最近的文章:使用贝叶斯学习和基因组结构方程模型推断家禽肠道微生物群多样性和饲料效率特征的因果结构,结构方程模型可解开微生物群与复杂性状之间的生物学关系:以奶牛的甲烷生产为例
本研究基于其最近的综述来进行讲解。
摘要
- 结构方程模型(Recursive models)允许考虑 2 个或多个变量之间的因果关系,并可以假设变量之间的单向(递归模型;RM)或双向(联立模型)因果关系。
- 本综述评估了 RM 在动物育种中的特性以及如何解释遗传参数和相应的估计育种值。
- 在许多情况下,RM 和混合多特征模型 (MTM) 在统计上是等效的,尽管受到方差-协方差矩阵的假设以及为实现模型识别而施加的限制。 RM 下的推理需要对(协)方差矩阵或位置参数施加一些限制。 尽管生物学解释不同,但方差分量和育种值的估计可以从 RM 转换为 MTM。
- 在 MTM 中,育种值预测加性遗传效应对性状的全面影响,应用于育种目的。 相比之下,RM 育种值表示加性遗传效应,同时保持因果性状不变。
- RM 和 MTM 中加性遗传效应之间的差异可用于识别直接影响性状的加性遗传变异或因果介导另一个性状的基因组区域。
- 作者们还提出了 RM 的一些扩展,可用于使用替代假设对数量性状进行建模。 RM 和 MTM 的等价性可用于通过操纵 MTM 下的残差(协)方差矩阵来推断顺序表达性状的因果效应。
- RM 可以用来分析子组之间或独立性状参数空间内可能不同的性状之间的因果关系。RM 可以扩展为创建模型,在递归结构中引入某种程度的正则化,旨在估计大量递归参数。 最后,出于操作原因,在某些情况下可以使用 RM,尽管特征之间没有因果关系。
1 背景介绍
- 在数量遗传学和动物育种领域,Gianola 和 Sorensen (2004)第一个建议在混合模型领域使用结构方程模型,并提出了一种贝叶斯实现,通过马尔可夫链对结构参数后验分布的值进行采样蒙特卡罗方法。
动物育种中的递归模型
其中b是固定效应向量,y i、u i和e i是表型测量、加性遗传效应和与第 i 个多元记录相关的 m 个性状残差的 m × 1 向量,X i是其相应的发生率矩阵。Λ是一个 m × m 的递归参数矩阵,对角线上有 1,并减去对角线下方部分或全部元素中第 i 个特征对第 j 个特征的递归影响
其实际上可以多性状模型转换,如果两边都乘以λ。
2 证明
一个例子说明
使递归模型可识别的唯一方法是(1)对(协)方差矩阵施加约束(场景 a),或(2)具有仅通过自变量影响依赖特征的工具辅助变量(场景C)。辅助变量的识别需要找到一个系统效应或一个协变量(用混合模型的术语来说),它解释了独立特征中很大一部分变异,并仅通过递归关系影响依赖特征
例如,产奶量与开放天数存在遗传相关性,并且具有递归效应,因为泌乳期能量需求高的奶牛可能会出现能量负平衡,从而损害生殖功能。在这种情况下,饲料的能量构成可以作为辅助变量。日粮中的能量 (z) 影响奶量 (y1 )一头牛生产;然而,在没有泌乳的情况下,只要满足最低饲料需求,繁殖性能(y 2 ) 预计就会正常。因此,日粮中的能量 (z) 会影响产奶量 (y 1 ),而不是繁殖性能 (y 2 ),但高水平的 y 1会损害 y 2。
3 递归参数:解释和含义
在 RM 中,递归参数 λ 1→2是性状 y 1每个变化单位的预期性状 y 2变化,这会影响其他重要参数,例如遗传力和遗传相关性。让我们假设一个简单的递归模型,它有 2 个特征
4育种价值:解释
尽管 MTM 和 RM 在统计上可能是等效的,但它们的解释却截然不同。
混合多性状模型假设性状的遗传效应和残留效应是相关的,并且是由多效性或连锁不平衡引起的QTL(遗传相关)和常见环境效应(残差相关)之间的关系。
相比之下,RM 假设某些性状对其他性状存在因果和单向影响,这会影响性状之间的遗传和残差协方差,但并不完全由常见的遗传或环境影响决定。
在 RM 中,依赖性状的育种价值必须被理解为直接作用于性状的基因的效应,而不是通过另一个性状的表型影响来间接影响。
相比之下,在 MTM 中,育种值反映了基因对性状的整体加性效应,即使它们直接或间接影响最终的表型。
例子
占主导地位或更具攻击性的奶牛可能比顺从的奶牛产更多的牛奶。占主导地位的奶牛可能会获得更多的饲料,从而排挤那些可能吃得更少、产奶量更少的顺从奶牛。
因此,即使影响这两个性状的基因之间不存在多效性或LD(零遗传相关性),攻击性也可以对产奶量产生积极的递归影响。
在MTM中,产奶量的育种值包括与攻击性和产奶量相关的加性遗传效应,而在RM中,它们仅包括产奶量的加性遗传效应,而不包括攻击性的影响。
- 出于实际目的,在以增加(或减少)依赖性状表型平均值为目标的育种方案中,应使用 MTM 生成的育种值。
Valente 等人将归纳因果关系 (IC) 算法(2009)适应混合模型的范围。Pearl(2010)是用于推断一组表型性状内因果结构的最广泛使用的算法。简单来说,IC算法有以下3个步骤:
1.对于每对特征(y 1和 y 2),搜索一组特征,使得 y 1独立于 y 2,给定该组。如果 y 1和 y 2在每个可能的集合中是相关的,则它们被声明为相邻的并且由无向边连接。
2.如果 2 个不相邻变量(y 1和 y 2)连接到额外相邻变量 (y 3 ),并且对于包含 y 3的所有变量集不独立,则通过有向边将 y 3连接到 y 1和 y 2。结果是具有有向边和无向边的部分有向图。
3.将尽可能多的无向边更改为有向边,以避免生成新的碰撞体或循环。
5 动物育种中的递归模型使用
递归模型最初是基于所有特征具有连续分布的假设而制定的;然而,在动物育种中,感兴趣的性状是分类的并且具有 2 个或更多可能的输出是很常见的。对于这些类型的性状,使用阈值模型( Gianola,1982)或假设残差非高斯分布的模型(Tempelman 和 Gianola,1993;Varona 和 Sorensen,2010 )。
6 递归模型的扩展
- RM 的(协)方差分量和递归参数的推理结果可以转换为 MTM 的结果。
- 相反,在相反的方向上,随着参数数量的增加,(协)方差分量和递归参数的组合有无限多种,并且不能直接进行变换。然而,在某些场景和某些特定限制下,MTM 和 RM 的统计等价性可用于从R * 和G *的估计中获取 RM 中的递归参数和(协)方差分量( R和G )在 MTM 中实现。
6.1 完全递归性。
在这种情况下,假设R是对角线,通过将自变量固定在因变量之前来对特征进行排序,并且每个前面的特征对所有后续特征都有因果影响(即Λ在对角线下方没有任何零元素) 。
该方法的一个重要优点是,它可以与缺少信息的数据集一起使用,即,当给定个体只有某些特征可用而其余特征缺失时。
6.2 顺序场景中的递归性
可以从 MTM 的输出推断出的更复杂的情况是按顺序记录特征的场景。
假设我们评估 n+m 个特征,这些特征被分为 2 个组,在 2 个不同时间表达(n 个特征在时间 A 和 m 个特征在时间 B)。一个可能的假设是,第一次 (A) 的 n 个性状对 B 时间的 m 个性状有因果影响(见图4),并且两者之间不存在共同创始人(即,残差协方差等于 0)。不同群体的特征。
6.3 简约递归模型
递归模型假设独立特征可以通过因果效应与依赖特征相关,而因果效应由一组必须推断的递归参数控制。
6.4 异质因果结构
果存在群体分层,亚群体之间的表型因果关系可能会有所不同。在这种情况下,可以重新制定 RM 来确定特征之间的替代因果关系。阶层可能是已知的(例如,男性或女性)或未知的(例如,健康的或患病的)个体类别。在已知分层的情况下,使用标准 REML 或贝叶斯方法可以直接使用 RM,但与 MTM 的等价性不再成立,因为 MTM 中的协方差结构在子群体之间有所不同。如果亚群中个体的分布未知
6.5 特征之间的非线性关系
MTM 和 RM 的传统定义意味着特质之间存在线性关系;然而,性状之间的因果关系或非因果关系可能是非线性的。
6.6 递归模型作为操作工具
递归(或结构方程)模型已被开发来描述变量(或特征)之间的因果关系;然而,即使特征之间没有因果关系,RM 出于操作原因也可能很有用,因为它们在计算要求、收敛特性或估计稳定性方面可能比 MTM 表现更好。
- RM 的另一个操作应用程序已开发用于分析剩余饲料摄入量(Koch 等,1963),这是评估牲畜群体饲料效率的最常用方法之一。
7 结论
近几十年来,RM 在动物育种中越来越受欢迎。定量遗传分析下两个性状之间的递归性意味着遗传参数(例如依赖性状的遗传力或遗传相关性)受到独立性状的遗传变异性和两个性状之间的递归效应的影响。此外,必须指出的是,如果决定这种非遗传因果关系的环境条件发生改变,则 MTM 下的遗传力和相关性估计可能会发生变化。
方差分量和育种值的估计可以从 RM 转换为 MTM,但生物学解释不同。在 MTM 中,育种值预测基因对性状的完整影响,并且这些值应用于选择,而在 RM 中,育种值反映了加性遗传效应,同时保持因果性状不变。如果 2 个(或更多)性状之间存在递归效应,则最好在 RM 框架中考虑它,以便更可靠地预测育种值。
RM 的实施允许将育种值以及遗传方差和协方差分解为直接效应和间接效应。它确保对直接和相关响应进行更深入的解释主要是在非线性递归效应下,或者当递归效应与加性遗传协方差方向相反时。此外,RM 可以更全面地了解遗传效应在整个基因组中的分布。
- (1)可以调用 RM 和 MTM 的统计等价性来从 MTM 估计中获得递归关系的估计
- (2)RM 可以扩展到描述特征之间更复杂的关系,包括异构因果结构和特征之间的非线性关系
-(3)RM可以扩展到在递归结构中引入某种程度的正则化的模型,旨在估计大量递归参数 - (4)RM可以用于操作原因,因为它们尽管特征之间没有因果关系,但实现起来很简单。
8 附录-三个性状MTM的方差组分转为RM的方差组分例子
三个时间点的关系图如下:
以下是推导过程:思路是先解出时间1对2和3的影响,再分解出时间1对3的影响。
因此,时间 1 记录的性状与时间 2 记录的性状之间的递归效应为 0.143,时间 1 记录的性状与时间 3 记录的性状之间的递归效应为 0.033,时间 2 记录的性状与记录的性状之间的递归效应为 0.033。在时间 3 处为 0.133。
9 本人补充
一些研究应用了MTM-GWAS(相比于单性状动物模型-GWAS),但是它没有考虑网络结构的存在。相比之下,RM(or SEM)-GWAS 是一种有效方法,可将 SNP 对特定性状的影响分解为直接影响和由性状介导的影响,这些影响可以根据推断的结构视为预测因子。
例子文章:用于揭示奶牛乳蛋白多变量基因组结构的结构方程模型
实现软件: WOMBAT