文章中图4. Jersey 牛 Ketosis 估计遗传趋势。
背景:
未知亲本组(UPG)根据产地(国家,品种)、年份和选择途径对缺失的亲本关系进行建模(注:我国动物系谱记录也有待加强, 当然对于猪联合遗传育种这个更需要定义)。遗传评估需要合理的规则来定义未知亲本组,以确保准确估计并避免跨品种或年份比较动物的偏差。随着评估的复杂化,需要系统规则来形成未知亲本组。
解决方法
提出了一种策略来衡量信息,压缩和重新定义跨年份的未知亲本组,并最终评估未知亲本组估计的精度。这些工具将有助于估计更准确、偏差更小的育种值。
- 首先,可以通过谱系和记录中的动物列表轻松计算出伪计数基于有记录后代记录,方法是将标记的动物通过谱系从最年轻到最年长传播到祖先。
- 然后提出了 2 条规则,一条规则向前连接未知亲本组直到记录出现(PS:即所有具有记录以前的所有UPG可以为并为一个),第二条规则向后连接连续的未知亲本组以实现最小伪计数(PS:即自己设定阈值,超过这个记录)。
- 最后,一个简化的模型估计了未知亲本组对比的精度。
结果
即使对于非常大的数据集,计算也是可行的。
作者们用 2 个来自美国所有品种ABLUP 产量和健康性状评估的例子来说明。
对于产量性状,伪记录的数量非常高,加入未知亲本组主要发生在小型品种中。加入与否都会产生非常相似的估计育种值和遗传趋势,不会产生任何影响。
对于健康性状,加入未知亲本组适用于所有品种,小型品种的加入更多。对于某些性状-品种组合,加入或不加入 UPG 会导致完全不同的遗传趋势和估计育种值。
所有成对未知亲本组的近似对比表明,加入UPG策略可以实现更高的精度,即标准误差更低。
细节
计算步骤
-1. 获得每个 UPG 的伪记录数
基于三个假设((1)忽略V中的协方差结构,即谱系或基因组关系;(2)有记录的动物只有一条记录;(3) Xb中的当代群体和其他效应不会“损害” UPG 估计)后,一个近似模型:
每个UPG的伪记录计数的简单计算方法是获取Q的c=1'Q, 但是其可以不是设置Q*的情况下得出c,
具体的Fortran代码(附件,下面链接):https://figshare.com/articles/software/APPENDIX_to_TOOLS_TO_REFINE_UNKNOWN_PARENT_GROUPS_DEFINITION/27312141?file=50019468
- 2.a 根据伪计数按时间向后连接 UPG(计算每个UPG的伪计数,设定阈值,再合并不满足阈值的UPG分组)
- 2.b 根据首次录制的日期及时加入 UPG: 合并那些出生年份早于记录开始的群体
-3. UPG 解的计算精度
需要解除: ( Q *′ V −1 Q ) ^−1, 这里首先要有Q,才能能到Q, 这其中涉及到Q+(计算过程可以在上述附件中看到Julia代码)
-
衡量精度的指标:
对于两个不同的 UPG,例如i和j,比率(下图)是估计误差的渐近相关性。负值(例如 -0.9)表示两个 UPG 是混杂的,因为它们的总和在记录中是混杂的。且它表明各个 UPG 可能合并
image.png
另一个诊断方法是两个或多个 UPG 之间的对比方差
另一个有趣的对比是全品种评估中的品种对比。
最后一个测量是元创始人的准确性
-
实际使用的2 个性状组
- 产量(牛奶、脂肪和蛋白质产量)
- 健康状况(低钙血症、皱胃露胃、酮症、临床乳腺炎、子宫炎和胎盘滞留)
有关更详细的描述,请参阅https://uscdcb.com/individual-traits/
使用多性状模型分别分析每个性状组,因此 UPG 的定义在性状组内是相同的,但在不同性状组之间可能不同
在 CDCB,UPG 最初是在包含数据库中所有动物的大型谱系中分配的。UPG 是根据动物的品种、途径(根据品种有 1 到 5 种不同的途径)和出生年份(最早的年份是 1900 年)为整个谱系定义的。
展示对系谱需要进行的一些统计查看
参考文献
Tools to refine unknown parent groups definition. A. Legarra and∙ I. Aguilar.