定义未知亲本组(UPG)工具—利于联合育种

image.png

文章中图4. Jersey 牛 Ketosis 估计遗传趋势。

背景：

未知亲本组（UPG）根据产地（国家，品种）、年份和选择途径对缺失的亲本关系进行建模（注：我国动物系谱记录也有待加强，当然对于猪联合遗传育种这个更需要定义）。遗传评估需要合理的规则来定义未知亲本组，以确保准确估计并避免跨品种或年份比较动物的偏差。随着评估的复杂化，需要系统规则来形成未知亲本组。

提出了一种策略来衡量信息，压缩和重新定义跨年份的未知亲本组，并最终评估未知亲本组估计的精度。这些工具将有助于估计更准确、偏差更小的育种值。

首先，可以通过谱系和记录中的动物列表轻松计算出伪计数基于有记录后代记录，方法是将标记的动物通过谱系从最年轻到最年长传播到祖先。
然后提出了 2 条规则，一条规则向前连接未知亲本组直到记录出现（PS：即所有具有记录以前的所有UPG可以为并为一个），第二条规则向后连接连续的未知亲本组以实现最小伪计数（PS:即自己设定阈值，超过这个记录）。
最后，一个简化的模型估计了未知亲本组对比的精度。

-1. 获得每个 UPG 的伪记录数
基于三个假设(（1）忽略V中的协方差结构，即谱系或基因组关系；（2）有记录的动物只有一条记录；（3） Xb中的当代群体和其他效应不会“损害” UPG 估计)后，一个近似模型：

image.png

每个UPG的伪记录计数的简单计算方法是获取Q的c=1'Q, 但是其可以不是设置Q*的情况下得出c，
具体的Fortran代码（附件，下面链接）：https://figshare.com/articles/software/APPENDIX_to_TOOLS_TO_REFINE_UNKNOWN_PARENT_GROUPS_DEFINITION/27312141?file=50019468

-3. UPG 解的计算精度
需要解除： ( Q *′ V −1 Q ) ^−1，这里首先要有Q，才能能到Q, 这其中涉及到Q+（计算过程可以在上述附件中看到Julia代码）

产量（牛奶、脂肪和蛋白质产量）
健康状况（低钙血症、皱胃露胃、酮症、临床乳腺炎、子宫炎和胎盘滞留）
有关更详细的描述，请参阅https://uscdcb.com/individual-traits/
使用多性状模型分别分析每个性状组，因此 UPG 的定义在性状组内是相同的，但在不同性状组之间可能不同

在 CDCB，UPG 最初是在包含数据库中所有动物的大型谱系中分配的。UPG 是根据动物的品种、途径（根据品种有 1 到 5 种不同的途径）和出生年份（最早的年份是 1900 年）为整个谱系定义的。

image.png

Tools to refine unknown parent groups definition. A. Legarra and∙ I. Aguilar.