已经有的结论:
1.我已经分别计算出了部分个体建立配对后预测ROH相交区域产生后代的基因型并计算预测后代基因型能否进一步生成ROH(即计算了亲代ROH的固定和消除)。因为亲代中在计算ROH时会有固定数量的杂合子误差,我们别取了两个极端状况,即所有的杂合子在下一代均会形成纯合子0/0或者1/1,或者杂合子在下一代中均会形成杂合子0/1,这两种情况对预测后代ROH生成的影响。结果显示影响差异很小。但是我没有用图来证明这种小差异;
2.我已经得到了,根据配对相交区域产生的预测后代的ROH,分别计算了亲代ROH的固定和消除比例,比例体现在ROH固定和消除的数量占比,以及ROH固定和消除的基因组长度占比。我发现数量和长度占比之间相关性非常强,R2值为99%,这不能说明什么问题。这个相关性没什么意义,比如说一个预测后代它有60%数量的ROH固定了,那么固定的总长度肯定更长。这毫无疑问。但是我同样想到了一个点去进行不同预测后代的ROH数量和长度的比对。
3.不同配对的ROH的相交ROH区域总长度不同,因此产生了一个问题,我该怎么用我得到的预测后代的长度和数量数据去分析问题,判断这些配对方案的好坏。
根据我有的结论我要去解决哪些问题。
1.我要用图来证明已有结论中0/0和0/1的数据差异很小。在两种极端状态下,我的分析没什么变化,所以我可以选择任意一种极端状态就能反应相对真实的情况。
2.我开始以为亲代ROH的交集没有下一代保留和消除的说法,但通过分析我发现了这两种情况,我本来想着要去计算预测后代ROH的消除和保留的比例,但是消除是本身一定会进行消除的,只是我们之前没有客观的认识消除的概念。所以我们要计算ROH在后代中的体现,就应该将ROH的消除从亲代ROH的交集中删除,只保留ROH的保留。我们可以直接计算预测后代中ROH的保留长度占整个基因组的比例。这个值可以作为一个评估指标。
我同时想对这个长度指标进一步展开,我进一步追求的目标是更多更短的ROH,比如说,当两种配对方案共有ROH保留的长度占基因组的比例相同时,那么我可能会加上数量指标。因为相同长度下,ROH数量越多,那么对应的单个ROH的数量肯定越短。我们不期望基因组中有更多长的ROH,所以这种数量多的短ROH是我们追求的目标。
3.我要建立一种ROH前端分析和后端分析制定配对方案的流程。首先我为个体制定配对方案的时候我应该评估个体之间的亲缘系数,找到亲缘系数较远的配对方案,然后再评估个体之间的杂合度,找到杂合程度高的配对选择(打分),在进一步评估个体的近交系数(打分),然后再对ROH进行细化,这就要将配对之间共有的ROH筛选出来,然后评估后代中ROH可能得保留情况(这就是那个保留ROH在基因组中的占比),有了这个占比以后,我还能再进一步得到这些保留的ROH的数量和长度情况,我们追求的是单个ROH更短,数量多无所谓。将每一步建立一个打分机制,最终汇总得分,那么就能找到最优的配对方案。这是利用ROH进行配对方案制定的初步完整流程。