文献
2018
Genome Biology
DNA methylation footprints during soybean domestication and improvement
主要作者与课题背景
本文的通讯作者是中科院遗传所的田志喜老师,他的研究方向是大豆功能基因组,利用基因组学、分子遗传学、系统进化生物学等多组学联合的分析方法,对影响大豆产量、品质等重要农艺性状的网络调控系统进行解析,揭示 调控大豆器官发生、种子发育、植株形态建成 以及品质形成的内在机制,并致力于培育高产优质大豆新品种。
文章的背景部分简单讲就是DNA甲基化变异 是作物驯化和改良中除遗传变异之外的人工选择的重要组成部分,因此在作物育种和农业中研究它也是至关重要的。
结论1 大豆驯化和改良过程中的差异甲基化区域
Fig 1a
Fig 1b
作者收集了45份大豆材料,其中包括9份野生种,12份地方种和24份栽培种,对这些材料做了全基因组甲基化测序(Fig 1a-b)。DNA甲基化的数据比对率一般都不是太高。和参考基因组相比,每一种大豆都或多或少的存在一些SNP,为了排除这些SNP对比对率的影响,作者也对这45份材料做了重测序,比对到同一版基因组call了SNP,然后把这些SNP替换了原基因组的响应碱基,也就是说对每一种大豆都生成了一个伪参考基因组。
Fig 2a
Fig 2b
把每一份甲基化测序的数据比对到各自的伪参考基因组后,然后对驯化和改良两个过程分别call 差异甲基化区域。驯化过程就是9份野生种和12份地方种一起call,改良过程就是12份地方种和24份栽培种一起call。通过Fig 2a可以看出,在驯化过程有更多的差异甲基化区域,并且CG有更多的差异,CHH差异很小。
Fig 2b圈图展示了驯化和改良过程存在的DMR以及之前他们鉴定到的驯化和改良中的受选择区域DSR的分布。与DSR相比,DMR分布更均匀。
Fig 2c-d
Fig 2c对这些DMR和DSR做了注释,发现与参考基因组的control相比,DMR占更多的基因间区,DSR占更多的转座子区。
Fig 2d统计了四种区域的平均长度,发现DMR的平均长度明显短于DSR,两种DMR以及两种DSR之间的平均长度没有明显差异。
结论2 差异甲基化区域有更高的遗传多样性
Fig 2e
作者把全基因组划分成三种区间,DMR是差异甲基化区域,DSR是受选择区域,以及两者之外的所有区域称为NSR,然后统计了三者的核苷酸多样性,由于不同的基因组元件会对pi有较大影响,所以在这里是每个区域划分成外显子-内含子-转座子以及基因间区统计的。无论是哪一种,都看到了一个一致的趋势,DMR的核苷酸多样性最高,受选择区最低(Fig 2e)。
Fig S4
之前的研究发现,DNA甲基化的改变会影响突变率,所以DMR的核苷酸多样性更高可能是甲基化水平改变的结果。为了验证这个观点,作者把驯化和改良中鉴定到的DMR分成increase和decrease,比如驯化过程的increase就是地方种比野生种高甲基化的那些区域。
如果突变率可能受到甲基化水平升高或降低的影响,那么应该在群体中看到核苷酸多样性的上升和下降趋势与甲基化的上升和下降存在某种一致性,但是通过Fig S4可以看到无论哪种情况都是一个混合模式,就是既有升高的,又有降低的,还有不变的,没有一个一致的变化。
Fig 2f
进一步作者对全基因组划分500bp的bin,然后统计这些bin的甲基化改变的绝对值(Fig 2f)。改变绝对值大于0.4的分成一组,就是图中这些High MVW,改变绝对值小于0.4的分成一组,就是图中这些Low MVW,统计了它们的pi值,发现甲基化差异更大的一组,核苷酸多样性普遍高,作者在这里得出结论较高的遗传多样性可能是甲基化变异较高区域的固有特征。
结论3 不同类型差异甲基化区域的特征
Fig 3a
Fig S7a-b
作者对驯化和改良过程中的DMR做了韦恩图(Fig 3a),发现CG-DMR和CHG-DMR有较大比例的重合,与CHH-DMR有很小的重合。根据CG和CHG DMR的重合情况,作者进一步把这些DMR分成 unique CG DMR –unique CHG DMR 和overlap CG-CHG DMR,Fig S7a-b 散点图统计了overlap CG-CHG DMR的CG甲基化差异和CHG 甲基化差异的关系,存在一个很强的正相关,作者推测overlap CG-CHG DMR区域的CG和CHG甲基化可能以某种方式共同进化。
Fig 3b
Fig 3c
作者还对每种DMR做了注释,发现CHH DMR更倾向出现在转座子区域,CG和CHG DMR 更倾向出现在基因间区(Fig 3b),并且CHH DMR的平均长度更短(Fig 3c)。
Fig 3d
前面都是在探讨CHH-DMR和CG以及CHG-DMR的不同,第二部分作者观察到DMR区域和受选择区域以及其他区域相比,核苷酸多样性更大。所以在这里作者还想看下CHH DMR和CG以及CHG DMR的核苷酸多样性有何不同,发现CHH DMR有着最高的核苷酸多样性(Fig 3d)。
结论4 遗传变异导致的差异甲基化
这篇文章的核心是作者想找一些与遗传无关的,纯的表观差异基因。前面鉴定到的DMR其实有很大一部分是与遗传因素有关的,为了排除这些干扰,作者考虑了转座子的插入和缺失变异、SNP以及24nt siRNA的表达变异三方面的因素。把这些遗传因素排除,剩下的才是纯的表观差异。
(1)SNP
根据前面call到的SNP,在驯化和改良过程中一共确定了779个DMR与SNP相关。
(2)siRNA的影响
Fig 4b
作者对甲基化测序的材料也是测了小RNA,然后计算了两个亚群间的siRNA的表达差异,存在siRNA表达差异的区域和DMR做一个关联,这些关联到的区域就被定义为与siRNA表达改变相关的差异甲基化区域。一共鉴定到412个与siRNA改变相关的DMR。这个拟合图展示的就是这些区域甲基化水平改变和siRNA表达改变的相关性,可以看到两者存在一个明显的正相关。
(3)TE的插入/缺失变异
Fig 4c
作者在这45份材料中鉴定到5000多个转座子变异,没有区分插入和缺失,然后看了邻近的甲基化水平,发现TE变异对更近的甲基环影响更明显,随着距离的增加有一个衰减。
Fig 4d
综上,与siRNA表达、TE变异和局部SNPs的关联分析可以解释1370个DMR的甲基化变异,占DMR总数的22.54%,并且这些与遗传变异相关的DMR大多是CG-DMR和CHG-DMR.
结论5 纯表观因素导致的差异甲基化显著影响了碳水化合物代谢
文章的最后一部分,对这些DMR涉及的基因做了功能富集分析。
首先在这里需要明确两个概念,纯的DMR是指前面call 到的所有DMR去除 与SNP有关的,去除与TE变异有关的,去除与siRNA表达有关的。其中纯的DMR最典型的有CG和CHG 两种,它们根据overlap又可以细分成纯的仅CG DMR-纯的仅CHG DMR和纯的CG和CHG overlap的DMR;
纯的表观等位基因是指 被那些纯的DMR overlap的基因。
整体来看,驯化过程中的DMR影响的基因可以富集到结果;改良过程富集不到。
纯的仅CG DMR和纯的CG和CHG 共同的DMR可富集到结果,其他纯的DMR富集不到结果。
Fig 5a
KEGG分析表明,驯化过程中与“纯CG-DMRs”重叠的基因在17条通路上富集,其中13条通路与新陈代谢相关,Fig 5a 中带星号的六条都是与糖类代谢相关的通路。
Fig 5b
62个“纯的驯化过程中的CG-DMR重叠基因分布在这些碳水化合物代谢过程中(Fig 5b)。
并且发现了图中的黑色数字六种酶,包括己糖激酶、磷酸果糖激酶、丙酮酸激酶等,已被报道在糖酵解/糖异生、戊糖磷酸途径和丙酮酸代谢中起关键作用,这些都是碳水化合物代谢的中心途径。
Fig 5c
并且编码这6种酶的基因均在“纯Dos_CG-DMRs”中发现,其中4种显著富集(Fig 5c)。
总结
这篇文章的结论主要有两个,首先是发现了驯化和改良过程中的差异甲基化区域有着明显不同于受选择区域的特征,然后排除了三种遗传因素看那些纯的表观因素,发现纯的CG DMR影响的基因显著富集到糖类代谢的通路。
第一次看完这篇文章的时候我在想这篇文章做的其实很简单,没有看到很惊艳的点。
但是后面再仔细想对于这样一篇纯生信没有任何实验的文章,同样是有很多值得学习的地方。从文章思路上上非常连贯明确,分析上确实也已经做的已经很不错了,作者做了非常丰富的分析,包括重测序数据call SNP、核苷酸多样性的计算,伪参考基因组的生成,群体差异甲基化区域的鉴定,受选择区域分析,小RNA分析,转座子变异分析以及最重要的DMR影响的基因富集分析。
而且它的一个亮点就是排除了各种遗传因素,真正从纯表观的水平去看这些纯表观到底造成了哪些影响,最后富集的糖类代谢通路也很典型,并且也是非常符合驯化的过程,能够提醒我们表观遗传在驯化中真的是有极其重要的作用,影响这么重要的性状和通路。
本文使用 文章同步助手 同步