文献
2022
Cell
The Chinese pine genome and methylome unveil key features of conifer evolution
研究背景
油松是我国特有的树种,属于松科松属,广泛分布在我国各个省市区,也称为中国松。
油松属于针叶树,针叶树是全球森林系统的骨干组成部分。过去针叶树的研究一直集中在瑞典主导的挪威云杉上,原因也很明确,挪威云杉是第一个完成测序的针叶树种,它的基因组有20G。类似的,针叶树的基因组其实都很大,一直没有新的针叶树种基因组被组装出来。直到这篇文章,把油松的基因组给组装了出来,而且组装的质量非常高,注释完整而且可靠。
结论1 基因组组装及注释
Fig 1a
首先文章的第一部分是完成了油松庞大基因组的染色体水平的组装。作者先是通过显微镜确定了它的核型(Fig 1a),油松有12对染色体,其中20条较长,4条较短。通过k-mer和流式的评估,整个单倍型基因组的大小在25.6到25.7G左右。
Fig 1b-c
用PacBio数据组装得到了25.4G的基因组,它的contig N50达到了2.6M。然后利用122×的Hi-C数据挂载到染色体,共24.4G被挂载到12条染色体上,Scaffold N50达到了2.1G(Fig 1b)。
在油松的基因组发布之前,已经有14种裸子植物的基因组被组装出来,c图种这些竖杠代表它们的基因组大小,括号里是它们各自的Scaffold N50,可以看到油松的组装质量远远超过了以往组装的所有裸子植物基因组(Fig 1c)。
Fig 1e
Fig 1f
为了进一步检验组装的质量,作者测量了6个体细胞的12组染色体的相对物理长度,e的结果可以看到,所有染色体的组装长度与观察到的物理长度一致,说明组装上没有明显错误,这12条染色体的长度在1.4到2.4G之间,每条染色体的gap在828到1638个之间,对于这么大的基因组,完整性已经非常好。
对于大基因组正确的组装不是最难的,更困难的是如何尽可能完整而且正确的注释基因结构。
基因结构的注释一般有这三种:
(1)从头注释:通过已有的概率模型来预测基因结构,这种方法在预测剪切位点和UTR区准确性较低。
(2)同源预测:有一些基因序列或者说蛋白序列在相近物种间的保守程度较高,所以可以利用已有的高质量近缘物种注释信息辅助注释。
(3)基于转录组:通过物种的RNA-seq数据辅助注释,这种方法可以较为准确的 确定剪切位点和外显子区域。
对于这种大基因组,从头预测的BUSCO评分非常低,而且近缘物种挪威云杉的基因组质量非常差,利用近缘物种进行同源预测也得不到很好的结果。所以作者在这里用到了大量的二代短读长的转录组数据。从不同时期的11个组织和器官采集了760份转录组数据,然后利用这些转录组数据做注释,最终注释到了80,495个基因和144,584个转录本,这些数字远远多于被子植物中的基因。
结论2 基因组的局部特征
Fig 2a
Fig 2c
文章的第二个大部分作者对油松基因组的局部特征进行了深入研究。
首先作者发现油松的基因具有又多又长的内含子。作者拿油松的基因组和67个种子植物的基因组做了对比,发现它们的外显子长度是类似的,平均是200-300bp,但是内含子长度的差异非常大,在一般的种子植物中,内含子长度大于20kb的基本没有,但是油松中有两万五千多个长度大于20kb的,约占油松全部内含子的15%,油松平均的内含子长度是10kb,其他的种子植物一般也就是0.5kb
Fig 2a中作者发现内含子与外显子长度的比值与基因组的大小正相关,说明基因组的扩张不仅是发生在基因间区,也会发生在基因的内部。
为了避免这种超长内含子的基因是由于错误注释产生的,作者重新用长读长的转录组做了检测,发现那些20kb以上的基因大多数都能由长读长的reads所验证(Fig 2c),说明注释是可靠的。
Fig 2d
作者选择了最长的10个基因,这10个基因的全长都大于500kb,但是都有可靠的长读长转录组的reads支持这些基因的存在(Fig 2d)。左边是这10个基因在油松中的基因的特征,注意CDS是1kb,相同长度的Intron是100kb,右边是在拟南芥中10个基因的直系同源基因。可以发现油松和拟南芥中这10个基因的外显子长度是类似的,但是内含子长度油松是拟南芥的100倍。
Fig 2e
Fig 2f
内含子如此长,相对而言外显子如此小,那么在转录的时候就好像在内含子的海洋中找外显子的小岛,所以说按照正常的想法如此长的内含子会对转录造成非常不好的影响。然而作者对所有基因按照内含子长度分类,看了它们的转录水平,发现越长的基因,也就是那些内含子越长的基因,它们的转录比内含子更短的基因更活跃。这似乎完全颠覆了我们的认知!
但是仔细想想这里有一个潜在的问题,就像幸存者偏差,作者注释这些基因完全是基于转录组来的,那么理论上说更长的基因被mapping到的reads越多。换句话说,越长的基因越容易被注释到,而那些低表达的或者是短的基因被注释到的概率就越小。所以是不是这种偏差导致了我们看到内含子越长表达越高这个现象呢?作者根据BUSCO评估,仅仅保留了那些在BUSCO里面能对应到的完整的基因,没有对应到的基因无论长短全部抛弃。这样剩下的这些基因 是高度可信 并且是在其他物种中 保守存在的 完整基因,而且BUSCO内置的这些基因是与长度无关的。
单看剩下的这些基因的转录,得到的结果和前面一致——有内含子的表达高于没有内含子的,长内含子的大于短内含子的,带有转座子的基因表达高于不带转座子的,长基因表达高于短基因,这个就很有意思了,总而言之只要让这个基因变长,就能让它转录更高。Fig 2f显示了两个影响基因表达最明显的因素,一个是基因的长度,一个是内含子的数量,基因越长,内含子越多,基因的转录就越活跃。
针对这个现象,作者提出了一个模型来解释。
我们知道染色质开放性或者说可及性与基因表达密切相关,因为开放的染色质的更容易被转录因子结合,促进转录起始或者表达上调,一般而言那些高表达的基因染色质开放性或者可及性越高。所以说作者推测在油松基因组变大的过程中,这些开放的染色质更容易被转座子插进去,转座子的插入造成了包含更长更多内含子的基因产生,所以说在现在我们可以观察到那些高表达的基因更长,具有更多更长的内含子。
但是这个模型只是根据油松中观察到的结果提出的一种可能,真实性很难验证
Fig S2f
随之而来又有一个问题,在转录的时候是怎样在广袤的内含子海洋中准确的找到渺小的外显子小岛的?这时候作者引入了甲基化数据,发现在这十个最长的基因上甲基化水平有一个很明显的现象就是外显子倾向低甲基化,而内含子往往是高甲基化,CHG甲基化尤为明显(Fig S2f),作者推测可能正是这种甲基化水平的急剧下降让超长基因在转录时可以区分内含子和外显子。而且这个发现也和刚刚提出的模型比较契合,因为转座子具有更高水平的甲基化。
结论3 基因组的整体特征
Fig S5a
第三部分,作者用一个更大的角度去描述油松基因组。
首先从整体上看油松的基因组重复序列和甲基化水平很高,三种甲基化分别达到了88.4%, 81.6%和 2.0%,特别是CG和CHG甲基化远高于常见物种,甲基化的含量与重复序列的含量明显的正相关,在这12条染色体上每一条都显示出这种特点(Fig S5a)。
Fig 5a-b
为了研究TE对基因区域甲基化的影响,作者将TE插入内含子的基因称为TE基因。发现携带TE基因区域 的甲基化水平 比不携带TE基因区域 的甲基化水平高得多,但在TSS和TES区域的甲基化水平始终保持在同等的低水平。
根据基因的表达水平将基因分成六组,可以发现甲基化和表达之间存在明显的负相关,这种负相关在近端的上游和下游区域更为明显。
和玉米类似,油松如此庞大的基因组绝大多数(70%以上)都是重复序列,其中绝大多数是转座子,我们知道转座子来源于一种古病毒,它对基因组是非常有害的,所以油松依赖这些高水平的甲基化去抑制这些转座子的活性。
面对如此大的基因组,很容易想到几个问题——油松的基因组是一直这么大吗?油松的基因组是从什么时候开始变得这么大?油松的基因组还会继续变大吗?因为组装这个庞大基因组的大多数是重复序列,其中占比更大的是LTR,大概占了整个基因组的60%,所以下面作者对LTR展开了具体的分析。
Fig 5d
Fig 5e
首先作者展示了LTR的插入时间,发现大多数LTR是近期插入的。而且通过对LTR中两个最大的家族进行系统发育分析,发现了许多物种特异性分支,说明LTR的扩增是在物种形成之后近期发生的,也就是说是在近期由于LTR的插入才导致油松基因组逐渐膨胀。
在植物中,一般是通过不均等的重组去除LTR,作者评估了油松中LTR的去除速率,发现远远低于毛果杨、拟南芥等物种。换句话说,在油松中LTR一旦积累很难去除。就像往水缸里放水,我们把出口堵住了,那么水缸会一直积累进来的水,直到满了然后溢出。油松的基因组正在朝着变大的趋势发展,它会越来越大越来越胖,这种变大是一种单程的旅行,现在已知最大的基因组是重楼百合,大概是150G,所以说油松基因组变胖还有很大的空间。
结论4 针叶树的适应性进化
Fig S1f
第四部分,作者研究油松对环境的适应。全基因组复制事件在被子植物适应性进化中起着关键作用,往往在那些比较恶劣的环境下,植物会来一次全基因组加倍,然后把那些抗逆的基因保留下来帮助自己更好的度过难关。油松对环境的适应毋庸置疑,在许多高海拔、严寒的地域都能看到油松。所以在做WGD检测之前,预计油松会有多次WGD的发生,但是作者发现油松中仅仅只有有两次古多倍化事件。第一次发生在松科和柏科分化前,第二次发生在松科和柏科分化后。
Fig S1c
Fig S1d
作者对油松做了基因家族的收缩和扩张分析(Fig S1c),发现大多数 91.2%的基因发生了加倍,仅有很少的一部分来自WGD,绝大多数,80%以上的加倍来自散在重复序列(Fig S1d)。
Fig S1b
作者对这些扩张的基因做了GO富集,这里显示了前20个显著的GO term,其中19个与抗逆相关(Fig S1b)。综上所述油松抗逆性的增强是依赖抗逆基因家族的扩张,但是这种扩张并不是依赖全基因组的复制,而是依赖这些散在的重复序。
Fig 3a
Fig 3b
油松有一个很典型的性状就是油,它富含油脂,油脂的主要成分是萜类,萜类代谢在针叶树抵御病虫害和适应环境条件中起着重要作用。为了研究松树萜类生物合成的进化过程,作者鉴定了221个参与萜类合成的基因,这些基因编码酶催化了树脂萜类生物合成途径的22个反应步骤。在这个萜类合成通路中可以发现,某些关键酶或者说限速酶的基因在油松中增加了好几倍,并且这些多出来的基因往往是成簇分布,这些限速酶的急剧扩张可能是油松油脂合成旺盛的关键。
结论5 针叶树生殖发育的独特调控网络
Fig 4a
最后一部分,作者利用油松高质量的基因组构建了针叶树生殖发育的调控网络。
在模式生物拟南芥中已经鉴定到了306个调控花期的基因,利用这些基因在油松中找到了保守的77个调控花期的同源基因。被子植物中调控花期的许多关键基因,比如FT、FLC、FLM在油松中都没有鉴定到同源基因(Fig 4a)。
Fig 4b
Fig S4e
Fig 4c
MADS-box 转录因子家族在被子植物的生殖发育中起着重要作用,在被子植物中得到了广泛的研究,作者根据同源性,在油松中鉴定到了12个转录活跃的MADS-box 家族成员。对它们两两进行了酵母双杂的验证,图4a是两两互作关系,根据这些互作,构建了图4b的调控网络。PtDAL10这个基因在生殖器官发育过程中持续高表达,而且存在广泛互作,因此推测 这个基因具有比较重要的功能。作者在拟南芥中进行了验证,当过表这个基因的时候,会导致拟南芥早花。由此作者提出了这个控制油松雌雄球果发育的模型。
总结
以上是这篇文章的主要内容,文章的正文实际上分了应该是9个结论,但是我把把它合并成了五个主要的部分,第一部分是基因组的组装和注释,第二三部分是局部和整体的基因组描述,四五部分是针对油松的抗逆和生殖展开具体的研究。这是我自己的理解, 可能有些不恰当,欢迎大家一起交流探讨。
在这篇文章的首页,作者对文章的四个亮点进行了总结。
首先是发布了迄今为止最大的裸子植物基因组染色体水平的基因组和甲基化组,2013年发表的挪威云杉基因组是20G,组装结果是200万的contig,油松是25.4G,组装真正达到的染色体水平。
第二个亮点是对如此庞大的基因组的前世今生和未来做了很好的描述,油松基因组变大时近期发生的,而且由于LTR去除率过低,这种扩张还会继续发展下去。我们经常说松柏自高洁,但是在这种高洁的外表下其内在是失控的 并且生活在一大堆垃圾中。
第三个亮点是发现了具有超长内含子的大基因往往具有较高水平的表达,并且针对这个发现提出了一个新的模型。
第四个亮点是对针叶树特别是油松的生殖进化轨迹进行了很好的描述。
本文使用 文章同步助手 同步