一句话总结:基于CNN,用启动子序列预测mRNA丰度
研究背景
稳态的mRNA丰度由很多调控因子所决定,重点在于选用哪种关键机制来准确预测mRNA丰度。相关研究表明启动子序列单独解释了人类大部分基因表达的变异。本文的方向是希望仅用基因序列的信息预测mRNA丰度,这里结合的是启动子序列和mRNA稳定性相关序列特征的信息(图1)。
模型结构
Xpresso的结构就是传统的卷积神经网络,先是两个连续的卷积层和池化层,接着两个全连接层,最后输出mRNA丰度的对数形式。输入用的是在TSS(转录起始点)周围区域的基因序列(图2)。
后续实验
(关注模型泛化能力)
- 跨物种测试
选取了18377个人类基因和21856个小鼠基因。先在一种物种上训练模型,之后在另一种物种上测试,结果和在同种物种数据上测试结果相近。这个发现表明所学到的调控原则在哺乳动物物种中是普遍适用的。 - 细胞内测试
用同样的参数在三种细胞类型上训练模型,一些基因的预测值比真实值要低, 这里认为是有其余调控因子未被考虑进模型,比如距离TSS较远的基因片段(远端增强子等)。
总结
文章主要想强调DNA序列可以用来预测mRNA丰度。之后做了很多生物上的insight。算是为后续这个方向的研究给了一个baseline。