要读的文章太多了。实在是没时间把所有的感兴趣的文章都精读一遍。那就借助GPT快速总结一下文章的内容。
文章标题:Sequence basis of transcription initiation in human genome
DOI:10.1101/2023.06.27.546584
Link: https://www.biorxiv.org/content/10.1101/2023.06.27.546584v1.abstract
微信公众号点击【阅读原文】即可跳转到论文的页面哦
下面是这篇文章的梗概。
Basic Information:
Title: Sequence basis of transcription initiation in human genome (人类基因组转录起始的序列基础)
Authors: Kseniia Dudnyk, Chenlai Shi, Jian Zhou
Affiliation: Lyda Hill Department of Bioinformatics, University of Texas Southwestern Medical Center, Dallas, Texas, United States of America
(美国德克萨斯州达拉斯市德克萨斯大学西南医学中心Lyda Hill生物信息学部)
Keywords: transcription initiation, sequence patterns, promoter, gene expression, mammalian species
(转录起始,序列模式,启动子,基因表达,哺乳动物物种)
论文简要
通过深度学习启发的可解释建模方法,研究人类基因组中转录起始的序列基础,发现简单的规则可以解释大多数人类启动子的功能,并揭示了启动子序列与基因表达变异之间的联系,以及在哺乳动物物种中序列决定因子的保守性。
背景信息
论文背景
转录起始是确保基因正常功能的重要过程,然而,人类基因组中决定转录起始位点的序列模式和规则的统一理解仍然难以捉摸。
过去方案
在过去的几十年中,已经在各种物种中鉴定出了一些核心启动子元素(或模式),包括TATA-box、Initiator (Inr) motif以及几个下游模式(MTE、DPE、DPR)。
然而,人类启动子通常不具备这些模式,并且许多转录因子模式出现在启动子附近,但其在启动子功能中的作用尚未明确定义。
论文的Motivation
作者指出,我们对于大多数人类启动子的序列模式如何决定转录起始位点的了解仍然不完整。
此外,转录起始过程涉及许多因素,甚至一个碱基对可能具有多种功能,使得这个问题尤为具有挑战性。
因此,需要一种系统的方法来同时解析多种类型的序列依赖关系,以解决这个问题。
方法
理论背景
本研究旨在理解人类基因组中决定转录起始位点的序列模式和规则。
已经确定了一些核心启动子元素,但许多人类启动子没有这些基序。
转录因子基序在启动子附近的作用也没有明确定义。
本研究旨在填补这些知识空白,提供转录起始序列的统一模型。
技术路线
作者开发了一种名为Puffin的深度学习模型,用于解释大多数启动子序列背后的序列贡献。
该模型识别了关键的序列模式和它们的位置特异性效应曲线,并通过实验证实了这些结果。
Puffin还分析了基序贡献与基因表达调控之间的关系,以及双向转录的序列基础。
该模型的发现在哺乳动物物种中具有高度保守性。
结果
实验设计
作者开发了序列模型,以解析转录起始的序列基础。
这些模型通过训练来预测基于碱基的转录起始信号,并能够分析转录起始位点的基序组成、方向性、调控特性和序列规则保守性。
模型使用实验测量结果进行验证,并与数据呈高度相关。
实验结果
Puffin模型基于深度学习模型Puffin-D捕获的序列依赖性分析设计而成。
它计算学习到的序列模式的碱基分辨率激活分数,并计算它们对转录起始的位置特异性效应。
该模型学习三种类型的序列模式,以捕获不同类型的序列依赖性:基序、三核苷酸序列模式和启动子序列模式。
Puffin模型学习到了对转录起始具有位置特异性效应的三种序列模式。
这些模式包括基序、启动子和三核苷酸。
该模型通过使用少量的序列模式和简单的加法/乘法规则来预测基于碱基的转录起始信号。
序列模式的位置特异性效应曲线表示了基序在与基序相关位置的激活和抑制效应。
Puffin模型稳健地发现了十个基序,其中一些与已知基序相匹配。这些基序可以分为两组:具有方向性的基序和双向基序。
具有方向性的基序包括TATA、YY1、U1 snRNP和Long Initiator (Long Inr)。
双向基序包括SP、NFY、ETS、ZNF143、NRF1和CREB。
基序的位置特异性效应曲线显示出不同的模式,可能反映了它们的作用机制。
U1 snRNP基序对总mRNA有正效应,表明其在转录起始后产生影响。
Long Initiator基序与启动子序列模式具有相似性。
双向基序预计能够结合特定的转录因子,并在基序两侧的两条链上激活转录。
启动子序列模式命名为Short Inr和Long Inr,调节局部转录起始的倾向性。
Long Inr是Short Inr的扩展版本,包含下游核心启动子元素。