Network-based approaches for understanding gene regulation and function in plants

文章截图

背景

测序技术的发展带来了许多问题，例如，如何有效挖掘大量组学数据集，深入理解复杂生物学特征背后的分子机制。

为解决这个问题，植物转录调控研究中主要使用的方法是转录网络分析，即一种基于网络分析，推导描述生物过程的模型。这种模型注重分子之间的相互作用，以识别可能存在的生物过程。如Fig1，转录网络分析包括数据采集、网络建模和网络功能评估。首先，通过高通量测序技术获得基因表达数据，构建共表达网络；然后，与TF-DNA相互作用组数据整合构建基因调控网络(GRNs)，或者不使用TF-DNA相互作用组数据而直接推断构建GRN。

转录网络分析概要图

内容概要

首先，文章阐述了近年来监测转录组动态变化和TF-DNA互作方面的技术进展。其次，文章描述了已公开的转录网络计算建模方法，并说明了植物生物学中各种建模算法识别的部分特性。最后，文章介绍了植物基因调控在系统层面的研究可能会面临的挑战和其未来发展方向。

DATA COLLECTION FOR GENE NETWORK INFERENCE

Transcriptome analysis

量化全局基因表达的变化是构建转录网络的重要部分，目前量化方法中公认的最合适的方法之一是RNA-seq。RNA-seq可以适应任何生物系统，提供直接且无偏的转录丰度变化，为转录网络的搭建提供基础数据。

TF-DNA interaction profiling

作物很多生物过程是由TF-DNA的相互作用介导的，TF-DNA相互作用会影响基因的转录表达。当前主要有三种常用的实验技术，可以描述TF在基因组上的结合位点与互作情况：

（1）ChIP-seq，即染色质免疫共沉淀技术以及深度测序

（2）利用异源表达系统绘制结合位点，例如酵母单杂交技术（Y1H）

（3）回贴至开放核染色质区域，包括DNase-seq、MNase-seq、ATAC-seq等技术。DNase-seq是使用限制性内切酶（DNase I）对样品进行片段化处理。MNase-seq是使用限制性外切酶切除不受保护的区域，余下核小体上缠绕的DNA序列。ATAC-seq是使用Tn5转座酶随机结合到DNA转录起始位置，完整捕获整个开放序列。

但目前，上述方法引入到作物研究领域还是非常困难的，都有着各自的技术短板。ChIP-seq方法被广泛应用于拟南芥的研究中，但由于为作物制备高质量ChIP-seq库的技术限制，ChIP-seq在作物中的实施更困难。Y1H筛选受异源表达系统的影响，在非植物细胞中的互作的TF-DNA并不意味着特定的实验条件下在植物细胞内相互作用。DNase-seq、MNase-seq对于遗传物质需求量大，制备过程非常复杂。与DNase-seq、MNase-seq相比，ATAC-seq虽然降低了遗传物质需求量，简化了样品制备过程，但其主要缺点是Tn5转座酶也可以结合线粒体和叶绿体基因组，影响了获得核基因组相关信息的效率。

In vitro TF-DNA binding databases

TF常与目标基因转录起始位点（TSS）附近的顺式作用元件（CREs）结合，影响基因的转录表达，并且为TF-CRE与DNA结合存在特异性。因此，CREs是控制基因表达的关键元件。目前已开发的植物CREs体外识别技术有PBM、DAP-seq；相关的计算开发工具包括MEME组件、HOMER。

NETWORK INFERENCE：MODELING METHODS

植物的转录网络分析主要包括共表达网络与GRNs。

Coexpression network modeling

近年来，随着相关技术与算法的发展，共表达网络模型在解决许多生物学问题方面越来越受欢迎。这种模型支持在多个条件下同时识别、聚类和探索数千个具有相似表达模式的共表达基因。文章举例证明了共表达网络的以下特点：（i）在鉴定新的植物基因方面具有强大的作用；（ii）可用于研究植物中未知的代谢途径；（iii）可用于研究次要代谢物以外（如激素）的途径；（iv）可用于定量测量共表达模块之间的距离，促进分子表型研究；（v）可用于研究基因表达变化的时间动态。

GRN modeling

如Fig2，转录网络构建后与可用的表型数据整合，作为机器学习模型的训练集，用以训练模型。机器学习模型通过训练，可以预测输入数据中基因之间网络关系。经过植物体内功能验证的数据可以直接合并到训练集中，提高机器学习模型的性能。

基于机器学习的转录网络概要图

GRN建模时，利用转录组数据预测TF-DNA互作是一项工作难点，目前的方法可大致分为基于模型预测和无模型预测。

基于模型预测需要构建生物模型，然后学习该模型参数，创建针对给定数据集的动态模型。其中最常用的一种方法是Bayesian network(BN)，已成功应用于推断转录因子和下游靶基因之间的功能关系。

无模型预测，即它们不对基因调控机制做出任何假设，只优化基因间共变异的尺度。其中常见方法有基于机器学习的回归树算法，the Gene Network Inference with Ensemble of Trees 3 (GENIE3) 。

Regression Tree Pipeline for Spatial，Temporal，And Replicate，一种基于回归树且实现GENIE3的方法，最近用于将时间序列转录组数据集与磷蛋白组数据集成GRN模型，成功揭示了JA信号与其他信号通路串扰的新成分。尽管这种方法性能已被证明，但通常难以解释，限制了这种方法的预测能力。

目前，Jump3已应用于连接基于模型预测和无模型预测，表现出了具有竞争力的性能，在未来可能用于建立高度复杂的GRN。

Network visualization and online tools

推断的基因转录网络需要一种合适的方式进行可视化。目前Cytoscape是应用最广泛的网络可视化工具，内置网络拓扑分析算法，可以通过200个组件拓展功能（https://apps.cytoscape.org/apps/all)，改善网络展示或下游分析。VirtualPlant (http://virtualplant.bio.nyu.edu)提供了在线平台，可根据多物种全基因组数据识别并可视化给定基因之间的互作。

CONCLUDING REMARKS AND FUTURE PERSPECTIVES

当前主要的困难是缺乏一套基于机器学习的转录网络分析的标准计算流程。另一个重要的瓶颈是训练集质量不高，降低了模型推理的性能。高质量训练集包括数据准确，高信噪比和较好的重现性。

另外，在后基因组学时代，我们面临的一个重要问题是是否能够以合理成本，从高度异构、嘈杂多维的数据集中提取出具有生物学意义的理解。基于机器学习和人工智能的模型开发，有望通过改进数据聚类，辅助利用植物转录组数据探索转录网络时空动态。

20211024读书笔记 Network-based approaches for understanding gene regulation and function in plants