随着NGS技术的进步,许多疾病中人体组织的转录谱分析变得越来越常规,在公共存储库中已存储了PB级的数据。目前需要计算专业知识有限的实验室科学家能够访问和挖掘这些数据,以了解疾病病理学、识别疾病的可靠生物标志物和干预措施的效果(体内或体外)。为此,来自美国研究团队在《Computational and structural biotechnology journal》上发布了一个用于表达数据的开源和可视化分析平台:OmicsView。
OmicsView是什么?
OmicsView是一个开源解决方案,其设计与数据类型无关,所有可视化模块均可轻松适应新的数据类型,并具有简单的用户数据上传过程。此外,研究团队提供了来自与Qiagen合作的10个疾病领域的样本水平基因表达数据集。有了OmicsView,每个实验科学家,无论他们的计算技能水平如何,都可以进行深入的数据分析和解释。
用户可以在OmicsView:
> 轻松搜索基因(使用基因名、描述、别名或数据库ID)和样本以获得详细注释。
> 通过提供基因名称列表,用户可以在组织类型、疾病状态和疾病类别内/多个样本之间比较多个基因的表达。
> 预计算相关组之间的差异基因表达以及通路富集结果。基因、样本和通路水平图在基于JavaScript的交互式视图中很容易可视化,包括PCA、火山图、多基因箱线图、热图等。
> 除了基因表达和差异基因表达数据外,OmicsView强大的信号通路分析模块还能预先计算和存储来自GO、WikiPathways、GSEA - MsigDB、KEGG和Reactome等流行公共数据库的信号通路富集结果。
案例分析展示
克罗恩病病理学的探索和TNFalpha信号通路失调的鉴定
为了证明OmicsView在发现潜在疾病病理学方面的力量,研究团队挖掘了QIAGEN's DiseaseLand提供的克罗恩病数据集。
Dashboard界面允许快速查看疾病类型的分布。
接下来研究团队使用“Pathway Heatmap”工具对所有PAGE基因集进行信号通路meta-analysis,了解克罗恩病的一般疾病病理学:一些炎症基因组有非常强的上调--其中许多是与肿瘤学有关的或计算预测的,但出现在前5名的一个典型途径是TNF-α signalling,它被强烈富集。为了进一步探究这一点,通过直接点击富集热图,我们可以将每个比较的基因表达叠加到KEGG的TNF信号通路上,识别出持续上调的基因,包括TNF、CEBP和许多下游的细胞因子和趋化因子。研究团队认为这是一种新的通路富集可视化方法,因为它指出了在meta-analysis中持续失调通路中的关键基因,而叠加的网络结构可以提示潜在的调节目标。
随后,通过在‘‘Review Comparisons”界面浏览和搜索比较,我们发现有一个GEO研究(GSE52746),包括抗TNF治疗后的结肠基因表达。这个比较可以添加到疾病与对照列表中,在选定的一组免疫学途径(包括TNF-α signalling)上,当比较12周的治疗组与基线组时,我们看到了疾病特征的显著逆转。本研究的PCA工具可以生成全基因表达谱的样本水平表示。
为了查询抗TNF反应的倍数变化幅度,可以应用带注释的火山图,突出GSE52746研究中感兴趣的基因,显示与完整转录组相比的相对强度的影响。或者可以生成多基因箱线图,根据相关患者组进行分组和着色。
我们可能还想寻找独立于先前生物学知识或通路富集的新的疾病生物标志物,因此我们可以提问“克罗恩病整个转录组中最显著的失调基因是什么?”。Meta-Analysis (Comparisons)工具将应用多种统计数据,按研究中的失调水平对基因进行排序。为了进行分析,只需要重新加载先前保存的比较列表,在上图展示了克罗恩病比较的这种分析结果。这些基因大多与IBD、结肠炎或结肠上皮细胞稳态有关。MLKL本身在TNF信号通路中,并已被作为IBD中肠道炎症的生物标志物。
OmicsView的强大之处在于这些跨研究和疾病的meta-analysis。另一个跨疾病的用例是对一个给定的目标基因进行新的适应症搜索。例如,在克罗恩病分析的激励下,我们可能想问:"TNF在哪些其他适应症中可能是一个好的靶点?"。通过创建TNF的泡沫图,可以很容易地回答这个问题,可以显示其在许多疾病和比较中的折叠变化,并突出显示前10位。在该分析中,我们看到除了克罗恩病患者与正常患者的TNF一致上调外,银屑病和溃疡性结肠炎中似乎也存在显著的TNF上调。这些验证了该方法,因为抗 TNF 治疗(例如inflfliximab、adulumamab)被批准用于这两种情况。
RNA-seq与蛋白质组学数据的整合分析
OmicsView meta-analysis的一个扩展是对RNA-seq和蛋白质组学数据集进行联合分析的能力。这对于在相同样品上进行RNA-seq和液相色谱/质谱分析(LC-MS)或其他蛋白质组分析并研究这些分析之间共同基因和通路的项目尤其有用。为了证明这一能力,研究团队上传了Connor-Robson等人在2个分化时间点(D35和D56)的患病和正常IPSC的RNA-seq和LC-MS数据集。使用通路热图工具提取上调和下调的KEGG项:显示上调最多的通路是溶酶体和ECM-受体相互作用,下调最多的通路是轴突导向和谷氨酸能突触。为了了解每个基因在途径中的作用,我们使用KEGG可视化工具,在上图C中选择 "ECM-受体相互作用",在上图D中选择 "谷氨酸能突触"。有趣的是,许多ECM基因如COL1A1和LAMA2在RNA-seq和蛋白质组学检测中都是上调的。对于谷氨酸能突触,GRM6和GRM7在各种检测中都是下调的。Connor-Robson等人讨论了LRRK2突变在内吞途径中的作用和影响,这里证实了RNA-seq和蛋白质组学数据集中该通路的每个组成部分的下调。
OmicsView官网提供了详细的使用教程指引及其与其他分析平台的比较分析。
访问OmicsView: http://omicsview.org
首发公号国家基因库大数据平台
参考文献
Casey F, Negi S, Zhu J, et al. OmicsView: Omics data analysis through interactive visual analytics[J]. Computational and structural biotechnology journal, 2022, 20: 1277-1285.
图片来源于ScienceDirect官网和参考文献,如有侵权请联系删除。