多组学技术可生成细胞和组织中生物大分子的综合图谱。然而,要全面了解底层系统,需要对多种数据模式进行联合分析。2024年7月,《Nature Communications》发表了一种数据融合方法——DPM(directional P-value merging),可利用基因、转录本或蛋白质的方向性和显著性估计来整合组学数据集。
DPM是什么
DPM是一种用于多组学数据融合的统计方法,通过整合基因的P值和方向变化,在多组学的数据集中对基因进行优先排序。DPM实现了用户定义的约束向量(CV),以指定输入数据集之间的方向关联。对于每个基因,DPM根据组学数据集的P值和方向变化计算得分。显示符合 CV 的显著方向变化的基因被优先考虑,而具有显著但冲突的方向变化的基因则受到惩罚。
工作流程包括四个主要步骤:首先,将上游组学数据集处理成一个基因P值矩阵和另一个基因方向矩阵;其次,利用DPM或相关方法将P值和方向合并成一个P值基因列表;第三,使用ActivePathways方法中的排序超几何算法分析合并后的基因列表,以确定富集的通路,该方法还能确定哪些输入组学数据集对单个通路的贡献最大;最后,将得到的通路可视化为富集图,揭示特征性功能主题,并突出其来自组学数据集的方向性证据。
DPM的性能测试
研究人员在三个案例研究中演示了DPM:根据癌细胞功能实验的转录组图谱确定致癌 lncRNA 的下游靶标;将转录组和蛋白质组数据与患者临床信息整合以发现癌症生物标记物;以及通过整合表观遗传学、转录组和蛋白质组数据确定胶质瘤 IDH 突变亚型的特征。
DPM 提供了一个通用且适应性强的框架,用于探索复杂多组学数据集中研究不足的交叉点。DPM适用范围广泛,因为它对输入数据仅做了一些假设,需要注意以下几点:1)准确的上游数据处理是一项基本要求;2)只使用离散的基因方向,表示为单位符号(+1或−1),这些符号来自倍数变化值、相关性或回归系数或风险比;3)基因、蛋白质、转录物、非编码DNA中的位点以及在多组学数据集中测量的其他元素需要映射到共同的基因名称空间;4) 通路富集分析的常见局限性也适用于DPM,例如通路分析往往会包含冗余信息,并对研究充分的基因和过程产生偏差。
DPM方法可以在CRAN存储库和GitHub中作为ActivePathways R包的一部分获得:
👉 https://cran.r-project.org/web/packages/ActivePathways/
👉 https://github.com/reimandlab/ActivePathways
参考文献:
Slobodyanyuk, M., Bahcheli, A.T., Klein, Z.P. et al. Directional integration and pathway enrichment analysis for multi-omics data. Nat Commun 15, 5690 (2024). https://doi.org/10.1038/s41467-024-49986-4
首发公号:深圳国家基因库大数据平台