微阵列数据的网络分析
作者
- Alisa Pavel, Angela Serra, Luca Cattelani, Antonio Federico,and Dario Greco
摘要
- DNA微阵列被广泛用于研究基因表达。尽管传统的微阵列数据分析基于差异表达基因的研究,但众所周知,基因并非单独起作用。网络分析可用于研究生物系统中基因的关联模式。此外,它在不同系统之间的差异共表达分析中具有广泛应用。
- 基于网络的共表达研究已被用于(复杂)疾病基因优先排序、疾病亚型划分和患者分层。
- 在本章中,我们概述了用于从微阵列数据创建网络的方法和工具,并描述了多种分析单个网络或网络组的方法。所描述的方法涵盖从拓扑指标、功能组识别到数据整合策略、拓扑通路分析以及图模型。
关键词
- Microarray, Coexpression, Differential coexpression, Multilayer networks, Pathways
引言
-
大规模转录组分析的最终目标
- 例如,DNA微阵列的应用
- 表征特定生物条件下的分子变化[1, 2]
-
传统单变量分析的局限性
- 转录组学分析能够识别在特定条件下上调或下调的数百个基因
- 单个基因的变化可能无法展示系统中复杂的相互作用[3]
-
共表达网络分析的优势
- 描述基因-基因相互作用,以支持表型的理解
- 在大规模转录组实验中,基于网络的分析可以表征个体基因之间基于表达水平的机制性相互作用[4–7]
[图片上传失败...(image-3cbd05-1727830721693)]
<figcaption>image</figcaption>
-
共表达网络的构建
基于微阵列测量的基因表达估计值构建共表达网络(见图1a–c)
基因和它们的关联以图的形式表示,基因作为网络的节点,相似性的强度通过加权或无权边连接
-
网络表示的优势
- 利用广泛的网络拓扑属性生成关于系统的新知识[8, 9]
- 社区检测或模块检测可发现紧密连接的基因区域(见图1g),并通过通路或基因本体富集进行功能性表征(见图1h)[10]
- 多网络比较可以提供关于特定功能、单个基因或基因邻域在多种条件下是否受到影响的见解
-
与其他先验信息的整合
- 使用DNA微阵列数据构建的共表达网络可以与其他先验信息(如蛋白质-蛋白质相互作用(PPI)网络或共同调控网络)整合,以提高结果的鲁棒性(见图1d)[11]
- 基于基因或其蛋白质直接相互作用或共同调控通常属于相同的生物功能,因此可能共表达[12]
- 在网络生成过程中添加这些信息,允许算法检测噪声相关模式
- 网络分析也可应用于多组学数据分析,使用来自不同(实验)数据层的互补信息构建生物系统的综合网络图
-
基因优先级排序方法的发展
自从DNA微阵列技术成为研究复杂(或多因素)疾病的关键工具,这些疾病由涉及大量基因的复杂相互作用和扰动导致,基因优先级排序方法的发展迅速[13]
这些方法旨在通过利用大规模组学研究来发现和优先排序候选疾病相关基因标记[14]
通过基于网络的方法进行基因优先级排序已成为相当流行的工具
另一个理解分子关系的复杂层面在于大多数细胞过程通过关键基因相互连接(见图1f)
网络分析帮助生物医学研究人员识别和优先排序这些关键基因
-
两种最广泛使用的策略:
- 考虑网络的拓扑结构
- 利用组成网络的基因的先验信息[15]
-
网络理论在疾病子类型划分中的应用
- 近年来,大量大规模数据的可用性使得多种人类疾病,特别是多因素疾病,能够定义“疾病子型”[16]
- 尽管某种疾病在受影响人群中具有相似的表型特征,但个体患者很少表现出相同的分子构成
- 这在复杂疾病如癌症以及代谢和免疫综合征中尤为明显[17]
- 以癌症生物学研究为例,识别患者子型是一个核心研究主题,旨在发现新的药物靶点并从传统治疗方法(单一疾病-单一疗法)转向****准个性化的药物治疗(单一疾病-多种疗法)
- 某些癌症类型的组织学子型已被很好地建立[17]
- 相比之下,从分子角度进行癌症子型划分可能不那么明显,原因在于癌症中的分子变化异质性
- 通过整合分子网络与突变谱,可以实现临床相关子型的肿瘤分层
-
本章内容概述
- 定义图或网络的概念
- 描述构建基因共表达网络的算法及其基于网络拓扑的相关节点和边的识别指标
- 涉及通路富集分析的基本概念
- 差异共表达分析
- 在生物网络上使用图形模型
图的概念
[图片上传失败...(image-d838dd-1727830721693)]
<figcaption>image</figcaption>
-
图的定义
- 一个图 ( G = (V, E) ),由一组节点(V)和一组边(E)组成。
- 例如,图2a中的节点集为[w, x, y, z],边集为[yw, yx, yz, xz]。
- 边wy连接两个节点[w, y],用于建模节点w和节点y之间的关系。
-
无向网络
- 在无向网络中,yw = wy。
- 这意味着任何边都没有方向,可以双向遍历。
- 例如,在图2a中,可以通过边yw从w到y,也可以通过边wy从y到w。
-
有向网络
- 在有向网络中,每条边都有一个方向,图只能按该方向遍历。
- 例如,在图2b中,可以通过边yw从y到w,但无法通过wy从w到y,因为不存在边wy。
-
边的权重属性
边可以关联权重属性,例如,表示节点y和节点w之间的距离或相关系数。
-
在无权网络中,每条边被视为相等,不分配权重属性。
- 例如,在图2a中,从节点y到节点x或节点z的“成本”相同。
- 在图2c中,边zx的“成本”比边yx的“成本”更低。
-
权重属性的含义取决于用户定义:
- 大的值可以表示更大的距离或更高的相似性(例如,边属性为相关性时)。
- 权重属性不必限制在[0,1],可以在任意范围内,由用户定义。
用户需确保算法正确解释边属性。
-
二元网络表示
-
在二元网络表示中,边的权重为1或0。
- 边权重为1表示该边存在。
- 边权重为0表示该边不存在。
-
基因共表达网络的算法
-
微阵列实验分析的结果
-
归一化表达矩阵 ( D )
- M行代表基因
- N列代表样本
-
从该矩阵构建基因共表达网络
- 允许研究基因在实验条件下的共同行为
-
-
共表达网络的定义
-
图 ( G = (V, E) )
- V:M个节点,代表基因
- E:边集,代表所有基因对之间的共表达
假设:表达模式相似的基因是共表达的
-
共表达计算方法:
-
信息理论方法:
- 皮尔逊相关系数
- 互信息(MI)[18, 19]
-
相似性评估:
-
连续值范围:-1到1
- 正值:基因表达模式相似
- 负值:基因表达模式相反
-
-
-
-
加权无向全连通图
-
边的性质:
- 加权、无向、全连通
- 每对基因之间存在一条边
-
噪音问题:
- 微阵列数据容易受到噪音和实验偏差的影响
- 需要区分真实边和噪音边[20]
-
-
边的筛选方法
-
简单阈值法
用户定义阈值,切除权重低于阈值的边
-
假设:
- 低相关或互信息值可能由噪音引起
- 高值可能包含有意义的信息
-
缺点:
- 阈值选择任意
- 不考虑网络的拓扑结构
- 每条边独立处理
-
-
高级算法
-
RelNet [21]
-
两步法:
- 创建完全连接的基因共表达矩阵,计算所有基因对的互信息
- 定义TMI阈值,识别显著关联
-
-
ARACNE [22]
- 使用互信息和相关系数
- 计算所有基因对的共表达值
- 减少假阳性连接,通过剪切每组三元组中的较弱关联
-
CLR [23]
- 计算互信息
- 计算每个互信息值在网络背景分布中的统计概率
- 选择显著高于背景分布的互信息值作为最可能的相互作用
-
算法差异
- 不同算法通过不同启发式方法筛选非相关边
- 在相同数据集上执行时,结果网络可能不一致
-
-
INfORM工具 [10]
目的:推断更稳定和鲁棒的网络
-
方法:
- 集成策略,结合多个算法的结果
- 基因排名,根据相关性进行排序
- 合并网络,确保基因-基因关联的鲁棒性
-
优势:
- 提供图形用户界面
- 指导用户进行算法设置和执行
局部和全局连通性测量
-
真实网络的拓扑性质研究
1999年,Albert-László Barabási 和 Réka Albert 发表了一项研究 [24]
-
他们发现真实网络与随机网络在连通性上存在差异
- 真实网络(如万维网或分子网络)遵循无标度幂律分布
- 随机网络遵循高斯分布
-
无标度网络特征:
- 含有少数枢纽节点,具有大量边
- 大多数节点具有较少边
-
局部和全局网络指标
目标:量化节点基于网络拓扑的重要性 [25]
帮助识别对其他基因有高影响力的基因(如关键调控基因),可能是治疗的良好靶点 [26, 27]
-
各种测量方法(见表1):
- 不同方法评估节点的重要性(如信息流)
- 建议结合多种测量方法
[图片上传失败...(image-7bfe33-1727830721693)]
<figcaption>image</figcaption>
-
生物网络中的指标解释
-
PPI网络或共表达网络中:
- 高连接度节点(枢纽基因)可能是重要调控因子(如转录因子)
-
PPI网络:
- 表示蛋白质在生物系统中的已知相互作用
- 节点为蛋白质,关系表示已知的相互作用(如酵母双杂交分析)
-
多网络比较:
- 比较不同组织或处理条件下的共表达网络
- 使用度分布评估系统是否发生了显著扰动或比较基因的分位数位置 [34, 35]
-
加权网络(如加权共表达网络):
- 使用强度测量代替度测量
- 添加关于节点间相关性强度的信息
-
中心性指标:
- 中央性指标不仅考虑节点的直接连接,还考虑其在网络中的整体位置
- 比较多个网络时,可识别整体连通性显著变化的基因,可能受研究条件影响 [34, 36]
-
示例(图3):
- 节点w具有最高的度和特征向量中心性
- 节点c具有最高的接近中心性
- 节点x具有最高的中介中心性,因为所有两个紧密连接组之间的流量都需要通过它
-
[图片上传失败...(image-277c4b-1727830721693)]
<figcaption>image</figcaption>
-
全局网络测量
-
全局网络测量(见表2):
- 旨在量化网络的整体拓扑结构,不考虑个别节点
- 有助于比较多个网络或比较缺少大量共同基因的网络
-
结构性测量:
- 快速比较多个网络
- 例如,量化处理是否与对照网络相比有特殊影响
- 低密度网络可能表明失去稳态 [46]
-
图元分布和环路分布:
- 图元分布:不同的图元与PPI网络中的不同生物功能相关
- 环路分布:存在环路可能表示生物调控网络中的反馈回路 [42, 43, 47]
-
[图片上传失败...(image-b15118-1727830721693)]
<figcaption>image</figcaption>
社区检测算法
[图片上传失败...(image-71b707-1727830721693)]
<figcaption>image</figcaption>
-
社区检测算法的目标
将图的节点分组为社区,基于不同的属性
社区定义为内部连接紧密,与网络其他部分的外部连接较少
-
示例(图4):
- 节点组w、z、x在拓扑上紧密连接
- w、z、x组之间外部边较少,因此可描述为三个独立社区
-
社区的定义与分类
-
社区(或称模块)定义:
- 节点集 ( C = {n_1, n_2, \dots, n_n} )
- 节点可以属于单一社区或多个社区
-
社区检测算法的分类(表3):
-
节点聚类算法:
- 为每个节点分配特定社区
-
重叠社区检测算法:
- 允许节点属于多个社区
-
概率社区检测算法:
- 估计节点属于社区的概率
-
边聚类算法:
- 类似节点聚类,但对边进行分组
-
-
-
社区检测算法的详细分类
-
加权与无权算法:
-
加权算法:
- 考虑边的权重
-
无权算法:
- 视所有边为相等
-
-
选择算法的依据:
- 根据研究问题和网络类型选择适合的算法
- 生物网络常需考虑节点的多重功能
-
-
共表达网络中的社区检测
假设:拓扑上接近的节点属于同一过程(如同一路径的基因)
-
社区分组的优势:
- 功能富集网络的部分区域
-
常用方法:
- 节点聚类为主,但节点多社区归属在生物网络中常见
-
加权社区检测:
- 利用边权重(如相关性值)增强社区分组的准确性
- 挑战:可能增加计算复杂度
-
社区划分的评估指标
-
评估“社区划分质量”的指标(表4)
- 不同算法基于不同参数识别最佳划分
- 评估参数侧重于不同的质量指标
-
评估策略:
根据选择的社区检测算法选择适当的评估指标
多重评估参数:推荐多角度评估划分质量
-
集成社区检测方法:
- 结合多种划分结果,识别共识划分
- 优点:结合不同算法的优势,提升社区划分的鲁棒性
- 缺点:计算成本较高
-
通路富集分析
-
基因水平的差异表达分析局限
- 无法捕捉基因表达失调的功能性影响
- 需要更丰富的方法,将贡献于单一生物功能的基因进行联合分析
-
通路分析的定义与目的
通路分析是一种分析程序,帮助阐明维持特定表型的功能性相互作用的破坏
-
通路:
- 细胞过程中功能性相互作用的简化表示
- 多个不同性质的参与者(如蛋白质、代谢物)通过功能关系连接(例如,蛋白质-蛋白质相互作用)
-
利用生物功能关联数据库
将组学实验的分子发现与特定表型关联的常见方法
-
常用数据库:
- KEGG(京都基因与基因组百科全书)[68, 69]
- Reactome[70]
- Biocarta[71]
- PANTHER[72]
-
数据库内容:
- 基因集合分组到通路或生物功能
- 功能性表征一组相关基因(如差异表达基因或特定社区中的基因),而非单独研究
-
富集方法
-
经典富集方法依赖于统计检验评估通路或功能组中基因的过度表达的统计显著性
-
常用统计方法:
- 富尔确切检验(Fisher exact test)
- 卡方检验(chi-square test)
- 超几何检验(hypergeometric test)[73]
-
-
基因集富集分析(GSEA)[74]
- 基于基因排序列表评估一个或多个通路的富集
- 使用Kolmogorov–Smirnov检验[75]
-
[图片上传失败...(image-d86c25-1727830721693)]
<figcaption>image</figcaption>
-
拓扑学方法的发展
-
从非拓扑学方法转向拓扑学方法
- 考虑基因在通路中的位置、信号的类型和方向
- 优势:假设检验更准确[66, 76]
-
影响分析(Impact Analysis)[77]
整合拓扑信息的首个方法
-
考虑两项属性:
- 基因失调的幅度(通常表示为对数倍数变化)
- 基因-基因相互作用在通路中的位置和类型
-
实现工具:
- Pathway-Express包(现包含在ROntoTools中,https://rdrr.io/bioc/ROntoTools/)
- 后续工具:SPIA[78]、graphite[79]、ROntoTools[80]
-
[图片上传失败...(image-106578-1727830721693)]
<figcaption>image</figcaption>
-
拓扑学与非拓扑学方法的比较
-
Nguyen等人[66]对五种基于拓扑学的通路分析工具和八种非基于拓扑学的工具进行了比较
-
发现:
- 基于拓扑学的工具通常表现更好
- 具体表现取决于工具和比较的具体方面
-
研究结果:
- 在真实病理数据的通路排名中,非拓扑学的PADOG算法[81]表现最佳
- 在敲除实验数据中,基于拓扑学的ROntoTools表现最佳
- 在零假设下的p值分布中,非拓扑学的GSEA[74]是唯一无偏的方法
-
-
差异共表达分析
-
差异共表达分析的目标
识别两个或多个共表达网络结构中的显著差异
-
假设:
- 在不同实验设置(如疾病与对照)中,差异共表达的基因更可能是关键调控因子
- 这些基因可能解释表型之间的差异[82–85]
-
基本方法
-
最简单的方法:
- 对每个网络中的基因根据一个或多个中心性指标(如度中心性)进行排名
- 比较这些排名,识别仅在一个共表达网络中排名靠前的基因[25, 86, 87]
-
其他基因基于的方法:
识别在多个实验条件下与其他基因的关联发生变化的基因
-
策略分类:
- 全局方法:比较一个基因与所有其他基因的表达模式
- 局部方法:比较一个基因与部分基因的表达模式
- 混合方法:结合全局和局部测量[35, 88]
-
-
具体方法
-
全局基因方法:
- DCglob [89]
- N-statistic [83]
-
局部基因方法:
- DCloc [89]
- DCp [90]
- DCe [90]
- DiffK [91]
- 差异基序中心性 [25]
- RIF [92]
- 基于相关向量的指标 [93]
-
混合方法:
-
DiffRank:
- 结合局部和全局差异关联测量[94]
-
-
-
复杂方法
-
通过识别每个网络中的社区并进行比较(见图7)
-
简单比较:
- 模块的存在或不存在(图7a)
- 说明某一生物过程在特定实验条件下可以或不可以执行
-
模块结构比较(图7b):
- 识别两个网络中共同的模块
- 比较它们的连接结构
- 示例:同一生物功能由不同的关键基因驱动
-
更复杂的模式:
-
社区分裂(图7c):
- 一个社区在一个网络中存在,在另一个网络中被分裂成多个社区
-
基因跳跃(图7d):
- 一组基因从一个社区跳转到另一个社区
-
-
-
-
工具
-
模块级差异共表达分析工具:
-
WGCNA [95]:
- 模块识别,计算模块在子样本群体中的重要性
DICER [82]
-
DiffCoEx [96]:
- 识别新模块,允许多条件间比较
-
DINGO [97]:
- 基于基因在特定条件下的不同表现进行分组
-
CoXpress [99]:
- 仅能比较两个实验条件之间的模块
-
GSCA [98]:
- 从已知基因列表开始,根据差异共表达评分进行排名
-
其他方法(仅适用于二元比较和已知基因集):
- GSNCA [100]
- CoGA [101]
- dCoxS [102]
- DiffCorr [103]
-
-
[图片上传失败...(image-772ea1-1727830721693)]
<figcaption>image</figcaption>
-
应用实例
-
成功案例:
识别特定组织或疾病状态独有的网络[104, 46]
-
GTEx项目 [105]:
收集了35种不同人类组织的多重表达数据
基于每种组织的平均基因表达生成单一综合共表达网络
-
发现:
- 组织特异性转录因子与组织特异性基因高表达共同
- 组织特异性基因位于网络边缘
- 转录因子位于网络中心
-
方法:
- 通过识别组织特异性网络中共表达强度增强的模块
- 定位这些模块的中心枢纽以发现转录因子
- 识别位于模块边缘的组织特异性基因
-
图的整合策略
-
数据整合策略的目的
- 增加微阵列分析的鲁棒性
- 辅助分析过程 [106–109]
- 利用生物领域中已有的交互网络知识库,包含基因间关系的有价值信息(如蛋白质-蛋白质相互作用网络或调控网络)[68–70, 110–113]
- 结合微阵列数据分析结果与这些生物网络,可以检测隐藏的关系和功能性影响
-
具体应用示例
-
将差异表达基因与蛋白质-蛋白质相互作用网络结合
- 调查观察到的响应中可能涉及的其他基因 [11]
-
添加关于处理条件下的直接蛋白质互作者的信息
- 对于化学物质/药物,可从 CTD [114] 或 DrugBank [115] 获取
-
映射识别的互作基因集到蛋白质-蛋白质相互作用网络
- 调查在这两个基因集之间响应传播的可能性较高的基因
-
-
网络创建过程中的知识整合
-
将蛋白质-蛋白质相互作用网络与基于相关性的共表达网络结合
- 引导在简化步骤中保留或舍弃相关边
- 例如,在INfORM工具中实现 [10]
-
注意事项:
- 避免基于整合过程中使用的相似数据评估最终结果,以防引入偏差
- 例如,不应基于已知同一通路中的两个基因来评分边,然后进行社区检测和通路富集分析
-
-
多层或多重网络的整合
-
异构网络:
- 节点和边可以代表不同的对象和关系
- 例如,药物-基因靶点网络或基因-基因网络,具有多种关系(如相互作用、共同调控、参与同一路径)
-
将异构网络转换为同质网络(如基因-基因网络)
- 通过估计基因之间的关系(相似性)基于共同邻居
- 合并多个此类网络为单一网络,通过结合其边或添加其邻接矩阵
-
-
多组学数据的整合
-
多组学数据:来自相同样本集的多种分子实验结果(基因表达、甲基化、拷贝数变异等)
- 展示与同一生物过程相关的互补方面
- 增进对研究表型的整体理解
-
整合分析方法 [117–119]
-
SNF [107]:
将多个同质节点集的网络结合为单一网络
-
应用场景:患者子类型分类
- 每个共表达网络代表各组学视角下的患者相似性
- 合并这些网络,构建考虑所有不同组学数据的患者相似性网络
- 用于将患者聚类为多个子集
-
lemon-tree [120]:
从基因表达数据开始,识别基因共表达模块
-
步骤:
- 使用基于模型的Gibbs采样器推断共表达基因簇
- 通过基于谱边聚类的共识方法识别共表达基因模块
- 结合另一个组学数据层(如miRNA表达、CNV和甲基化数据)
- 使用决策树结构推断调控评分
-
-
图形模型
-
图形模型的定义
-
生物系统本质上是高度复杂的系统,尚无法被准确描述
- 关系存在可以通过概率来描述
-
图形模型是一种紧凑定义大量变量的概率分布的方法
- 图形模型:统计条件依赖的图形表示
- 节点:系统中的变量
- 边:依赖关系的表示
-
-
图形模型的类型
-
贝叶斯网络(图8a)
有向无环图(DAG)
-
Markov blanket:
- 父节点
- 子节点
- 子节点的父节点
-
马尔可夫网络(图8b)
- 无向图,允许环路
- Markov blanket:第一邻居
-
依赖网络(图8c)
- 有向图,可能包含环路
- Markov blanket:父节点
-
[图片上传失败...(image-540ef7-1727830721692)]
<figcaption>image</figcaption>
-
图形模型的优缺点
-
优点:
- 通用性:不限制建模条件概率函数的形式,包括非线性函数
- 紧凑表示:图结构表示变量之间的条件依赖
-
缺点:
-
学习复杂性:
- 结构和分布需从数据中学习
- 算法通常较慢,尤其在微阵列数据分析中
-
-
-
动态贝叶斯网络(DBN)
定义:贝叶斯网络在每个时间点的复制,边连接连续时间点的节点
-
应用示例:
- Grzegorczyk 等人 [126]将DBN应用于拟南芥(Arabidopsis thaliana)的昼夜节律研究
-
有向图因果模型
-
定义:有向图模型中,边表示因果关系
- 因果关系比依赖关系更强
-
挑战:
- 从数据中学习因果关系尤其困难,尤其是缺乏时间序列的数据
-
应用:
- Glymour 等人 [127]回顾了因果发现方法及其在基因表达数据中的应用示例
-
-
图形模型在生物数据中的应用
潜力已被广泛认可 [121–123]
现有软件实现丰富 [124, 125]
-
应用优势:
- 灵活建模:允许复杂关系和依赖结构
- 功能丰富:支持多种概率分布和模型结构
结论/总结
-
网络方法在微阵列数据分析中的应用
描述了多种基于网络的方法用于微阵列数据分析
-
共表达网络创建算法:
- ARACNE
- CLR
- INfORM(集成方法)
定义了不同类型的网络
-
多层次和数据整合方法
-
概述了多层次和数据整合方法
- 利用广泛的(实验)衍生数据进行网络创建
-
整合多层信息:
- 提高网络的鲁棒性
- 指导分析过程(如功能富集)
-
-
网络拓扑描述和比较的不同指标
介绍了用于网络拓扑描述和网络比较的不同指标
-
基因优先级排序方法广泛应用于:
- 疾病基因识别
- 识别由治疗条件引起的系统扰动
-
示例指标:
- 度中心性
- 接近中心性
-
全局指标:
- 描述网络的整体拓扑结构
- 用于描述一组网络或评估治疗方法对基因关系的影响
-
功能组检测和社区比较算法
讨论了检测网络中功能组(社区)及其在不同网络间分布比较的算法
介绍了不同类型的算法及评估网络划分质量的多种指标
-
社区检测:
- 描述网络中紧密连接的基因组
- 高共表达,可能参与相似功能
-
社区富集:
- 通过外部数据(如通路)进行功能性描述
-
拓扑学通路分析方法
-
讨论了拓扑学通路分析方法
- 不仅考虑基因的分组,还考虑基因间的连接
-
介绍了图形模型:
- 描述生物网络中的不确定性
-
-
图形模型的介绍
- 介绍了图形模型,用于描述生物系统中的概率关系
- 强调其在处理复杂生物数据中的优势和局限性
-
综合方法的应用
概述了已建立和新兴的网络方法,用于微阵列数据分析
-
应用场景:
- 洞察基因-基因关系
- 基因-疾病关系
- 数据中包含的其他多种关系类型